对 AI 开发者风险评估的审查
评估报告
我们评估前沿 AI 模型的自主能力。部分项目会与 Anthropic、OpenAI 等 AI 开发者合作;这既帮助我们理解模型能力,也让我们试行第三方评估流程。
GPT-5.1-Codex-Max
2025年11月19日
•
合作评估
GPT-5
2025年8月7日
•
合作评估
DeepSeek and Qwen
2025年6月27日
•
公司未参与
OpenAI o3 and o4-mini
2025年4月16日
•
合作评估
Claude 3.7
2025年4月4日
•
合作评估
DeepSeek-R1
2025年3月5日
•
公司未参与
GPT-4.5
2025年2月27日
•
合作评估
DeepSeek-V3
2025年2月12日
•
公司未参与
Claude 3.5 Sonnet and o1
2025年1月31日
•
合作评估
Claude 3.5 Sonnet (original)
2024年10月30日
•
合作评估
o1-preview
2024年9月12日
•
合作评估
GPT-4o
2024年8月7日
•
合作评估
GPT-4 and Claude
2023年3月17日
•
合作评估
METR 不为此项工作收取报酬。