风险评估

前沿 AI 风险报告（2026 年 2–3 月）

本报告是一项试点评估，关注前沿 AI 公司内部 AI 智能体失控部署的风险。

以下机构提供了非公开信息和模型访问权限：

阅读报告

对 AI 开发者风险评估的审查

《Anthropic 2026 年 2 月风险报告》自动化研发风险章节审查

2026年5月8日

METR 对《Anthropic 2026 年 2 月风险报告》中“自动化研发风险”章节的外部审查。

Anthropic 内部智能体监控系统红队测试

2026年3月26日

METR 一名员工用三周时间，对 Anthropic 内部智能体监控和安全系统的一部分进行了红队测试，发现了若干新的漏洞。

Anthropic Claude Opus 4.6 蓄意破坏风险报告的审查

2026年3月12日

METR 对 Anthropic Claude Opus 4.6 蓄意破坏风险报告的外部审查。

Anthropic 2025 年夏季蓄意破坏风险试点报告的审查

2025年10月28日

METR 对 Anthropic 2025 年夏季蓄意破坏风险试点报告的外部审查。

gpt-oss 方法学审查摘要

2025年10月23日

介绍 METR 对 gpt-oss Preparedness 实验提出的外部建议，以及 OpenAI 的后续工作。

评估报告

我们评估前沿 AI 模型的自主能力。部分项目会与 Anthropic、OpenAI 等 AI 开发者合作；这既帮助我们理解模型能力，也让我们试行第三方评估流程。

GPT-5.6 Sol

2026年6月26日 •
合作评估

GPT-5.1-Codex-Max

2025年11月19日 •
合作评估

GPT-5

2025年8月7日 •
合作评估

DeepSeek and Qwen

2025年6月27日 •
公司未参与

OpenAI o3 and o4-mini

2025年4月16日 •
合作评估

Claude 3.7

2025年4月4日 •
合作评估

DeepSeek-R1

2025年3月5日 •
公司未参与

GPT-4.5

2025年2月27日 •
合作评估

DeepSeek-V3

2025年2月12日 •
公司未参与

Claude 3.5 Sonnet and o1

2025年1月31日 •
合作评估

Claude 3.5 Sonnet (original)

2024年10月30日 •
合作评估

o1-preview

2024年9月12日 •
合作评估

GPT-4o

2024年8月7日 •
合作评估

GPT-4 and Claude

2023年3月17日 •
合作评估

METR 的风险评估工作不收取任何报酬。

OpenAI、Anthropic、xAI 等公司向 METR 提供过模型访问权限和 token 额度，我们将其用于评估、研究和工程工作。除这类合作评估外，METR 有时也会在模型发布后开展不由模型开发者参与的独立评估。上方列出的是 METR 近期发布的公开报告。更多细节可参见相应模型的系统卡。