METR

模型评估与威胁研究

AI 公司和社会各界都想知道前沿 AI 系统能做什么、可能带来哪些风险。

查看研究招聘

前沿 AI 风险报告（2026 年 2–3 月）

本报告是一项试点评估，关注前沿 AI 公司内部 AI 智能体失控部署的风险。

以下机构提供了非公开信息和模型访问权限：

阅读报告

前沿 AI 模型能独立完成多长时间的任务？

我们以 AI 智能体独立完成软件任务的时长为指标来衡量能力。在过去的 6 年内，这一指标呈指数级增长。

阅读论文查看代码仓库

精选研究

METR 主要评估 AI 系统能否自主完成各类任务，以及 AI 能否加速 AI 自身的研发。我们还研究 AI 系统可能如何损害评估可靠性，并探索相应的缓解办法。

查看全部研究

前沿 AI 风险报告（2026 年 2–3 月）

这项试点评估关注前沿 AI 公司内部 AI 智能体失控部署的风险。

阅读报告

前沿 AI 安全政策

汇总各 AI 公司已发布的前沿 AI 安全政策；分析各公司如何评估和管理重大 AI 风险。

阅读全文

负责任扩展政策（RSP）

RSP 旨在说明开发者现有的安全防护可以应对什么程度的 AI 能力，以及 AI 能力继续提升时，何时必须先加强防护并暂缓开发。

阅读全文

前沿 AI 安全法规：AI 公司员工参考指南

Miles Kodama 与 Michael Chen 梳理了加州 SB 53、欧盟实践准则和纽约 RAISE 法案的关键条款，说明了前沿 AI 开发者需要关注哪些要求。

阅读全文

为什么 AI 推理应当可读，并如实反映模型的实际决策过程

当 AI 推理既可读，又能如实反映模型的实际决策过程，人们就更容易发现错误、识别系统的隐藏意图、理解系统能力，并在造成实际危害前发现安全问题。

阅读全文

2026 年初，AI 对技术工作者生产力有多大影响？

对 349 名技术工作者的调查显示，受访者自报 AI 工具带来的工作价值提升中位数为 1.4–2 倍。他们预计影响还会继续扩大，但这一数字仍有不确定性。

阅读英文原文

可监测性评估的初步工作

这项原型评估关注两个问题：监测系统能否发现 AI 智能体执行额外任务，以及 AI 智能体能否绕过监测。

阅读英文原文

不同领域的时间跨度有何差异？

作为时间跨度研究的延伸，我们分析了科学推理、数学、机器人、计算机操作和自动驾驶等领域的 9 个基准测试。各领域的进步速度总体相近，也大致接近原研究发现的每 7 个月翻倍的速度。

阅读英文原文

MALT

一个收录破坏评估行为的数据集，包括自然出现和提示诱发的案例，如广义奖励黑客（reward hacking）和故意藏拙（sandbagging）。

阅读英文原文

Hawk

一个基于 Inspect AI 构建的开源平台，用于大规模开展 AI 智能体评估

访问网站

如何衡量 AI 的自主能力：资源合集

汇集 METR 的研究与指南，讨论如何衡量 AI 系统自主完成各类耗时数小时任务的能力

阅读英文原文

前沿 AI 安全政策的共同要素

分析十二项已发布的前沿 AI 安全政策，梳理它们的共同要素，包括能力阈值、模型权重安全和部署阶段的风险缓解措施。

阅读英文原文 PDF

前沿 AI 安全政策

汇总各 AI 公司已发布的前沿 AI 安全政策；分析各公司如何评估和管理重大 AI 风险。

阅读全文

前沿 AI 安全法规：AI 公司员工参考指南

Miles Kodama 与 Michael Chen 梳理了加州 SB 53、欧盟实践准则和纽约 RAISE 法案的关键条款，说明了前沿 AI 开发者需要关注哪些要求。

阅读全文

风险评估

我们研究前沿 AI 系统可能带来的风险。相关工作包括发布《前沿 AI 风险报告》、独立审查 AI 开发者的风险评估，以及评估前沿模型能力。

《Anthropic 2026 年 2 月风险报告》自动化研发风险章节审查

2026年5月8日 •
合作评估

Anthropic Claude Opus 4.6 蓄意破坏风险报告的审查

2026年3月12日 •
合作评估

Anthropic 2025 年夏季蓄意破坏风险试点报告的审查

2025年10月28日 •
合作评估

GPT-4 and Claude

2023年3月17日 •
合作评估

查看全部评估报告

METR 的风险评估工作不收取任何报酬。

OpenAI、Anthropic、xAI 等公司向 METR 提供过模型访问权限和 token 额度，我们将其用于评估、研究和工程工作。除这类合作评估外，METR 有时也会在模型发布后开展不由模型开发者参与的独立评估。上方列出的是 METR 近期发布的公开报告。更多细节可参见相应模型的系统卡。

前沿 AI 安全政策

METR 为 AI 开发者和政府提供咨询，帮助他们践行 AI 风险评估方法。例如，我们曾就前沿 AI 安全政策向 AI 开发者提供建议。

媒体报道

查看全部媒体报道

AI agents sometimes take sophisticated actions in violation of human intent. We outline the questions that thorough external investigations of these behaviors should answer, the access this might require, and how the resulting findings should be shared.

阅读英文原文

Metrics of Agent Ability

2026年7月24日

Tom Cunningham surveys metrics for comparing AI agent capability as performance changes with expenditure and relative to human performance.

阅读英文原文

The Economics of Recursive Self-Improvement

2026年7月22日

Parker Whitfill and Tom Cunningham highlight context and takeaways from a new paper modeling how AI may accelerate AI R&D, and whether feedback effects could be strong enough for self-sustaining acceleration.

阅读英文原文

Expenditure Horizon: Measuring Optimization Ability, with an Application to NanoGPT

2026年7月21日

We propose a measure of an AI agent’s optimization ability with an "expenditure horizon." We give an empirical illustration from the NanoGPT speedrun.

阅读英文原文

Because 8 ≈ e², Anthropic's researcher uplift is plausibly >2x

2026年7月8日

Anthropic reported that contributors merge 8x as much code per day as before AI. Thomas Kwa argues that under standard economic modeling assumptions, this implies the uplift of individual Anthropic researchers from coding agents alone is above 2x.

阅读英文原文

Because 8 ≈ e², Anthropic's researcher uplift is plausibly >2x

Summary of METR's predeployment evaluation of GPT-5.6 Sol

2026年6月26日

A summary of METR's independent, predeployment evaluation of GPT-5.6 Sol

阅读英文原文

前沿 AI 模型能独立完成多长时间的任务？

精选研究

前沿 AI 风险报告（2026 年 2–3 月）

前沿 AI 安全政策

负责任扩展政策（RSP）

前沿 AI 安全法规：AI 公司员工参考指南

为什么 AI 推理应当可读，并如实反映模型的实际决策过程

2026 年初，AI 对技术工作者生产力有多大影响？

可监测性评估的初步工作

不同领域的时间跨度有何差异？

MALT

Hawk

如何衡量 AI 的自主能力：资源合集

前沿 AI 安全政策的共同要素

前沿 AI 安全政策

前沿 AI 安全法规：AI 公司员工参考指南

风险评估

前沿 AI 风险报告（2026 年 2–3 月）

《Anthropic 2026 年 2 月风险报告》自动化研发风险章节审查

Anthropic 内部智能体监控系统红队测试

Anthropic Claude Opus 4.6 蓄意破坏风险报告的审查

Anthropic 2025 年夏季蓄意破坏风险试点报告的审查

gpt-oss 方法学审查摘要

GPT-5.6 Sol

GPT-5.1-Codex-Max

GPT-5

DeepSeek and Qwen

OpenAI o3 and o4-mini

Claude 3.7

DeepSeek-R1

GPT-4.5

DeepSeek-V3

Claude 3.5 Sonnet and o1

Claude 3.5 Sonnet (original)

o1-preview

GPT-4o

GPT-4 and Claude

前沿 AI 安全政策

媒体报道

最新动态