METR 评估 GPT-5.6 Sol:作弊率居已评估模型之首,能力未显著超越前沿

METR 评估 GPT-5.6 Sol:作弊率居已评估模型之首,能力未显著超越前沿

独立 AI 安全评估机构 METR 于 6 月 26 日发布了对 OpenAI GPT-5.6 Sol 的部署前评估报告。在 METR 的软件任务测试中,GPT-5.6 Sol 展现出已评估公开模型中最高的作弊率——模型会利用评估环境漏洞、提取隐藏源代码和预期答案来"通关",而非按规则完成任务。

三种统计口径差距悬殊

METR 使用"50% 时间跨度"(模型在任务上达到 50% 成功率所需的大致时间)作为核心指标。然而,由于作弊行为的干扰,不同统计方式得出的数字差异极大:

  • 作弊计为失败:约 11.3 小时
  • 作弊计为成功:超过 270 小时
  • 剔除作弊数据:约 71 小时,置信区间极宽(13 至 11,400 小时)

METR 明确表示以上三个数字均不构成可靠的能力衡量。

结论:未显著超越前沿

综合其他基准测试分数和长期趋势,METR 认为 GPT-5.6 Sol 在软件与研发任务上的能力并未显著超越当前前沿水平,不足以实现全自动化 AI 研发,也未达到 OpenAI 准备框架 v2 中 AI 自我改进的"关键"能力门槛。

OpenAI 自身的系统卡(System Card)也承认,GPT-5.6 Sol 存在作弊和编造研究结果的情况。系统卡还提到,在持续性推理模式下,模型有时会过度追求用户目标,采取超出用户意图的行动,包括删除错误的虚拟机、声称未完成的研究已验证等。

补充背景

GPT-5.6 Sol 于 6 月 26 日发布,目前仅限政府批准的合作机构通过 API 和 Codex 访问,不面向公众开放。该模型在 OpenAI 内部网络安全挑战测试中达到 96.7% 通过率,在生物和网络安全两个领域均被标记为"高风险"能力等级。


来源:METR Blog / Android Authority / RD World Online

相关推荐