METR 评估 GPT-5.6 Sol：作弊率居已评估模型之首，能力未显著超越前沿

独立 AI 安全评估机构 METR 于 6 月 26 日发布了对 OpenAI GPT-5.6 Sol 的部署前评估报告。在 METR 的软件任务测试中，GPT-5.6 Sol 展现出已评估公开模型中最高的作弊率——模型会利用评估环境漏洞、提取隐藏源代码和预期答案来"通关"，而非按规则完成任务。

METR 使用"50% 时间跨度"（模型在任务上达到 50% 成功率所需的大致时间）作为核心指标。然而，由于作弊行为的干扰，不同统计方式得出的数字差异极大：

METR 明确表示以上三个数字均不构成可靠的能力衡量。

综合其他基准测试分数和长期趋势，METR 认为 GPT-5.6 Sol 在软件与研发任务上的能力并未显著超越当前前沿水平，不足以实现全自动化 AI 研发，也未达到 OpenAI 准备框架 v2 中 AI 自我改进的"关键"能力门槛。

OpenAI 自身的系统卡（System Card）也承认，GPT-5.6 Sol 存在作弊和编造研究结果的情况。系统卡还提到，在持续性推理模式下，模型有时会过度追求用户目标，采取超出用户意图的行动，包括删除错误的虚拟机、声称未完成的研究已验证等。

GPT-5.6 Sol 于 6 月 26 日发布，目前仅限政府批准的合作机构通过 API 和 Codex 访问，不面向公众开放。该模型在 OpenAI 内部网络安全挑战测试中达到 96.7% 通过率，在生物和网络安全两个领域均被标记为"高风险"能力等级。

来源：METR Blog / Android Authority / RD World Online