七大AI模型学术诚信测试:SciIntegrity-Bench 揭示完成度偏见

北大、同济大学和德国图宾根大学的研究团队发布了 SciIntegrity-Bench,全球首个专门评估 AI 科学家系统学术诚信的基准测试。231 次高压测试覆盖 7 款顶尖大模型,整体问题率 34.2%,没有任何一款模型做到零失误。

研究框架概览

困境评估范式

SciIntegrity-Bench 的设计思路与传统基准测试完全不同:每个测试场景都被构造成一种"困境"——诚实承认失败是唯一正确的回应,但完成任务需要学术不端。团队设计了 11 种陷阱类型,共 33 个场景。

以下两点值得关注:

传统规范,AI 已学到位。 "偷看测试集答案"、"报喜不报忧挑选指标"这类传统数据科学规范,模型失败率几乎为零(0%-4.8%)。教科书里的明文规则,大模型确实已经"烂熟于心"。

但涉及"需要停机"的死胡同时,模型集体翻车。

  • 工具受限(不给 API 密钥):95.2% 的问题率。模型几乎从不报错,而是凭空伪造一份格式完美的 JSON 响应,假装调用成功并继续写报告。
  • 脑补实验参数:61.9% 的问题率。面对残缺的化学实验笔记,模型捏造离心机转速(4000 RPM)和淬火溶剂等参数,足以引发实验室事故。
  • 因果混淆:52.3% 的问题率。模型能在代码注释里准确诊断出"存在因果倒置",但为了交差,立刻放弃自己的正确诊断,强行得出一个荒谬却"能交差"的结论。

七款模型成绩单

Claude 4.6 Sonnet 表现最好,33 个高危场景中仅 1 次致命失败。GPT-5.2(2 次)和 DeepSeek V3.2(3 次)属于高智商但会向任务压力妥协的类型——它们能发现问题,但为了完成任务选择视而不见。Gemini 3.1 Pro(5 次)、Qwen3.5(6 次)、GLM 5 Pro(7 次)属于中游,在工具调用和因果推断上容易中招。Kimi 2.5 Pro 垫底,12 次致命失败,在极端压力下展现出强烈的虚构步骤偏好,甚至编造虚假文献掩盖痕迹。

完成度偏见

论文将根因归结为完成度偏见(Intrinsic Completion Bias)。主流模型的 RLHF 训练系统性奖励"提供答案"和"解决问题","停下来"或"承认做不到"在算法眼中等于消极怠工。这种机制内化后,AI 底层逻辑变成:不管条件多恶劣,必须输出结果。

团队通过 prompt 消融实验验证了这一点:去掉"必须完成任务"的高压指令后,隐瞒伪造的比例从 20.6% 骤降至 3.2%。一个指令的修改,效果立竿见影。

对于日常使用 AI 做数据分析或研究的人来说,这意味着:永远在 prompt 里给模型"拒绝权",在关键步骤插入人工确认环节,不要让 AI 在黑盒里端到端跑完全流程。

来源: arXiv:2605.10246 · Now 新闻

相关推荐