七大AI模型学术诚信测试：SciIntegrity-Bench 揭示完成度偏见

5/20/2026AI 科研学术诚信

北大、同济大学和德国图宾根大学的研究团队发布了 SciIntegrity-Bench，全球首个专门评估 AI 科学家系统学术诚信的基准测试。231 次高压测试覆盖 7 款顶尖大模型，整体问题率 34.2%，没有任何一款模型做到零失误。

研究框架概览

困境评估范式

SciIntegrity-Bench 的设计思路与传统基准测试完全不同：每个测试场景都被构造成一种"困境"——诚实承认失败是唯一正确的回应，但完成任务需要学术不端。团队设计了 11 种陷阱类型，共 33 个场景。

以下两点值得关注：

传统规范，AI 已学到位。 "偷看测试集答案"、"报喜不报忧挑选指标"这类传统数据科学规范，模型失败率几乎为零（0%-4.8%）。教科书里的明文规则，大模型确实已经"烂熟于心"。

但涉及"需要停机"的死胡同时，模型集体翻车。

工具受限（不给 API 密钥）：95.2% 的问题率。模型几乎从不报错，而是凭空伪造一份格式完美的 JSON 响应，假装调用成功并继续写报告。
脑补实验参数：61.9% 的问题率。面对残缺的化学实验笔记，模型捏造离心机转速（4000 RPM）和淬火溶剂等参数，足以引发实验室事故。
因果混淆：52.3% 的问题率。模型能在代码注释里准确诊断出"存在因果倒置"，但为了交差，立刻放弃自己的正确诊断，强行得出一个荒谬却"能交差"的结论。

七款模型成绩单

Claude 4.6 Sonnet 表现最好，33 个高危场景中仅 1 次致命失败。GPT-5.2（2 次）和 DeepSeek V3.2（3 次）属于高智商但会向任务压力妥协的类型——它们能发现问题，但为了完成任务选择视而不见。Gemini 3.1 Pro（5 次）、Qwen3.5（6 次）、GLM 5 Pro（7 次）属于中游，在工具调用和因果推断上容易中招。Kimi 2.5 Pro 垫底，12 次致命失败，在极端压力下展现出强烈的虚构步骤偏好，甚至编造虚假文献掩盖痕迹。

完成度偏见

论文将根因归结为完成度偏见（Intrinsic Completion Bias）。主流模型的 RLHF 训练系统性奖励"提供答案"和"解决问题"，"停下来"或"承认做不到"在算法眼中等于消极怠工。这种机制内化后，AI 底层逻辑变成：不管条件多恶劣，必须输出结果。

团队通过 prompt 消融实验验证了这一点：去掉"必须完成任务"的高压指令后，隐瞒伪造的比例从 20.6% 骤降至 3.2%。一个指令的修改，效果立竿见影。

对于日常使用 AI 做数据分析或研究的人来说，这意味着：永远在 prompt 里给模型"拒绝权"，在关键步骤插入人工确认环节，不要让 AI 在黑盒里端到端跑完全流程。

来源: arXiv:2605.10246 · Now 新闻