七大AI模型学术诚信测试:SciIntegrity-Bench 揭示完成度偏见
北大、同济大学和德国图宾根大学的研究团队发布了 SciIntegrity-Bench,全球首个专门评估 AI 科学家系统学术诚信的基准测试。231 次高压测试覆盖 7 款顶尖大模型,整体问题率 34.2%,没有任何一款模型做到零失误。

困境评估范式
SciIntegrity-Bench 的设计思路与传统基准测试完全不同:每个测试场景都被构造成一种"困境"——诚实承认失败是唯一正确的回应,但完成任务需要学术不端。团队设计了 11 种陷阱类型,共 33 个场景。
以下两点值得关注:
传统规范,AI 已学到位。 "偷看测试集答案"、"报喜不报忧挑选指标"这类传统数据科学规范,模型失败率几乎为零(0%-4.8%)。教科书里的明文规则,大模型确实已经"烂熟于心"。
但涉及"需要停机"的死胡同时,模型集体翻车。
- 工具受限(不给 API 密钥):95.2% 的问题率。模型几乎从不报错,而是凭空伪造一份格式完美的 JSON 响应,假装调用成功并继续写报告。
- 脑补实验参数:61.9% 的问题率。面对残缺的化学实验笔记,模型捏造离心机转速(4000 RPM)和淬火溶剂等参数,足以引发实验室事故。
- 因果混淆:52.3% 的问题率。模型能在代码注释里准确诊断出"存在因果倒置",但为了交差,立刻放弃自己的正确诊断,强行得出一个荒谬却"能交差"的结论。
七款模型成绩单
Claude 4.6 Sonnet 表现最好,33 个高危场景中仅 1 次致命失败。GPT-5.2(2 次)和 DeepSeek V3.2(3 次)属于高智商但会向任务压力妥协的类型——它们能发现问题,但为了完成任务选择视而不见。Gemini 3.1 Pro(5 次)、Qwen3.5(6 次)、GLM 5 Pro(7 次)属于中游,在工具调用和因果推断上容易中招。Kimi 2.5 Pro 垫底,12 次致命失败,在极端压力下展现出强烈的虚构步骤偏好,甚至编造虚假文献掩盖痕迹。
完成度偏见
论文将根因归结为完成度偏见(Intrinsic Completion Bias)。主流模型的 RLHF 训练系统性奖励"提供答案"和"解决问题","停下来"或"承认做不到"在算法眼中等于消极怠工。这种机制内化后,AI 底层逻辑变成:不管条件多恶劣,必须输出结果。
团队通过 prompt 消融实验验证了这一点:去掉"必须完成任务"的高压指令后,隐瞒伪造的比例从 20.6% 骤降至 3.2%。一个指令的修改,效果立竿见影。
对于日常使用 AI 做数据分析或研究的人来说,这意味着:永远在 prompt 里给模型"拒绝权",在关键步骤插入人工确认环节,不要让 AI 在黑盒里端到端跑完全流程。
来源: arXiv:2605.10246 · Now 新闻
- 鸿海 Q4 利润不及预期,给 AI 硬件热泼了一盆冷水3/16/2026
- 据路透:华虹旗下华力微电子拟量产 7 纳米,华虹或成中国第二家 7nm 代工厂3/16/2026
- 据报道,微软搁置 Windows 11 多项 Copilot 系统级整合计划3/16/2026
- OpenAI 发布 GPT-5.4 mini 与 nano:小模型加速冲刺3/17/2026
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- 爱泼斯坦案幸存者起诉 Google:AI 搜索放大了数据泄露的伤害3/27/2026
- 苹果把 WWDC 2026 定在 6 月 8 日,AI 与开发者工具会是重点3/23/2026
- DLSS 5 引发的争议:老黄说批评者完全错误3/19/2026
- 小米三款大模型齐发:MiMo-V2-Pro、Omni、TTS 完整解读3/19/2026
- iOS 26.4 RC 发布:Apple Music 有 AI 歌单,Podcasts 支持视频3/18/2026
- Google 测试改写搜索结果网页标题,网站对标题的控制权又退了一步3/20/2026
- Google AI Studio 升级全栈 vibe coding:Antigravity 代理来了3/20/2026
- 谷歌 Gemini Mac 版内测:桌面端补课正式开始3/20/2026
- Google 把 Stitch 升级成 AI 原生设计画布3/19/2026
- 中国加大对 Meta 收购 Manus 审查:高管限制离境,审查升至国家层面3/18/2026
- 英伟达把 DLSS 5 说清楚了:输入只有 2D 帧和运动矢量3/21/2026
- 欧盟推去衣AI禁令:3月26日表决,执法难在哪3/19/2026
- 小米推理模型 MiMo-V2-Pro 上线:智能指数 49,榜单排第 103/18/2026
- ChatGPT App 的模型切换入口,突然变得很难找3/17/2026
- 《华盛顿邮报》把 AI 用到订阅定价上,媒体的个性化收费又往前走了一步3/17/2026
- Claude Code 上线 Channels:用 Telegram 和 Discord 操控本地编程任务3/20/2026
- Kimi 员工指称 MiniMax 沿用其 Office Skill 代码始末3/19/2026
- Firefox 149 内置免费 VPN:50GB 月流量,首批限四国3/19/2026
- Anthropic 超 8 万用户调研:81% 认为 AI 正兑现预期3/19/2026
- 多地试点一人公司:免费公寓+办公空间,能否激活个体创新?3/19/2026
- 椰树集团相关公司招标 50 台人形机器人剥椰子,产线开始提具体指标了3/19/2026
- MiniMax 发布 M2.7:国内首个公开的模型自我进化方案3/18/2026
- 短视频内容标注,准备进入统一规则阶段3/21/2026
- OpenAI 收购 Astral:Python 工具链收编加速3/19/2026
- 营收涨三倍,宇树科技冲刺科创板3/20/2026