CAISI 评估 DeepSeek V4 Pro:综合能力落后美国前沿约 8 个月
NIST 下属人工智能标准与创新中心(CAISI)发布了对 DeepSeek V4 Pro 的评估报告。结论:DeepSeek V4 Pro 是 CAISI 迄今评估的最强中国 AI 模型,但综合能力比美国前沿模型落后约 8 个月。
核心结论
CAISI 使用了受项目反应理论(IRT)启发的聚合评估方法,在网络安全、软件工程、自然科学、抽象推理和数学五个领域共 9 个基准上测试了模型。DeepSeek V4 Pro 的 IRT-Estimated Elo 得分为 800,与 GPT-5(约 8 个月前发布)水平相当。

DeepSeek 自报 vs CAISI 评测的差异
DeepSeek 官方技术报告称 V4 Pro 与 Opus 4.6 和 GPT-5.4(约 2 个月前发布)能力相当。但 CAISI 的评估包含了非公开基准,结果显示 DeepSeek V4 Pro 实际表现更接近 GPT-5 的水平。
差距主要体现在代理任务和推理类测试上:
- ARC-AGI-2 半私有数据集:GPT-5.5 得分 79%,Opus 4.6 得分 63%,DeepSeek V4 Pro 仅 46%
- PortBench(CAISI 自建软件工程评估):GPT-5.5 得分 78%,Opus 4.6 得分 60%,DeepSeek V4 Pro 仅 44%
- CTF-Archive-Diamond(网络安全):GPT-5.5 得分 71%,Opus 4.6 得分 46%,DeepSeek V4 Pro 仅 32%

但在传统知识问答和数学方面差距较小:
- GPQA-Diamond:DeepSeek 90% vs GPT-5.5 96%
- FrontierScience:DeepSeek 74% vs GPT-5.5 79%
- SWE-Bench Verified:DeepSeek 74% vs GPT-5.5 81%
成本效率
CAISI 选取 GPT-5.4 mini(Elo 749,与 DeepSeek V4 Pro 的 800 相近)作为成本对比参照。结果:
- DeepSeek V4 Pro 在 7 个基准中的 5 个上成本更低
- 成本优势从便宜 53% 到贵 41% 不等
评估方法说明
CAISI 使用 IRT 方法将 AI 模型比作"学生",将单个基准任务比作"考题",通过聚合分析得出每个模型在所有基准上的相对能力水平。Figure 1 的趋势线覆盖了 16 个基准、35 个模型的数据,每 200 分 Elo 对应解决任务的胜率提升 3 倍。

来源:NIST/CAISI
相关推荐
- 鸿海 Q4 利润不及预期,给 AI 硬件热泼了一盆冷水3/16/2026
- 据路透:华虹旗下华力微电子拟量产 7 纳米,华虹或成中国第二家 7nm 代工厂3/16/2026
- 据报道,微软搁置 Windows 11 多项 Copilot 系统级整合计划3/16/2026
- OpenAI 发布 GPT-5.4 mini 与 nano:小模型加速冲刺3/17/2026
- iOS 26.4 RC 发布:Apple Music 有 AI 歌单,Podcasts 支持视频3/18/2026
- 《华盛顿邮报》把 AI 用到订阅定价上,媒体的个性化收费又往前走了一步3/17/2026
- Google 把 Stitch 升级成 AI 原生设计画布3/19/2026
- ChatGPT App 的模型切换入口,突然变得很难找3/17/2026
- 欧盟推去衣AI禁令:3月26日表决,执法难在哪3/19/2026
- 小米推理模型 MiMo-V2-Pro 上线:智能指数 49,榜单排第 103/18/2026
- Kimi 员工指称 MiniMax 沿用其 Office Skill 代码始末3/19/2026
- OpenAI 收购 Astral:Python 工具链收编加速3/19/2026
- Firefox 149 内置免费 VPN:50GB 月流量,首批限四国3/19/2026
- Anthropic 超 8 万用户调研:81% 认为 AI 正兑现预期3/19/2026
- 多地试点一人公司:免费公寓+办公空间,能否激活个体创新?3/19/2026
- 椰树集团相关公司招标 50 台人形机器人剥椰子,产线开始提具体指标了3/19/2026
- DLSS 5 引发的争议:老黄说批评者完全错误3/19/2026
- 小米三款大模型齐发:MiMo-V2-Pro、Omni、TTS 完整解读3/19/2026
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- MiniMax 发布 M2.7:国内首个公开的模型自我进化方案3/18/2026
- 中国加大对 Meta 收购 Manus 审查:高管限制离境,审查升至国家层面3/18/2026
- 爱泼斯坦案幸存者起诉 Google:AI 搜索放大了数据泄露的伤害3/27/2026
- 苹果把 WWDC 2026 定在 6 月 8 日,AI 与开发者工具会是重点3/23/2026
- 英伟达把 DLSS 5 说清楚了:输入只有 2D 帧和运动矢量3/21/2026
- 短视频内容标注,准备进入统一规则阶段3/21/2026
- Google 测试改写搜索结果网页标题,网站对标题的控制权又退了一步3/20/2026
- 营收涨三倍,宇树科技冲刺科创板3/20/2026
- Claude Code 上线 Channels:用 Telegram 和 Discord 操控本地编程任务3/20/2026
- Google AI Studio 升级全栈 vibe coding:Antigravity 代理来了3/20/2026
- 谷歌 Gemini Mac 版内测:桌面端补课正式开始3/20/2026