CAISI 评估 DeepSeek V4 Pro：综合能力落后美国前沿约 8 个月

NIST 下属人工智能标准与创新中心（CAISI）发布了对 DeepSeek V4 Pro 的评估报告。结论：DeepSeek V4 Pro 是 CAISI 迄今评估的最强中国 AI 模型，但综合能力比美国前沿模型落后约 8 个月。

核心结论

CAISI 使用了受项目反应理论（IRT）启发的聚合评估方法，在网络安全、软件工程、自然科学、抽象推理和数学五个领域共 9 个基准上测试了模型。DeepSeek V4 Pro 的 IRT-Estimated Elo 得分为 800，与 GPT-5（约 8 个月前发布）水平相当。

中美 AI 模型能力对比趋势

DeepSeek 官方技术报告称 V4 Pro 与 Opus 4.6 和 GPT-5.4（约 2 个月前发布）能力相当。但 CAISI 的评估包含了非公开基准，结果显示 DeepSeek V4 Pro 实际表现更接近 GPT-5 的水平。

差距主要体现在代理任务和推理类测试上：

基准测试结果对比

但在传统知识问答和数学方面差距较小：

CAISI 选取 GPT-5.4 mini（Elo 749，与 DeepSeek V4 Pro 的 800 相近）作为成本对比参照。结果：

CAISI 使用 IRT 方法将 AI 模型比作"学生"，将单个基准任务比作"考题"，通过聚合分析得出每个模型在所有基准上的相对能力水平。Figure 1 的趋势线覆盖了 16 个基准、35 个模型的数据，每 200 分 Elo 对应解决任务的胜率提升 3 倍。

成本效率对比

来源：NIST/CAISI