NVIDIA 软件优化将 DeepSeek V4 Token 成本降至五分之一

NVIDIA 在 Blackwell 平台上持续优化推理软件栈,一个月内将 DeepSeek V4 的 Token 生成成本降至原先的五分之一。

PyTorch 社区发布的基准数据显示,在 GB300 NVL72 离散式部署下,SGLang 引擎的吞吐量从 4 月初(Day-0)的约 2,200 Tokens/秒/GPU 提升至 6 月的约 11,200 Tokens/秒/GPU。在保持用户约 50 Tokens/秒的高流畅交互体验下,性能提升 5 倍,单 Token 成本降至约 $0.156/百万输出 Token(8K 输入 / 1K 输出配置)。

SemiAnalysis InferenceX 基准:5x 成本降低

优化手段

性能提升来自多项内核与运行时的深度优化协同:

  • MHC 融合与 token-bucket 预热:减少计算图中断
  • KV Cache 压缩 V2:更高效的显存利用
  • W4A4 MegaMoE:FP4 精度下的 MoE 融合分发,替代逐专家内核调度
  • 增强 SWA 预算与驱逐策略:改善显存分配效率
  • 可中断 CUDA Graph:在 DeepSeek V4 prefill 路径中支持计算图中断
  • 离散式解码拓扑重写:从 EP=8 拓宽到 EP=16,prefill worker 从 1-2 个扩展到 4-12 个,并发上限提升至 21,504

这些优化覆盖了 SGLang 和 vLLM 两个主流推理框架,且在 Day-0 发布时就已有可用配方。

Blackwell Ultra 聚合部署

Blackwell Ultra 聚合方案也获得了显著提升:no-MTP 在 30 tok/s/user 下提升 2.91x,MTP 在 90 tok/s/user 下提升 2.85x。no-MTP 峰值吞吐相比 Day-0 提升超过 6 倍,原因是配方从低效的 TP-only 执行升级到包含 DP attention 和更宽搜索空间的成熟 FP4/MoE 路径。

进一步优化空间

NVIDIA 表示,在当前优化基础上叠加分解式服务、新浮点精度和多 Token 预测(MTP)等高级优化后,系统级吞吐量最高有望提升至 20 倍。Baseten、Cognition、Deep Infra 和 Together AI 等推理服务商已在生产环境中采用该软件栈。

来源:NVIDIA Blog / PyTorch Blog / SemiAnalysis InferenceX

相关推荐