NVIDIA 软件优化将 DeepSeek V4 Token 成本降至五分之一

NVIDIA 在 Blackwell 平台上持续优化推理软件栈，一个月内将 DeepSeek V4 的 Token 生成成本降至原先的五分之一。

PyTorch 社区发布的基准数据显示，在 GB300 NVL72 离散式部署下，SGLang 引擎的吞吐量从 4 月初（Day-0）的约 2,200 Tokens/秒/GPU 提升至 6 月的约 11,200 Tokens/秒/GPU。在保持用户约 50 Tokens/秒的高流畅交互体验下，性能提升 5 倍，单 Token 成本降至约 $0.156/百万输出 Token（8K 输入 / 1K 输出配置）。

SemiAnalysis InferenceX 基准：5x 成本降低

优化手段

性能提升来自多项内核与运行时的深度优化协同：

MHC 融合与 token-bucket 预热：减少计算图中断
KV Cache 压缩 V2：更高效的显存利用
W4A4 MegaMoE：FP4 精度下的 MoE 融合分发，替代逐专家内核调度
增强 SWA 预算与驱逐策略：改善显存分配效率
可中断 CUDA Graph：在 DeepSeek V4 prefill 路径中支持计算图中断
离散式解码拓扑重写：从 EP=8 拓宽到 EP=16，prefill worker 从 1-2 个扩展到 4-12 个，并发上限提升至 21,504

这些优化覆盖了 SGLang 和 vLLM 两个主流推理框架，且在 Day-0 发布时就已有可用配方。

Blackwell Ultra 聚合部署

Blackwell Ultra 聚合方案也获得了显著提升：no-MTP 在 30 tok/s/user 下提升 2.91x，MTP 在 90 tok/s/user 下提升 2.85x。no-MTP 峰值吞吐相比 Day-0 提升超过 6 倍，原因是配方从低效的 TP-only 执行升级到包含 DP attention 和更宽搜索空间的成熟 FP4/MoE 路径。

进一步优化空间

NVIDIA 表示，在当前优化基础上叠加分解式服务、新浮点精度和多 Token 预测（MTP）等高级优化后，系统级吞吐量最高有望提升至 20 倍。Baseten、Cognition、Deep Infra 和 Together AI 等推理服务商已在生产环境中采用该软件栈。

来源：NVIDIA Blog / PyTorch Blog / SemiAnalysis InferenceX