标签: MoE 清除筛选
    Cursor 的 warp decode:翻转 MoE 推理并行轴,Blackwell 小批量吞吐提升 1.84 倍
    Cursor 的 warp decode:翻转 MoE 推理并行轴,Blackwell 小批量吞吐提升 1.84 倍

    Cursor 最近公布了一项名为 warp decode 的 MoE 推理优化方案。在 Blackwell GPU 的小批量自回归解码场景中,他们将计算组织方式从"围绕专家"改为"围绕输出",在 B200 上实现了 1.84 倍的吞吐提升。

    同时,去掉中间激活量化后,输出与 FP32 参考值的接近程度提升了 1.4 倍。性能和精度同时改善,在 kernel 优化领域并不多见。

    4/7/2026AIGPUMoE