标签: Blackwell 清除筛选
    DeepSeek 开源 TileKernels:面向 Blackwell 架构的高性能 LLM 算子库
    DeepSeek 开源 TileKernels:面向 Blackwell 架构的高性能 LLM 算子库

    DeepSeek 于 4 月 23 日在 GitHub 上开源了高性能 GPU 算子库 TileKernels,基于 TileLang 框架开发。该库针对大语言模型的训练与推理场景进行了深度优化,算子性能已接近硬件计算强度与内存带宽的极限。

    核心特性

    TileKernels 的算子覆盖范围相当广泛:

    • Gating — Top-k 专家选择与评分,用于 Mixture of Experts 路由
    • MoE Routing — Token-to-Expert 映射、融合扩展/归约、权重归一化
    • Quantization — Per-token、p