DeepSeek 开源 TileKernels:面向 Blackwell 架构的高性能 LLM 算子库
DeepSeek 于 4 月 23 日在 GitHub 上开源了高性能 GPU 算子库 TileKernels,基于 TileLang 框架开发。该库针对大语言模型的训练与推理场景进行了深度优化,算子性能已接近硬件计算强度与内存带宽的极限。
核心特性
TileKernels 的算子覆盖范围相当广泛:
- Gating — Top-k 专家选择与评分,用于 Mixture of Experts 路由
- MoE Routing — Token-to-Expert 映射、融合扩展/归约、权重归一化
- Quantization — Per-token、per-block、per-channel 的 FP8/FP4/E5M6 量化转换,含融合 SwiGLU+量化算子
- Transpose — 批量转置操作
- Engram — Engram 门控算子,含融合 RMSNorm、前向/反向传播和权重梯度归约
- Manifold HyperConnection — 超连接算子,含 Sinkhorn 归一化和混合拆分/应用
- Modeling — 高层 torch.autograd.Function 封装,将底层算子组合为可训练层(Engram Gate、mHC Pipeline)
值得注意的是,该库不仅包含基础算子,还包含了 Engram 和 Manifold HyperConnection 等 DeepSeek 特有的架构创新实现。这意味着开源社区现在可以直接获取 DeepSeek 在训练栈底层的核心组件,对复现和理解 DeepSeek 模型的工程实现具有重要价值。
硬件与软件要求
| 项目 | 要求 |
|---|---|
| GPU 架构 | NVIDIA SM90 (Hopper) 或 SM100 (Blackwell) |
| CUDA | 13.1 及以上 |
| Python | 3.10 及以上 |
| PyTorch | 2.10 及以上 |
| TileLang | 0.1.9 及以上 |
SM100 即 NVIDIA 最新的 Blackwell 架构,TileKernels 是目前少数明确支持该架构的开源算子库之一。CUDA 13.1 和 PyTorch 2.10 的要求也暗示了这是面向下一代训练基础设施的工具链。
项目结构
tile_kernels/ ├── moe/ # MoE 路由相关算子 ├── quant/ # FP8/FP4/E5M6 量化 ├── transpose/ # 批量转置 ├── engram/ # Engram 门控算子 ├── mhc/ # Manifold HyperConnection 算子 ├── modeling/ # 高层 autograd 建模层 ├── torch/ # PyTorch 参考实现 └── testing/ # 测试与基准测试工具
评价
TileKernels 的开源体现了 DeepSeek 一贯的策略:在发布模型和论文的同时,逐步开放支撑其训练推理的基础设施。从 DeepSeek-V2 的 MLA/MoE 实现,到 DeepSeek-R1 的推理优化,再到如今的 TileKernels 算子库,DeepSeek 正在系统性地将其工程积累贡献给开源社区。
对于研究者和工程师而言,TileKernels 的价值在于:
- 学习参考:了解 DeepSeek 如何在底层实现高效的 MoE 路由、量化和注意力机制
- 生产复用:基于 TileLang 的 Python DSL,算子的开发和迁移成本相对较低
- Blackwell 适配:为下一代 GPU 架构的算子开发提供了可参考的实现
不过需要注意的是,项目 README 中也坦言:"它们并不代表最佳实践,我们正在积极改进代码质量和文档。" 作为 Initial commit 阶段的项目,TileKernels 更像是一个工程参考而非开箱即用的生产库。
安装
bash# 开发版本 pip install -e ".[dev]" # 发布版本 pip install tile-kernels
许可证
MIT License
相关推荐
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- GrapheneOS 警告起诉:安卓统一认证标准背后的生态之争3/18/2026
- 通义开源影视级配音大模型 Fun-CineForge,关键变化是把“时间”也做进了模型3/16/2026
- 乐天开放 Rakuten AI 3.0:日语成绩单很亮眼,DeepSeek V3 架构标签也把争议一起带了出来3/17/2026
- ImageGlass 10 Beta 1 发布:十五年来最大重构,首次支持 macOS 和 Linux3/15/2026
- 有人在 GitHub 上开源了一个「前任 Skill」3/31/2026
- 法国政府承诺以 Linux 取代 Windows,覆盖 250 万公务员桌面4/10/2026
- GitHub Issues 遭遇大规模垃圾广告攻击,开源社区成黑产引流池3/29/2026
- PaddleOCR 超越 Tesseract,成为 GitHub 星标最高的 OCR 项目3/30/2026
- 企业微信开源 CLI:AI Agent 可以直接操作企业微信了3/30/2026
- 百度开源 8B 文生图模型 ERNIE-Image:文字渲染达 SOTA,消费级显卡即可运行4/15/2026
- 开源项目分享:SwiftMTP——macOS 平台的安卓文件传输工具4/10/2026
- Linux 内核即将告别 Intel 486,37 年的兼容走到终点4/7/2026
- 英伟达发布全球首个开源量子 AI 模型家族 Ising,用 AI 打造量子计算机的「操作系统」4/15/2026
- DeepSeek V4 即将发布:万亿参数、百万上下文、全面适配国产芯片4/10/2026
- Vercel 确认安全事件,暗网卖家声称掌握核心访问权限4/19/2026
- Cherry Studio 被指违规遥测,禁用分析功能后仍连接服务器4/19/2026
- Kimi K2.6 发布:开源模型在编码基准上全面追平闭源第一梯队4/20/2026
- DeepSeek 拟以 100 亿美元估值融资至少 3 亿美元4/17/2026
- DeepSeek 大规模宕机超 12 小时:基础设施与用户增长的裂缝3/30/2026
- 斯坦福2026 AI指数报告:中美AI性能差距仅剩2.7%4/14/2026
- DeepSeek发布DeepGEMM重大更新:MegaMoE融合算子与FP4精度支持4/16/2026
- 腾讯阿里据报洽谈投资 DeepSeek,估值超 200 亿美元4/22/2026