Qwen 开源高性能线性注意力内核库 FlashQLA,速度提升 2-3 倍
Qwen 团队正式开源 FlashQLA——一个基于 TileLang 实现的高性能线性注意力算子库,专为 Gated Delta Network(GDN)打造。该项目将 GDN Chunked Prefill 的前向和反向进行了合理的算子融合与代数优化,在 NVIDIA Hopper 上实现多场景相较于 FLA Triton Kernel 2-3× 前向加速和 2× 反向加速。
背景
自 Qwen3-Next 发布以来,Gated Delta Network 已成为 Qwen 全系列的主力注意力层,覆盖 Qwen3-Next、Qwen3.5、Qwen3.6 等系列。模型规模已扩展至 397A17B / 122A10B / 35B / 27B,上下文长度突破 256K。随着规模扩大,GDN 在端到端训练与推理中的开销日益显著。
核心优化
FlashQLA 针对 FLA 原版 GDN 实现的两大问题提出了折中解法:
- 访存开销:FLA 中 GDN 前向的每一步对应独立 kernel,中间变量需要反复写入 HBM。FlashQLA 通过算子融合减少全局内存访问。
- 并行度受限:SSM state 的递推性质导致小模型、小 batch 或 TP 场景下 GPU 利用率低。FlashQLA 利用门控衰减特性引入自动卡内上下文并行,并采用 warpgroup 特化内核重叠计算与搬运,有效提高 SM 利用率。
适用场景
- 预训练场景下的线性注意力加速
- 端侧智能体(agentic)推理,尤其是长序列与小批量场景
- 大模型线上部署(TP 模式)应对 coding agent 等长序列 chunked prefill
FlashQLA 代码和 benchmark 均已开源。
来源: https://qwen.ai/blog?id=flashqla GitHub: https://github.com/QwenLM/FlashQLA
相关推荐
- Hugging Face 最大开源仓库快被 AI 垃圾 PR 淹没了3/19/2026
- GrapheneOS 警告起诉:安卓统一认证标准背后的生态之争3/18/2026
- 通义开源影视级配音大模型 Fun-CineForge,关键变化是把“时间”也做进了模型3/16/2026
- 有人在 GitHub 上开源了一个「前任 Skill」3/31/2026
- ImageGlass 10 Beta 1 发布:十五年来最大重构,首次支持 macOS 和 Linux3/15/2026
- GitHub Issues 遭遇大规模垃圾广告攻击,开源社区成黑产引流池3/29/2026
- 百度开源 8B 文生图模型 ERNIE-Image:文字渲染达 SOTA,消费级显卡即可运行4/15/2026
- 法国政府承诺以 Linux 取代 Windows,覆盖 250 万公务员桌面4/10/2026
- PaddleOCR 超越 Tesseract,成为 GitHub 星标最高的 OCR 项目3/30/2026
- 企业微信开源 CLI:AI Agent 可以直接操作企业微信了3/30/2026
- Vercel 确认安全事件,暗网卖家声称掌握核心访问权限4/19/2026
- 开源项目分享:SwiftMTP——macOS 平台的安卓文件传输工具4/10/2026
- Linux 内核即将告别 Intel 486,37 年的兼容走到终点4/7/2026
- 英伟达发布全球首个开源量子 AI 模型家族 Ising,用 AI 打造量子计算机的「操作系统」4/15/2026
- Cherry Studio 被指违规遥测,禁用分析功能后仍连接服务器4/19/2026
- 苹果批准 AMD 与 NVIDIA 外置显卡驱动,Mac 本地 AI 算力有了新路径4/5/2026
- Kimi K2.6 发布:开源模型在编码基准上全面追平闭源第一梯队4/20/2026
- 英伟达 NTC 纹理压缩:显存降 85%,画质近乎无损4/5/2026
- 阿里上线 Qwen3.6-Max-Preview 预览版:智能体编程能力大幅提升4/20/2026
- Cursor 的 warp decode:翻转 MoE 推理并行轴,Blackwell 小批量吞吐提升 1.84 倍4/7/2026
- DeepSeek 开源 TileKernels:面向 Blackwell 架构的高性能 LLM 算子库4/23/2026
- 砺算科技7G100 GPU获微软WHQL认证:中国首家、全球第四家4/26/2026
- Qwen3.6-27B 开源发布,27B 稠密模型编程能力全面超越前代 397B 旗舰4/22/2026
- OpenClaw 发布 2026.4.24 版:默认模型切换为 DeepSeek V4 Flash4/26/2026
- Asahi Linux 突破 M3 芯片适配,但苹果的硬件围墙正在加高4/27/2026