Qwen 开源高性能线性注意力内核库 FlashQLA,速度提升 2-3 倍

Qwen 团队正式开源 FlashQLA——一个基于 TileLang 实现的高性能线性注意力算子库,专为 Gated Delta Network(GDN)打造。该项目将 GDN Chunked Prefill 的前向和反向进行了合理的算子融合与代数优化,在 NVIDIA Hopper 上实现多场景相较于 FLA Triton Kernel 2-3× 前向加速2× 反向加速

背景

自 Qwen3-Next 发布以来,Gated Delta Network 已成为 Qwen 全系列的主力注意力层,覆盖 Qwen3-Next、Qwen3.5、Qwen3.6 等系列。模型规模已扩展至 397A17B / 122A10B / 35B / 27B,上下文长度突破 256K。随着规模扩大,GDN 在端到端训练与推理中的开销日益显著。

核心优化

FlashQLA 针对 FLA 原版 GDN 实现的两大问题提出了折中解法:

  1. 访存开销:FLA 中 GDN 前向的每一步对应独立 kernel,中间变量需要反复写入 HBM。FlashQLA 通过算子融合减少全局内存访问。
  2. 并行度受限:SSM state 的递推性质导致小模型、小 batch 或 TP 场景下 GPU 利用率低。FlashQLA 利用门控衰减特性引入自动卡内上下文并行,并采用 warpgroup 特化内核重叠计算与搬运,有效提高 SM 利用率。

适用场景

  • 预训练场景下的线性注意力加速
  • 端侧智能体(agentic)推理,尤其是长序列与小批量场景
  • 大模型线上部署(TP 模式)应对 coding agent 等长序列 chunked prefill

FlashQLA 代码和 benchmark 均已开源。

来源: https://qwen.ai/blog?id=flashqla GitHub: https://github.com/QwenLM/FlashQLA

相关推荐