Qwen 开源高性能线性注意力内核库 FlashQLA，速度提升 2-3 倍

Qwen 团队正式开源 FlashQLA——一个基于 TileLang 实现的高性能线性注意力算子库，专为 Gated Delta Network（GDN）打造。该项目将 GDN Chunked Prefill 的前向和反向进行了合理的算子融合与代数优化，在 NVIDIA Hopper 上实现多场景相较于 FLA Triton Kernel 2-3× 前向加速和 2× 反向加速。

背景

自 Qwen3-Next 发布以来，Gated Delta Network 已成为 Qwen 全系列的主力注意力层，覆盖 Qwen3-Next、Qwen3.5、Qwen3.6 等系列。模型规模已扩展至 397A17B / 122A10B / 35B / 27B，上下文长度突破 256K。随着规模扩大，GDN 在端到端训练与推理中的开销日益显著。

核心优化

FlashQLA 针对 FLA 原版 GDN 实现的两大问题提出了折中解法：

访存开销：FLA 中 GDN 前向的每一步对应独立 kernel，中间变量需要反复写入 HBM。FlashQLA 通过算子融合减少全局内存访问。
并行度受限：SSM state 的递推性质导致小模型、小 batch 或 TP 场景下 GPU 利用率低。FlashQLA 利用门控衰减特性引入自动卡内上下文并行，并采用 warpgroup 特化内核重叠计算与搬运，有效提高 SM 利用率。

适用场景

预训练场景下的线性注意力加速
端侧智能体（agentic）推理，尤其是长序列与小批量场景
大模型线上部署（TP 模式）应对 coding agent 等长序列 chunked prefill

FlashQLA 代码和 benchmark 均已开源。

来源: https://qwen.ai/blog?id=flashqla GitHub: https://github.com/QwenLM/FlashQLA