月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势

月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势

月之暗面最近放出的 Attention Residuals 技术报告,把注意力放回到了 Transformer 里一块更基础的结构:残差连接。它关心的重点,不是参数量和上下文长度,而是层与层之间的信息怎么传。

论文的核心做法,是把标准残差里“前面各层输出统一相加”的固定路径,换成沿深度维度做一次 attention。换句话说,每一层不再默认把所有历史层输出等权吃进去,而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residuals;为了把成本压下来,又进一步给出 Block Attention Residuals,把跨层选择从逐层扩展成按 block 聚合。

论文到底做了什么

按照论文定义,Attention Residuals 会让每一层对输入 embedding 和此前各层输出计算一组 softmax 权重,再决定这一层的残差该从哪些历史表示里取信息。它关注的不是 token 之间的关系,而是“层与层之间”的信息流。

Block 版本则更工程化:先把多层压成 block 级表示,再只在 block 之间做 attention。这样做的目的很明确,就是把跨层 attention 的内存和通信代价压到更适合大模型训练的水平。

这篇报告里最值得看的,是它给出的成本和收益比

论文明确写到,这套方法已经被整合进 48B total、3B activated 的 Kimi Linear,并在 1.4T tokens 上完成预训练。

从工程指标看,Block Attention Residuals 给出的代价并不高:

  • 端到端训练额外开销低于 4%
  • 典型推理工作负载下延迟额外开销低于 2%
  • 在 scaling law 实验中,达到相当于 baseline 多用 1.25 倍算力时的损失水平

如果这组结果成立,它的吸引力就很直接:额外复杂度并不高,但训练效率被明显抬了一截。

下游结果也落在了多个能力维度上

论文 Table 3 给出的结果里,比较醒目的几项包括:

  • GPQA-Diamond:36.9 提升到 44.4,增加 7.5 分
  • HumanEval:59.1 提升到 62.2
  • MBPP:72.0 提升到 73.9
  • Math:53.5 提升到 57.1
  • MGSM:64.9 提升到 66.1

也就是说,这个改动带来的收益并没有停留在训练损失曲线上。至少按论文给出的评测,它在推理、编程和数学能力上都看到了增益。

它想解决的,是 PreNorm 体系里一个老问题

论文把这项工作的一个核心动机写得很明确:缓解 PreNorm dilution。

在标准 PreNorm 残差结构里,随着深度增加,隐藏状态会不断累积变大,早期层和后续层的贡献被越来越平均地冲淡,梯度分布也会变得不够理想。Attention Residuals 的思路,是把这条固定累加路径改成可学习、可选择的深度聚合,让模型自己决定哪些历史层输出更值得保留。

这也是为什么这篇论文有意思。它把视线从 attention 头数、上下文长度或者 MoE 配置这些更常见的优化点,拉回到了 Transformer 最基本的一条连接路径。

眼下可以怎么判断这件事

先按论文结果看,这是一项很值得盯住的结构性改动:改动位置足够底层,收益也落在了多个基准上,而且训练和推理的额外代价都被控制在比较低的范围里。

当然,现阶段它首先仍然是 Moonshot 自己给出的技术报告。后面更值得看的,是这套残差设计能否在更多公开复现、不同模型配方和更广泛的 benchmark 上继续站住。

参考来源:MoonshotAI《Attention Residuals》技术报告。