月之暗面改了 Transformer 的残差连接，48B Kimi Linear 跑出约 1.25 倍等效算力优势

月之暗面最近放出的 Attention Residuals 技术报告，把注意力放回到了 Transformer 里一块更基础的结构：残差连接。它关心的重点，不是参数量和上下文长度，而是层与层之间的信息怎么传。

论文的核心做法，是把标准残差里“前面各层输出统一相加”的固定路径，换成沿深度维度做一次 attention。换句话说，每一层不再默认把所有历史层输出等权吃进去，而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residuals；为了把成本压下来，又进一步给出 Block Attention Residuals，把跨层选择从逐层扩展成按 block 聚合。

论文到底做了什么

按照论文定义，Attention Residuals 会让每一层对输入 embedding 和此前各层输出计算一组 softmax 权重，再决定这一层的残差该从哪些历史表示里取信息。它关注的不是 token 之间的关系，而是“层与层之间”的信息流。

Block 版本则更工程化：先把多层压成 block 级表示，再只在 block 之间做 attention。这样做的目的很明确，就是把跨层 attention 的内存和通信代价压到更适合大模型训练的水平。

这篇报告里最值得看的，是它给出的成本和收益比

论文明确写到，这套方法已经被整合进 48B total、3B activated 的 Kimi Linear，并在 1.4T tokens 上完成预训练。

从工程指标看，Block Attention Residuals 给出的代价并不高：

端到端训练额外开销低于 4%
典型推理工作负载下延迟额外开销低于 2%
在 scaling law 实验中，达到相当于 baseline 多用 1.25 倍算力时的损失水平

如果这组结果成立，它的吸引力就很直接：额外复杂度并不高，但训练效率被明显抬了一截。

下游结果也落在了多个能力维度上

论文 Table 3 给出的结果里，比较醒目的几项包括：

GPQA-Diamond：36.9 提升到 44.4，增加 7.5 分
HumanEval：59.1 提升到 62.2
MBPP：72.0 提升到 73.9
Math：53.5 提升到 57.1
MGSM：64.9 提升到 66.1

也就是说，这个改动带来的收益并没有停留在训练损失曲线上。至少按论文给出的评测，它在推理、编程和数学能力上都看到了增益。

它想解决的，是 PreNorm 体系里一个老问题

论文把这项工作的一个核心动机写得很明确：缓解 PreNorm dilution。

在标准 PreNorm 残差结构里，随着深度增加，隐藏状态会不断累积变大，早期层和后续层的贡献被越来越平均地冲淡，梯度分布也会变得不够理想。Attention Residuals 的思路，是把这条固定累加路径改成可学习、可选择的深度聚合，让模型自己决定哪些历史层输出更值得保留。

这也是为什么这篇论文有意思。它把视线从 attention 头数、上下文长度或者 MoE 配置这些更常见的优化点，拉回到了 Transformer 最基本的一条连接路径。

眼下可以怎么判断这件事

先按论文结果看，这是一项很值得盯住的结构性改动：改动位置足够底层，收益也落在了多个基准上，而且训练和推理的额外代价都被控制在比较低的范围里。

当然，现阶段它首先仍然是 Moonshot 自己给出的技术报告。后面更值得看的，是这套残差设计能否在更多公开复现、不同模型配方和更广泛的 benchmark 上继续站住。

参考来源：MoonshotAI《Attention Residuals》技术报告。