标签: 月之暗面 清除筛选
月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势
月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势
月之暗面最近放出的 Attention Residuals 技术报告,把注意力放回到了 Transformer 里一块更基础的结构:残差连接。它关心的重点,不是参数量和上下文长度,而是层与层之间的信息怎么传。
论文的核心做法,是把标准残差里“前面各层输出统一相加”的固定路径,换成沿深度维度做一次 attention。换句话说,每一层不再默认把所有历史层输出等权吃进去,而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residua
3/16/2026月之暗面MoonshotAIKimiTransformerAI论文
