标签: 月之暗面 清除筛选
    月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势
    月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势
    月之暗面改了 Transformer 的残差连接,48B Kimi Linear 跑出约 1.25 倍等效算力优势

    月之暗面最近放出的 Attention Residuals 技术报告,把注意力放回到了 Transformer 里一块更基础的结构:残差连接。它关心的重点,不是参数量和上下文长度,而是层与层之间的信息怎么传。

    论文的核心做法,是把标准残差里“前面各层输出统一相加”的固定路径,换成沿深度维度做一次 attention。换句话说,每一层不再默认把所有历史层输出等权吃进去,而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residua