月之暗面

标签: 月之暗面清除筛选

月之暗面最近放出的 Attention Residuals 技术报告，把注意力放回到了 Transformer 里一块更基础的结构：残差连接。它关心的重点，不是参数量和上下文长度，而是层与层之间的信息怎么传。

论文的核心做法，是把标准残差里“前面各层输出统一相加”的固定路径，换成沿深度维度做一次 attention。换句话说，每一层不再默认把所有历史层输出等权吃进去，而是可以按内容选择性聚合更早层的表示。Moonshot 把这套设计叫做 Attention Residua