网易首页 > 网易号 > 正文 申请入驻

将注意力旋转 90 度!今天,Kimi 的「注意力残差」火了

0
分享至



编辑|冷猫

自从 2015 年 ResNet 诞生以来,这种「将输入直接加到输出上」的简单逻辑,统治了几乎所有神经网络架构。

但就在刚刚,沿用了十年的残差机制「升级」了。随橙想呢,替代方法竟然是「注意力机制」



就连 OpenAI 「推理模型之父」,主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发,认为应当重新思考之前的一切,「深度学习 2.0」的时代即将到来



这篇颠覆传统残差连接机制的工作来自Kimi 团队,发布了一项重磅技术报告:Attention Residuals ,该方法旨在通过对前序层进行学习到的、依赖输入的注意力机制,来取代标准的深度递归。



  • 论文标题:Attention Residuals
  • 论文链接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
  • 项目链接:https://github.com/MoonshotAI/Attention-Residuals

时间与深度的对偶

要理解Attention Residuals 是在做什么,我们得先看传统的残差连接 y = x + f (x) 出了什么问题。

在大模型向更深、更强演进的过程中,这种残差的加法机制带来了两个副作用:

1.信息稀释: 残差连接采用固定单位权重的均匀聚合,导致浅层特征在向深层传递时,其相对贡献度随深度线性衰减。这种「信息稀释」现象限制了深层网络对底层原始表示的直接利用能力。随着层数增加,第一层的信息传到第一百层时,已经被后面九十九层的信息层层冲淡。

2.隐藏状态爆炸:为了在不断累加的残差流中维持信号强度,深层模块往往需要输出模长更大的激活值。这种隐状态的无序扩张不仅破坏了数值稳定性,还导致梯度分布不均,增加了超大规模模型训练收敛的难度,直接导致了训练的不稳定性。

本文的天才之处在于,发现模型的「深度」其实就是另一种形式的「时间」



论文作者之一的 Yulun Du 老师道出了该论文的核心思想:将注意力旋转 90°

Attention Residuals (AttnRes)由此诞生:为每一层配备了一个「智能筛选器」。每一层都会发出一个 Query,去之前的所有层里寻找最相关的特征,并按需分配权重进行聚合。



注意力残差

理论重构:完整的注意力残差

传统的残差连接(ResNet)本质上是深度递归:它像 RNN 一样,把过去所有层的信息死板地 「压缩」进一个求和状态中。



  • 核心创新: 既然 Transformer 用注意力机制取代了 RNN,解决了长序列的遗忘问题;那么 AttnRes 就在深度上取代了残差累加。
  • 数学实现: 每一层不再是简单地加上前一层,而是发出一个可学习的 Query,去和之前所有层产生的 Key 做匹配。
  • Softmax 权重: 通过 Softmax 归一化,模型可以 「挑选」 出对自己最有用的某几层。比如第 50 层可以直接提取第 2 层的特征,权重占比可以高达 0.8,而不用担心被中间的 48 层稀释。

工程落地:Block AttnRes 的分块策略



  • 效率奇迹: 实验发现,即便模型有上百层,只要划分成 N≈8 个块,就能获得绝大部分性能增益。
  • 复杂度骤降: 内存开销从随层数 L 增长,降到了随块数增长。这意味着你可以用极小的代价(推理延迟增加 < 2%),获得一个 「更聪明」 的深层网络。



图 1:Attention Residuals 概览:(a) 标准残差(Standard Residuals): 采用均匀加法累加的传统残差连接方式。(b) 全量注意力残差(Full AttnRes): 每一层都通过学习到的注意力权重,有选择地聚合之前所有层的输出。(c) 块注意力残差(Block AttnRes): 将各层划分为若干个「块」,将内存开销从 O (Ld) 降低至 O (Nd)。

战果:1.25 倍的「计算杠杆」

根据论文信息,实验架构与 Kimi Linear 完全一致,这是一种遵循 Moonlight / DeepSeek-V3 设计的混合专家模型(MoE)Transformer。唯一的修改是在残差连接中加入了 AttnRes;模型深度、隐藏维度、专家路由和 MLP 结构等其他组件均保持不变。

研究团队测试了五种模型规模,并为每种规模训练了三个变体:PreNorm 基准模型、全量 AttnRes 以及约 8 个块的 Block AttnRes。



下图展示了拟合后的规模化曲线。



三个变体的斜率相似,但 AttnRes 在整个计算范围内一致实现了更低的损耗(Loss)。基于拟合曲线,在 5.6 PFLOP/s-days 的计算量下,Block AttnRes 的损耗为 1.692,而基准模型为 1.714,这相当于1.25 倍的计算优势(Compute Advantage)。随着模型规模增大,Full 与 Block 变体之间的差距在缩小。

研究团队的最大模型基于 Kimi Linear 48B 配置:27 个 Transformer 块(共 54 层),在 256 个路由专家中激活 8 个,外加 1 个共享专家,总参数 48B,激活参数 3B。该模型采用 Block AttnRes,每块 6 层,共产生 9 个块外加 1 个 Token 嵌入,形成 10 个深度方向的来源。



上图展示了模型在 1T token 训练过程中的动态变化:

  • 验证损耗: AttnRes 在整个训练过程中始终保持较低的验证损耗,尤其在衰减(Decay)阶段差距进一步拉大。
  • 输出量级: 基准模型遭受PreNorm 稀释问题:随着隐状态量级随深度单调增长,深层网络被迫从固定缩放的归一化输入中学习越来越大的输出,以维持影响力。而 Block AttnRes 将这种增长限制在每个块内,通过块边界的选择性聚合重置了累加过程,呈现出有界的周期性模式。
  • 梯度量级: 在所有残差权重固定为 1 的基准模型中,梯度流在深度上的分布极不均匀,导致早期层梯度过大。Block AttnRes 的可学习 Softmax 权重引入了来源之间的竞争,从而实现了显著更均匀的梯度分布



下游性能表现: 如上表所示,Block AttnRes 在所有评测任务中均达到或超过了基准模型。

  • 提升显著的任务: 在多步推理任务中提升尤为突出,如GPQA-Diamond (+7.5)Minerva Math (+3.6)以及代码生成HumanEval (+3.1)
  • 知识类任务MMLU (+1.1)TriviaQA (+1.9)也展现了稳健的提升。

数据给出了最有力的证明:

  • 计算效率: 达到同样的性能,AttnRes 相比传统残差节省了约20% 的计算量(1.25x 优势)。
  • 逻辑推理: 在数学、代码等硬核任务上提升显著。例如,在极难的 GPQA-Diamond 测试中,性能提升了7.5 分
  • 稳定性: 成功抑制了隐藏状态的数值爆炸,让深层网络依然能保持「冷静」和「高效」。

总结:Rethink & Imagine

用更高维的视角看基础架构的研究,时间和空间都是相通的。

这篇论文「将注意力旋转 90°」的思想,似乎带给 Karpathy 一些启示和思考。



ResNet 的残差流是信息在不同空间深度上的传递。SGD (随机梯度下降)的权重流是信息在不同时间维度上的传递。

研究团队觉得 ResNet 的加法太朴素了,所以提议用 Attention 来筛选过去每一层的输出。 既然 SGD 也是 ResNet,「Attention is All You Need」,那我们为什么不能在优化器里也加上 Attention?

架构的生命力,往往来自于对惯性的反思。

当我们回过头去审视那些基础架构,或许就能在过去的故纸堆中,发现更多通往未来的巧妙结合。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
地铁出口A、B、C、D藏着方向规律,记住这套方法 全国出行不绕远路

地铁出口A、B、C、D藏着方向规律,记住这套方法 全国出行不绕远路

水泥土的搞笑
2026-03-17 13:38:42
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

树娃
2026-03-24 12:28:41
当代韦德!近4战场均29+8+6!早得到球权,他也会是最佳新秀热门

当代韦德!近4战场均29+8+6!早得到球权,他也会是最佳新秀热门

你的篮球频道
2026-03-26 11:37:46
人情世故是怎么学会的 看网友讲述魏忠贤处事方式 思想上一个台阶

人情世故是怎么学会的 看网友讲述魏忠贤处事方式 思想上一个台阶

侃神评故事
2026-03-16 15:10:03
国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

体坛鉴春秋
2026-03-26 12:23:21
布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

湖人崛起
2026-03-26 10:00:59
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

环球网资讯
2026-03-26 08:45:21
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
《逐玉》引领男色时代:一张脸后是更帅的脸,谁的古装扮相最惊艳

《逐玉》引领男色时代:一张脸后是更帅的脸,谁的古装扮相最惊艳

扒点半吃瓜
2026-03-26 07:00:09
这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

三农老历
2026-03-20 00:32:02
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
2026-03-26 23:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
房产
健康
旅游
军事航空

艺术要闻

哪一座桥不是风景?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版