网易首页 > 网易号 > 正文 申请入驻

将注意力旋转 90 度!今天,Kimi 的「注意力残差」火了

0
分享至



编辑|冷猫

自从 2015 年 ResNet 诞生以来,这种「将输入直接加到输出上」的简单逻辑,统治了几乎所有神经网络架构。

但就在刚刚,沿用了十年的残差机制「升级」了。随橙想呢,替代方法竟然是「注意力机制」



就连 OpenAI 「推理模型之父」,主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发,认为应当重新思考之前的一切,「深度学习 2.0」的时代即将到来



这篇颠覆传统残差连接机制的工作来自Kimi 团队,发布了一项重磅技术报告:Attention Residuals ,该方法旨在通过对前序层进行学习到的、依赖输入的注意力机制,来取代标准的深度递归。



  • 论文标题:Attention Residuals
  • 论文链接:https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
  • 项目链接:https://github.com/MoonshotAI/Attention-Residuals

时间与深度的对偶

要理解Attention Residuals 是在做什么,我们得先看传统的残差连接 y = x + f (x) 出了什么问题。

在大模型向更深、更强演进的过程中,这种残差的加法机制带来了两个副作用:

1.信息稀释: 残差连接采用固定单位权重的均匀聚合,导致浅层特征在向深层传递时,其相对贡献度随深度线性衰减。这种「信息稀释」现象限制了深层网络对底层原始表示的直接利用能力。随着层数增加,第一层的信息传到第一百层时,已经被后面九十九层的信息层层冲淡。

2.隐藏状态爆炸:为了在不断累加的残差流中维持信号强度,深层模块往往需要输出模长更大的激活值。这种隐状态的无序扩张不仅破坏了数值稳定性,还导致梯度分布不均,增加了超大规模模型训练收敛的难度,直接导致了训练的不稳定性。

本文的天才之处在于,发现模型的「深度」其实就是另一种形式的「时间」



论文作者之一的 Yulun Du 老师道出了该论文的核心思想:将注意力旋转 90°

Attention Residuals (AttnRes)由此诞生:为每一层配备了一个「智能筛选器」。每一层都会发出一个 Query,去之前的所有层里寻找最相关的特征,并按需分配权重进行聚合。



注意力残差

理论重构:完整的注意力残差

传统的残差连接(ResNet)本质上是深度递归:它像 RNN 一样,把过去所有层的信息死板地 「压缩」进一个求和状态中。



  • 核心创新: 既然 Transformer 用注意力机制取代了 RNN,解决了长序列的遗忘问题;那么 AttnRes 就在深度上取代了残差累加。
  • 数学实现: 每一层不再是简单地加上前一层,而是发出一个可学习的 Query,去和之前所有层产生的 Key 做匹配。
  • Softmax 权重: 通过 Softmax 归一化,模型可以 「挑选」 出对自己最有用的某几层。比如第 50 层可以直接提取第 2 层的特征,权重占比可以高达 0.8,而不用担心被中间的 48 层稀释。

工程落地:Block AttnRes 的分块策略



  • 效率奇迹: 实验发现,即便模型有上百层,只要划分成 N≈8 个块,就能获得绝大部分性能增益。
  • 复杂度骤降: 内存开销从随层数 L 增长,降到了随块数增长。这意味着你可以用极小的代价(推理延迟增加 < 2%),获得一个 「更聪明」 的深层网络。



图 1:Attention Residuals 概览:(a) 标准残差(Standard Residuals): 采用均匀加法累加的传统残差连接方式。(b) 全量注意力残差(Full AttnRes): 每一层都通过学习到的注意力权重,有选择地聚合之前所有层的输出。(c) 块注意力残差(Block AttnRes): 将各层划分为若干个「块」,将内存开销从 O (Ld) 降低至 O (Nd)。

战果:1.25 倍的「计算杠杆」

根据论文信息,实验架构与 Kimi Linear 完全一致,这是一种遵循 Moonlight / DeepSeek-V3 设计的混合专家模型(MoE)Transformer。唯一的修改是在残差连接中加入了 AttnRes;模型深度、隐藏维度、专家路由和 MLP 结构等其他组件均保持不变。

研究团队测试了五种模型规模,并为每种规模训练了三个变体:PreNorm 基准模型、全量 AttnRes 以及约 8 个块的 Block AttnRes。



下图展示了拟合后的规模化曲线。



三个变体的斜率相似,但 AttnRes 在整个计算范围内一致实现了更低的损耗(Loss)。基于拟合曲线,在 5.6 PFLOP/s-days 的计算量下,Block AttnRes 的损耗为 1.692,而基准模型为 1.714,这相当于1.25 倍的计算优势(Compute Advantage)。随着模型规模增大,Full 与 Block 变体之间的差距在缩小。

研究团队的最大模型基于 Kimi Linear 48B 配置:27 个 Transformer 块(共 54 层),在 256 个路由专家中激活 8 个,外加 1 个共享专家,总参数 48B,激活参数 3B。该模型采用 Block AttnRes,每块 6 层,共产生 9 个块外加 1 个 Token 嵌入,形成 10 个深度方向的来源。



上图展示了模型在 1T token 训练过程中的动态变化:

  • 验证损耗: AttnRes 在整个训练过程中始终保持较低的验证损耗,尤其在衰减(Decay)阶段差距进一步拉大。
  • 输出量级: 基准模型遭受PreNorm 稀释问题:随着隐状态量级随深度单调增长,深层网络被迫从固定缩放的归一化输入中学习越来越大的输出,以维持影响力。而 Block AttnRes 将这种增长限制在每个块内,通过块边界的选择性聚合重置了累加过程,呈现出有界的周期性模式。
  • 梯度量级: 在所有残差权重固定为 1 的基准模型中,梯度流在深度上的分布极不均匀,导致早期层梯度过大。Block AttnRes 的可学习 Softmax 权重引入了来源之间的竞争,从而实现了显著更均匀的梯度分布



下游性能表现: 如上表所示,Block AttnRes 在所有评测任务中均达到或超过了基准模型。

  • 提升显著的任务: 在多步推理任务中提升尤为突出,如GPQA-Diamond (+7.5)Minerva Math (+3.6)以及代码生成HumanEval (+3.1)
  • 知识类任务MMLU (+1.1)TriviaQA (+1.9)也展现了稳健的提升。

数据给出了最有力的证明:

  • 计算效率: 达到同样的性能,AttnRes 相比传统残差节省了约20% 的计算量(1.25x 优势)。
  • 逻辑推理: 在数学、代码等硬核任务上提升显著。例如,在极难的 GPQA-Diamond 测试中,性能提升了7.5 分
  • 稳定性: 成功抑制了隐藏状态的数值爆炸,让深层网络依然能保持「冷静」和「高效」。

总结:Rethink & Imagine

用更高维的视角看基础架构的研究,时间和空间都是相通的。

这篇论文「将注意力旋转 90°」的思想,似乎带给 Karpathy 一些启示和思考。



ResNet 的残差流是信息在不同空间深度上的传递。SGD (随机梯度下降)的权重流是信息在不同时间维度上的传递。

研究团队觉得 ResNet 的加法太朴素了,所以提议用 Attention 来筛选过去每一层的输出。 既然 SGD 也是 ResNet,「Attention is All You Need」,那我们为什么不能在优化器里也加上 Attention?

架构的生命力,往往来自于对惯性的反思。

当我们回过头去审视那些基础架构,或许就能在过去的故纸堆中,发现更多通往未来的巧妙结合。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蓝莓再次被关注?研究发现:蓝莓或可在30小时内清除体内45%因子

蓝莓再次被关注?研究发现:蓝莓或可在30小时内清除体内45%因子

垚垚分享健康
2026-03-29 11:55:24
养鱼界最强王者!广东男子因把带鱼养活5天而爆红,网友惊叹围观

养鱼界最强王者!广东男子因把带鱼养活5天而爆红,网友惊叹围观

观察鉴娱
2026-03-29 09:59:48
释新闻|被中方制裁的日众议员古屋圭司:高市早苗心腹,多次参拜靖国神社

释新闻|被中方制裁的日众议员古屋圭司:高市早苗心腹,多次参拜靖国神社

澎湃新闻
2026-03-30 13:50:26
4月7日至12日 郑丽文将应邀率团访问大陆

4月7日至12日 郑丽文将应邀率团访问大陆

看看新闻Knews
2026-03-30 10:55:01
太原高层大楼起火26死伤:官方三次更新伤亡人数,一画面信息量大

太原高层大楼起火26死伤:官方三次更新伤亡人数,一画面信息量大

博士观察
2026-03-29 14:54:04
打!倾家荡产也要打!以色列最新民调:75%民众要求死磕到底!

打!倾家荡产也要打!以色列最新民调:75%民众要求死磕到底!

老幡爆笑大聪明
2026-03-30 01:12:22
19岁全红婵哽咽回应“被人说胖”:第1次来例假后吃一点就胖,每天只吃一顿饿得不行,接受不了这么胖的自己,希望不要再骂我

19岁全红婵哽咽回应“被人说胖”:第1次来例假后吃一点就胖,每天只吃一顿饿得不行,接受不了这么胖的自己,希望不要再骂我

大风新闻
2026-03-30 11:46:07
陈奕迅现身单依纯演唱会,全程黑脸还睡着,网友:替李荣浩监场?

陈奕迅现身单依纯演唱会,全程黑脸还睡着,网友:替李荣浩监场?

潮鹿逐梦
2026-03-30 12:50:49
41岁美女老板朱明月去世,生前常熬夜,喜欢吃烧烤,身价几千万

41岁美女老板朱明月去世,生前常熬夜,喜欢吃烧烤,身价几千万

180视角
2026-03-30 08:54:24
退休党员注意!党费就按这个标准,别乱交、别多交

退休党员注意!党费就按这个标准,别乱交、别多交

娱乐的硬糖吖
2026-03-29 18:01:00
歼-20总师被除名:任央企高管,最近露面照曝出,事发全过程披露

歼-20总师被除名:任央企高管,最近露面照曝出,事发全过程披露

博士观察
2026-03-28 18:19:57
单依纯凌晨道歉!李荣浩回应:“赔偿我不需要!我要是想要钱,从第一开始就会授权给你”

单依纯凌晨道歉!李荣浩回应:“赔偿我不需要!我要是想要钱,从第一开始就会授权给你”

中国山东网
2026-03-30 08:48:10
难怪李鑫在家唯唯诺诺,豪宅不是养家的,厂同事曝更多情况

难怪李鑫在家唯唯诺诺,豪宅不是养家的,厂同事曝更多情况

潮鹿逐梦
2026-03-30 11:52:02
太阳报:哈兰德花40万镑买了一辆限量款迈巴赫,全球仅150辆

太阳报:哈兰德花40万镑买了一辆限量款迈巴赫,全球仅150辆

懂球帝
2026-03-30 11:56:04
52岁李乃文天津被偶遇,站在救护车旁神情紧张,网友纷纷表示担忧

52岁李乃文天津被偶遇,站在救护车旁神情紧张,网友纷纷表示担忧

乐悠悠娱乐
2026-03-30 11:17:49
伊能静秦昊手牵手逛迪士尼!58岁伊能静穿学院风,衣服快撑爆了!

伊能静秦昊手牵手逛迪士尼!58岁伊能静穿学院风,衣服快撑爆了!

小娱乐悠悠
2026-03-30 10:34:32
000908,18天14板

000908,18天14板

大众证券报
2026-03-30 11:35:22
孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

潮鹿逐梦
2026-03-28 10:59:56
乌度卡终于悟了!被弃用后球队全胜!斯通5200万签诈骗犯坑苦火箭

乌度卡终于悟了!被弃用后球队全胜!斯通5200万签诈骗犯坑苦火箭

你的篮球频道
2026-03-30 11:48:44
比亚迪车主集体懵了!车机高德突然没了,直接换成腾讯地图

比亚迪车主集体懵了!车机高德突然没了,直接换成腾讯地图

刘哥谈体育
2026-03-30 10:37:03
2026-03-30 15:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12640文章数 142599关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

旅游
本地
亲子
房产
公开课

旅游要闻

安徽合肥:不负好春光 踏青赏花忙

本地新闻

用Color Walk的方式解锁城市春日

亲子要闻

女儿今天来找爸爸,让女儿改口叫后妈

房产要闻

32亿,三开三罄!谁在硬控海口楼市高端局?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版