前有DeepSeek，后有Kimi！马斯克狂赞的中国双子星，炸穿大模型10年地基|残差|黄仁勋|新论文|kimi|埃隆_马斯克|deepseek

分享至

大数据文摘受权转载自夕小瑶科技说

黄仁勋召开了英伟达 GTC 大会。

我在看直播的时候注意到一个关键细节——杨植麟是这次大会上唯一受邀演讲的中国大模型公司创始人。

在演讲中他罕见地直接表达：很多普遍使用的技术标准，正成为大模型 Scaling 的瓶颈。并且连着表达了三次“we scale and open-sourced”。

“我们规模化验证了，并且开源了”。

后面跟着三个关键词——MuonClip、Kimi Linear、Attention Residuals。

这三样东西刚好覆盖了深度学习训练最底层的三个基础结构——优化器、注意力机制、残差连接。

Kimi 三个全动了，而且规模化验证后开源。

它们解决的问题各不相同，但是姿态是一样的，都是对用了将近十年没人动的基础组件动刀。这第三项，正是两天前 Karpathy 和马斯克在 X 上点赞的那篇论文。

Karpathy 言外之意在说：attention 如果真的 is all you need，为什么不在深度这个维度上也用？Kimi 这篇论文干的正是这件事。

马斯克也给 Kimi 的工作点了赞。

非常巧的是，去年的最后几天，DeepSeek 也在 mHC（Manifold-Constrained Hyper-Connections）的论文里，对「残差连接」动了刀。

要理解这件事为什么这么重要，可能还得先理解残差连接是啥，解决了啥。

残差连接用了 10 年，问题在哪？

让我们回到 2015 年。

2015 年，深度神经网络有个致命的毛病：越深越烂。

理论上层数越多，模型表达能力越强；但实际上，训练信号（梯度）从输出层往回传的时候，每经过一层就会衰减一点，等传到前面的层，信号已经弱到接近于零，模型已经接变笨了。原因很简单，太深了，学不动了。这就是「梯度消失」。

而 ResNet 就解决了这个大麻烦，它的做法很巧妙，既然每一层传递的时候都会“忘记”一些东西，导致最后直接什么都没有，那我就强制要求每一层在往后传递的时候，除了要传递该层的变换，还要保留原始输入。它的公式很简单：

第 l 层的输出，等于上一层的输出，加上本层的变换结果。

这个设计最重要的意义，是保住了一条 identity path。

用大白话说，就是给信息留了一条“原样直通”的通道，后面的变换怎么折腾都行，但至少有一部分输入不会被改写，能直接往后传。

这是 ResNet 的天才之处，也是 Transformer 能一路堆到今天这个深度的地基。

但地基里，埋着一个隐患。

Transformer 用的是「PreNorm」，也就是先把输入做归一化，再过注意力或 FFN，最后加残差。

这个设计配合残差连接，相当于强制要求在信息传递时保“原文件”。每一层都平等地继承所有历史层的输出，没有谁更重要。

把残差连接的递归展开，会得到一个直观的视角：

发现问题了吗？

每一层的贡献权重都是 1。无论第 3 层提取的是什么特征，无论第 97 层处理的是什么输入，它们对最终状态的贡献量，完全相同。

PreNorm 把输入先做标准化，意味着所有层的输出都被拉到同一尺度；残差连接又强制等权累加。结果就是，深层的语义个性被稀释了。

随着网络加深，这个累加的总量越来越大——数学上，它大致按层数 L 线性增长。越往后的层，你新产生的输出，在这团不断累积的历史信息里，占比越来越小。越深的层，越难留下痕迹。要想保持影响力，它只能输出更大幅度的更新。

论文把这个现象叫「PreNorm dilution」——PreNorm 导致的信息稀释。

就像一本永不删改的会议记录本，每次开会，新的纪要都往后叠，旧的内容一字不删，谁都保留。看上去很稳，很安全，很尊重历史。可会议一旦开多了，问题就来了：后来的发言者想留下真正有效的意见，就得喊得越来越响。不是因为前面的人更有道理，只是因为纸已经太厚了。

这就是为什么残差连接的问题，不在于它无效，而在于它太死板。它保住了信息，却把所有信息一视同仁地保住了。它给了网络一条历史通道，却没给网络“该从历史里拿什么”的能力。

这个问题存在了 10 年。没人动，不是因为没人知道，而是因为它够用了，简单、稳定、零额外成本。

另一个原因是过去十年大家主要在改的是别的地方。

注意力、激活函数、归一化、MoE 路由、多模态融合，这些都被反复翻新；唯独层与层之间的信息流动方式，长期被当成基础设施默认不动。

论文的 related work 里，Highway、Hyper-Connections、mHC、DDL 这些路线都被系统梳理了一遍。可这些方法大多还停留在“如何修补这条加法路径”的层面：调一调比例，开几条并行流，或者想办法让状态别压得那么狠。

真正几乎没人认真追问的是：既然横向的时间序列上用 Attention 能获得更智能的全局理解，为什么纵向的深度维度就不行呢？

这正是 Attention Residuals 的出发点。

论文给了一个很妙的类比。像 RNN 这样的序列模型，本质上也是把过去的信息不断压进一个滚动状态里，沿时间一步一步往后传。后来 Transformer 用 attention 改了这件事：每个位置不必再死守一个压缩后的总状态，而是可以直接看所有历史位置，动态决定该看谁、看多少。

作者说，深度维度其实也有同样的问题。标准残差连接让每一层只接住一个已经被混好的总状态，跟当年的序列递归有一种很强的形式对偶。既然序列这边已经从 RNN 走到了 attention，深度这边为什么不行？

于是，Attention Residuals 做的事情就清楚了：它把标准残差里那个固定为 1 的权重，换成了一个可学习、而且依赖输入的 attention 权重。

每一层用一个可学习的查询向量 w_l，去和所有历史层的输出做匹配，经 softmax 归一化后得到权重，再加权求和：

每层只额外引入一个 d 维的可学习向量，参数量极少。同样是第 50 层，面对不同输入，它聚合历史信息的方式可以完全不同。

左边是过去 10 年我们最熟悉的标准残差：所有层输出一路等权相加。
中间是理论上最完整的 Full AttnRes：每一层都可以回看并选择所有历史层。
右边则是能落地实现方式 Block AttnRes：把层分块，在保住大部分效果的同时，把系统开销压下来。

再讲讲 DeepSeek 前段时间也发布了一个对残差连接动刀的工作，叫做「mHC（Manifold-Constrained Hyper-Connections）」。它延续的是 Hyper-Connections 这条路线：把原本单条的 residual stream 扩展成多条并行流，让层与层之间的信息交换不再只走一条固定通道。

mHC 把残差流从单条扩展成多条（n 流），用可学习的矩阵来调节层间的信息流，再用数学约束（双随机矩阵）来保持稳定。本质上，这是对 residual stream 的横向扩展。重点是先把路拓宽，让信息有多条并行路径可以走。

Kimi 这次走的是另一条路，在原有这条深度通路上，重写了信息聚合的规则。

过去，前面各层的输出是固定等权地一路相加；现在，它用 depth-wise softmax attention 来做跨层选择，让每一层都能动态决定该从哪些早期表示里多取一点、少取一点。这样一来，重要信息会被突出，次要信息会被压低，早期层里那些原本容易在层层累加中被冲淡的语义，也更有机会被后续层重新调出来。

其实这两条路并不互相否定，论文里甚至直接说了，AttnRes 和 mHC 在某种意义上是正交的。可从叙事上看，这两家公司几乎同时，从不同角度，对一个用了 11 年的基础结构提出了质疑。这说明，层与层之间的信息流动方式，正在重新成为大模型研究里的关键问题。

Kimi 这篇论文更进一步的地方在于，在于它把 Attention 从序列维度，进一步推进到了深度维度。

这也是为什么 Karpathy 会对它产生兴趣。一个清晰的信号是：Attention 这套机制，也许还能提供更多的智能潜力

再补一个更进阶的信息。

Full Attention Residuals 虽然概念最干净，工程上却不能不算账。因为它意味着每一层都要访问所有历史层的输出，理论复杂度会到 O(L^2d)。

在普通训练设定下，Full AttnRes 几乎不额外占内存，因为反向传播本来就要保留这些层输出；可一旦上到大规模训练，尤其是 activation recomputation 和 pipeline parallelism 普遍存在的时候，问题就来了。这些激活需要被显式保活，还要跨 stage 通信，成本会迅速抬头。

所以能工程落地的是Block AttnRes。

它的思路也很 Kimi：四两拨千斤，换个结构让它可用。论文把很多层切成 N 个 block。

块内仍然用传统 residual 先累加，块与块之间再做 attention。这样一来，需要保留和通信的对象，就从“每一层的输出”变成“每个 block 的摘要表示”。论文给出的结果是，memory（内存开销）和 communication （跨设备通信开销）都可以降到 O(Nd)。而且实验里大约 8 个 block，就已经能吃到 Full AttnRes 的大部分收益。

它不是只在纸面上成立，论文专门补了两套工程优化：

cross-stage caching：减少 pipeline 并行时的重复通信
two-phase computation：把块间 attention 先并行算掉，再和块内顺序计算合并

最终结果是：推理延迟额外开销不到 2%，可以直接替换现有模型的标准残差。

Scaling law 的结果是：Block AttnRes 达到的 loss，大致相当于基线模型多花 1.25 倍算力才能追上。

三条曲线里，Baseline 始终在上面，Full AttnRes 和 Block AttnRes 整体更低。Block 版本几乎贴着 Full 走，说明它在更低系统成本下，追回了大部分收益。

这个提升不只停留在预训练 loss 上。

在作者最终的同配方预训练对比里，AttnRes 几乎在所有 benchmark 上都追平或超过 baseline。

如果非要比较 DeepSeek 的 mHC 方案和 Block AttnRes，Block AttnRes 的内存访问开销只有 mHC 的约六分之一，是更好的理论框架，更低的系统成本。

就在 GTC 演讲的同时，Kimi 正以 180 亿美元的估值，进行新一轮 10 亿美元融资。

三个月前，这个数字还是 43 亿。

近三个月，Kimi 完成了三轮融资，估值从 43 亿美元涨到 180 亿美元，翻了四倍，成为中国历史上从成立到估值破百亿美元最快的公司。拼多多当年用了三年多，字节跳动用了四年多，Kimi 只用了两年多。

这个速度本身就已经说明了一件事：最敏感的钱，已经先下注了。

第一层原因，是商业化已经被快速验证。

K2.5 发布后的 20 天内，Kimi 的收入就超过了 2025 年全年总和。根据全球支付平台 Stripe 的数据，Kimi 的付费订单数在 1 月环比激增 8280%，2 月再涨 123.8%，全球排名也从此前从未进入前 100，一路冲到第 9 位，前面已经是 Grok、Cursor 这样的名字。

但如果只是增长快，还不足以支撑 180 亿美元的想象力。

更深一层，资本押注的，是 Kimi 身上那股很少见的技术心气。

最近这几个月，Kimi 连续开源的几项工作，砍的几乎都是深度学习最底层的基础设施。

这件事的分量，其实比一篇论文本身大得多。

因为市场真正买单的，不只是你能不能做出增长，而是你有没有能力去改写那些别人默认不能动的东西。

更重要的是，你改完之后，还能不能把这种能力变成真实增长。

所以，杨植麟在 GTC 连说三个“we scale and open-sourced”，不全是客套，我想了下，还有姿态。

“we”意味着一种邀请——不用别人定义的规则做竞赛，我们在改规则本身。然后开源公开邀请所有人一起往前走。

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

扫码了解详情☝

点「赞」的人都变好看了哦！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.