网易首页 > 网易号 > 正文 申请入驻

前有DeepSeek,后有Kimi!马斯克狂赞的中国双子星,炸穿大模型10年地基

0
分享至


大数据文摘受权转载自夕小瑶科技说

黄仁勋召开了英伟达 GTC 大会。

我在看直播的时候注意到一个关键细节——杨植麟是这次大会上唯一受邀演讲的中国大模型公司创始人。

在演讲中他罕见地直接表达:很多普遍使用的技术标准,正成为大模型 Scaling 的瓶颈。并且连着表达了三次“we scale and open-sourced”。

“我们规模化验证了,并且开源了”。

后面跟着三个关键词——MuonClip、Kimi Linear、Attention Residuals。


这三样东西刚好覆盖了深度学习训练最底层的三个基础结构——优化器、注意力机制、残差连接。

Kimi 三个全动了,而且规模化验证后开源。

它们解决的问题各不相同,但是姿态是一样的,都是对用了将近十年没人动的基础组件动刀。这第三项,正是两天前 Karpathy 和马斯克在 X 上点赞的那篇论文。


Karpathy 言外之意在说:attention 如果真的 is all you need,为什么不在深度这个维度上也用?Kimi 这篇论文干的正是这件事。

马斯克也给 Kimi 的工作点了赞。


非常巧的是,去年的最后几天,DeepSeek 也在 mHC(Manifold-Constrained Hyper-Connections)的论文里,对「残差连接」动了刀。

要理解这件事为什么这么重要,可能还得先理解残差连接是啥,解决了啥。

残差连接用了 10 年,问题在哪?

让我们回到 2015 年。

2015 年,深度神经网络有个致命的毛病:越深越烂。

理论上层数越多,模型表达能力越强;但实际上,训练信号(梯度)从输出层往回传的时候,每经过一层就会衰减一点,等传到前面的层,信号已经弱到接近于零,模型已经接变笨了。原因很简单,太深了,学不动了。这就是「梯度消失」。

而 ResNet 就解决了这个大麻烦,它的做法很巧妙,既然每一层传递的时候都会“忘记”一些东西,导致最后直接什么都没有,那我就强制要求每一层在往后传递的时候,除了要传递该层的变换,还要保留原始输入。它的公式很简单:


第 l 层的输出,等于上一层的输出,加上本层的变换结果。

这个设计最重要的意义,是保住了一条 identity path。

用大白话说,就是给信息留了一条“原样直通”的通道,后面的变换怎么折腾都行,但至少有一部分输入不会被改写,能直接往后传。

这是 ResNet 的天才之处,也是 Transformer 能一路堆到今天这个深度的地基。

但地基里,埋着一个隐患。

Transformer 用的是「PreNorm」,也就是先把输入做归一化,再过注意力或 FFN,最后加残差。

这个设计配合残差连接,相当于强制要求在信息传递时保“原文件”。每一层都平等地继承所有历史层的输出,没有谁更重要。

把残差连接的递归展开,会得到一个直观的视角:


发现问题了吗?

每一层的贡献权重都是 1。无论第 3 层提取的是什么特征,无论第 97 层处理的是什么输入,它们对最终状态的贡献量,完全相同。

PreNorm 把输入先做标准化,意味着所有层的输出都被拉到同一尺度;残差连接又强制等权累加。结果就是,深层的语义个性被稀释了。

随着网络加深,这个累加的总量越来越大——数学上,它大致按层数 L 线性增长。越往后的层,你新产生的输出,在这团不断累积的历史信息里,占比越来越小。越深的层,越难留下痕迹。要想保持影响力,它只能输出更大幅度的更新。

论文把这个现象叫「PreNorm dilution」——PreNorm 导致的信息稀释。

就像一本永不删改的会议记录本,每次开会,新的纪要都往后叠,旧的内容一字不删,谁都保留。看上去很稳,很安全,很尊重历史。可会议一旦开多了,问题就来了:后来的发言者想留下真正有效的意见,就得喊得越来越响。不是因为前面的人更有道理,只是因为纸已经太厚了。

这就是为什么残差连接的问题,不在于它无效,而在于它太死板。它保住了信息,却把所有信息一视同仁地保住了。它给了网络一条历史通道,却没给网络“该从历史里拿什么”的能力。

这个问题存在了 10 年。没人动,不是因为没人知道,而是因为它够用了,简单、稳定、零额外成本。

另一个原因是过去十年大家主要在改的是别的地方。

注意力、激活函数、归一化、MoE 路由、多模态融合,这些都被反复翻新;唯独层与层之间的信息流动方式,长期被当成基础设施默认不动。

论文的 related work 里,Highway、Hyper-Connections、mHC、DDL 这些路线都被系统梳理了一遍。可这些方法大多还停留在“如何修补这条加法路径”的层面:调一调比例,开几条并行流,或者想办法让状态别压得那么狠。

真正几乎没人认真追问的是:既然横向的时间序列上用 Attention 能获得更智能的全局理解,为什么纵向的深度维度就不行呢?

这正是 Attention Residuals 的出发点。

论文给了一个很妙的类比。像 RNN 这样的序列模型,本质上也是把过去的信息不断压进一个滚动状态里,沿时间一步一步往后传。后来 Transformer 用 attention 改了这件事:每个位置不必再死守一个压缩后的总状态,而是可以直接看所有历史位置,动态决定该看谁、看多少。

作者说,深度维度其实也有同样的问题。标准残差连接让每一层只接住一个已经被混好的总状态,跟当年的序列递归有一种很强的形式对偶。既然序列这边已经从 RNN 走到了 attention,深度这边为什么不行?

于是,Attention Residuals 做的事情就清楚了:它把标准残差里那个固定为 1 的权重,换成了一个可学习、而且依赖输入的 attention 权重。

每一层用一个可学习的查询向量 w_l,去和所有历史层的输出做匹配,经 softmax 归一化后得到权重,再加权求和:


每层只额外引入一个 d 维的可学习向量,参数量极少。同样是第 50 层,面对不同输入,它聚合历史信息的方式可以完全不同。



  • 左边是过去 10 年我们最熟悉的标准残差:所有层输出一路等权相加。

  • 中间是理论上最完整的 Full AttnRes:每一层都可以回看并选择所有历史层。

  • 右边则是能落地实现方式 Block AttnRes:把层分块,在保住大部分效果的同时,把系统开销压下来。

再讲讲 DeepSeek 前段时间也发布了一个对残差连接动刀的工作,叫做「mHC(Manifold-Constrained Hyper-Connections) 」。它延续的是 Hyper-Connections 这条路线:把原本单条的 residual stream 扩展成多条并行流,让层与层之间的信息交换不再只走一条固定通道。

mHC 把残差流从单条扩展成多条(n 流),用可学习的矩阵来调节层间的信息流,再用数学约束(双随机矩阵)来保持稳定。本质上,这是对 residual stream 的横向扩展。重点是先把路拓宽,让信息有多条并行路径可以走。

Kimi 这次走的是另一条路,在原有这条深度通路上,重写了信息聚合的规则。

过去,前面各层的输出是固定等权地一路相加;现在,它用 depth-wise softmax attention 来做跨层选择,让每一层都能动态决定该从哪些早期表示里多取一点、少取一点。这样一来,重要信息会被突出,次要信息会被压低,早期层里那些原本容易在层层累加中被冲淡的语义,也更有机会被后续层重新调出来。

其实这两条路并不互相否定,论文里甚至直接说了,AttnRes 和 mHC 在某种意义上是正交的。可从叙事上看,这两家公司几乎同时,从不同角度,对一个用了 11 年的基础结构提出了质疑。这说明,层与层之间的信息流动方式,正在重新成为大模型研究里的关键问题。

Kimi 这篇论文更进一步的地方在于,在于它把 Attention 从序列维度,进一步推进到了深度维度。

这也是为什么 Karpathy 会对它产生兴趣。一个清晰的信号是:Attention 这套机制,也许还能提供更多的智能潜力

再补一个更进阶的信息。

Full Attention Residuals 虽然概念最干净,工程上却不能不算账。因为它意味着每一层都要访问所有历史层的输出,理论复杂度会到 O(L^2d)。

在普通训练设定下,Full AttnRes 几乎不额外占内存,因为反向传播本来就要保留这些层输出;可一旦上到大规模训练,尤其是 activation recomputation 和 pipeline parallelism 普遍存在的时候,问题就来了。这些激活需要被显式保活,还要跨 stage 通信,成本会迅速抬头。

所以能工程落地的是Block AttnRes

它的思路也很 Kimi:四两拨千斤,换个结构让它可用。论文把很多层切成 N 个 block。

块内仍然用传统 residual 先累加,块与块之间再做 attention。这样一来,需要保留和通信的对象,就从“每一层的输出”变成“每个 block 的摘要表示”。论文给出的结果是,memory(内存开销)和 communication (跨设备通信开销)都可以降到 O(Nd)。而且实验里大约 8 个 block,就已经能吃到 Full AttnRes 的大部分收益。


它不是只在纸面上成立,论文专门补了两套工程优化:

  • cross-stage caching:减少 pipeline 并行时的重复通信

  • two-phase computation:把块间 attention 先并行算掉,再和块内顺序计算合并

最终结果是:推理延迟额外开销不到 2%,可以直接替换现有模型的标准残差。

Scaling law 的结果是:Block AttnRes 达到的 loss,大致相当于基线模型多花 1.25 倍算力才能追上。


三条曲线里,Baseline 始终在上面,Full AttnRes 和 Block AttnRes 整体更低。Block 版本几乎贴着 Full 走,说明它在更低系统成本下,追回了大部分收益。

这个提升不只停留在预训练 loss 上。

在作者最终的同配方预训练对比里,AttnRes 几乎在所有 benchmark 上都追平或超过 baseline。


如果非要比较 DeepSeek 的 mHC 方案和 Block AttnRes,Block AttnRes 的内存访问开销只有 mHC 的约六分之一,是更好的理论框架,更低的系统成本。

就在 GTC 演讲的同时,Kimi 正以 180 亿美元的估值,进行新一轮 10 亿美元融资。

三个月前,这个数字还是 43 亿。

近三个月,Kimi 完成了三轮融资,估值从 43 亿美元涨到 180 亿美元,翻了四倍,成为中国历史上从成立到估值破百亿美元最快的公司。拼多多当年用了三年多,字节跳动用了四年多,Kimi 只用了两年多。

这个速度本身就已经说明了一件事:最敏感的钱,已经先下注了。

第一层原因,是商业化已经被快速验证。

K2.5 发布后的 20 天内,Kimi 的收入就超过了 2025 年全年总和。根据全球支付平台 Stripe 的数据,Kimi 的付费订单数在 1 月环比激增 8280%,2 月再涨 123.8%,全球排名也从此前从未进入前 100,一路冲到第 9 位,前面已经是 Grok、Cursor 这样的名字。

但如果只是增长快,还不足以支撑 180 亿美元的想象力。

更深一层,资本押注的,是 Kimi 身上那股很少见的技术心气。

最近这几个月,Kimi 连续开源的几项工作,砍的几乎都是深度学习最底层的基础设施。

这件事的分量,其实比一篇论文本身大得多。

因为市场真正买单的,不只是你能不能做出增长,而是你有没有能力去改写那些别人默认不能动的东西。

更重要的是,你改完之后,还能不能把这种能力变成真实增长。

所以,杨植麟在 GTC 连说三个“we scale and open-sourced”,不全是客套,我想了下,还有姿态。

“we”意味着一种邀请——不用别人定义的规则做竞赛,我们在改规则本身。然后开源公开邀请所有人一起往前走。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
菲尔兹奖得主牵头近2000名数学家拒绝赴美,数学家大会陷入争议

菲尔兹奖得主牵头近2000名数学家拒绝赴美,数学家大会陷入争议

DeepTech深科技
2026-04-04 12:10:59
快讯!欧盟终于对中国下手了!

快讯!欧盟终于对中国下手了!

达文西看世界
2026-04-05 14:59:00
詹姆斯:我不喜欢去两座城市打球有啥问题?我也不喜欢回老家打球

詹姆斯:我不喜欢去两座城市打球有啥问题?我也不喜欢回老家打球

罗说NBA
2026-04-05 05:06:33
金庸给了她最难听的名字,小时候觉得好听,30岁后读出来都会脸红

金庸给了她最难听的名字,小时候觉得好听,30岁后读出来都会脸红

耳东文史
2026-04-04 00:02:10
告别一年,才懂他的无价!德布劳内——被低估的中场天花板

告别一年,才懂他的无价!德布劳内——被低估的中场天花板

体育闲话说
2026-04-04 21:31:21
美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了

美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了

吕醿极限手工
2026-04-04 16:15:31
从“铁榔头”到“整容狂魔”,64岁医美失败的郎平,差点认不出来

从“铁榔头”到“整容狂魔”,64岁医美失败的郎平,差点认不出来

潮鹿逐梦
2026-04-04 18:24:42
为什么领导在大领导面是前背手,在小领导面前是后背手?

为什么领导在大领导面是前背手,在小领导面前是后背手?

深度报
2026-04-03 21:40:01
美国伤亡人数出炉

美国伤亡人数出炉

杨兴文
2026-04-04 22:04:35
被售后工人怒斥:你的筒自洁,纯粹是在浪费时间!

被售后工人怒斥:你的筒自洁,纯粹是在浪费时间!

装修秀
2026-04-04 11:35:03
陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

极目新闻
2026-04-03 14:47:02
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
签完反华声明,马克龙离开日本,临走前一锤定音,G7峰会拒邀中国

签完反华声明,马克龙离开日本,临走前一锤定音,G7峰会拒邀中国

兴史兴谈
2026-04-05 15:27:24
2女3狗穷游云南拒付车费续:女子曝光狗群出名,官方起诉警方介入

2女3狗穷游云南拒付车费续:女子曝光狗群出名,官方起诉警方介入

奇思妙想草叶君
2026-04-04 16:23:53
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

小谈食刻美食
2026-04-02 08:57:37
英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

英媒终于承认:中东打一仗才发现,中国这3张底牌,谁都学不来!

阿器谈史
2026-04-02 15:33:03
气笑了!雷迪克:达拉斯影像团队把里夫斯的MRI扫描位置搞错了

气笑了!雷迪克:达拉斯影像团队把里夫斯的MRI扫描位置搞错了

懂球帝
2026-04-05 13:24:07
真惨!一家五口出国旅游后回不了美国,工作也没了

真惨!一家五口出国旅游后回不了美国,工作也没了

华人生活网
2026-04-05 04:12:43
美媒:阿联酋一石化工厂因“防空系统拦截袭击后坠落的碎片”引发火情

美媒:阿联酋一石化工厂因“防空系统拦截袭击后坠落的碎片”引发火情

环球网资讯
2026-04-05 16:34:05
2026-04-05 17:16:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6848文章数 94539关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

高速停车救人发生二次事故致死伤 男子被认定次责不服

头条要闻

高速停车救人发生二次事故致死伤 男子被认定次责不服

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

艺术
游戏
本地
旅游
公开课

艺术要闻

21位中国当代名家的26幅油画

《使命召唤》职业选手私信撩骚被曝光后遭战队开除

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

视点|北京阵风达七八级,什刹海景区游船停运

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版