网易首页 > 网易号 > 正文 申请入驻

马斯克亲自点赞,Kimi动了十一年没人敢碰的东西

0
分享至



科技博主Avi Chawla在X上发了一条长帖,详细拆解了月之暗面Kimi团队刚刚发布的一篇技术报告。

帖子发出后不久,马斯克本人在下面回复了一句:“月之暗面做出了令人印象深刻的结果”(Impressive work from Kimi.)



马斯克在AI领域的表态向来以挑剔著称,没少骂过Anthropic和OpenAI,甚至曾直言说Anthropic的图标像是某种人体器官。

他自己的xAI最近还在经历大规模重组,多位华人联合创始人离职,Grok的表现也不尽如人意。

可就在这个节骨眼上,他主动对一家中国AI公司的技术论文表示认可,多少有些出人意料。

说回被马斯克点赞的这个东西,其实是有点抽象的,因为它压根不是一个模型。

Kimi团队提出了一种新的方式,试图替换掉Transformer架构里一个自2015年以来就几乎没人动过的基础组件。

这是一篇纯粹的架构层面的技术论文。

虽然说这篇论文的影响,未必会被普通用户感知到,可实际上,它触碰的是整个深度学习的基石。

01

月之暗面到底改了什么

要理解这篇论文在做什么,得先搞清楚一个背景。现代大语言模型,无论是GPT、Claude,还是国内的豆包、DeepSeek,哪怕是Kimi自己的K2.5,其底层架构都是Transformer。

Transformer之所以能训练到几十层甚至上百层而不崩溃,都是因为一个叫“残差连接(Residual Connection)”的机制在起作用。

残差连接的原理其实很简单。

每一层网络在做完自己的计算之后,把自己的输出和输入加在一起,然后传到下一层去再做计算。这样做的好处是,梯度在反向传播时可以沿着一条“高速公路”直达底层,不会因为层数太深而消失。

这个设计来自何恺明在2015年参与的ResNet论文,后来被Transformer原封不动地继承了下来。

但这时候就有一个不大不小的问题,这种“加法”是完全平等的。

第一层的输出和第四十层的输出,在最终的隐藏状态里享有同等的权重,都是1。没有任何机制去判断哪一层的信息更重要、哪一层的贡献可以被忽略。随着层数增加,隐藏状态的数值会线性增长,早期层的信息逐渐被稀释,后面的层想要产生影响就必须输出更大的数值,这反过来又加剧了不稳定性。

就像咱们所有人拉个微信群,一起讨论晚上吃什么,每个人的发言权重完全一样,不管谁说的有道理谁在瞎扯,最后群主只能把所有消息从头到尾读一遍,这就导致他越往后翻越记不住前面说了啥。

这个现象在学术上被称为“PreNorm稀释”。

Kimi团队注意到,这个问题和早年RNN面临的困境有一种结构上的对称性。

RNN是在时间维度上做固定权重的累加,每个时间步的信息被等权地压缩进同一个隐藏状态,导致长距离依赖难以捕捉。后来Transformer用注意力机制替代了RNN的这种线性累加,让模型可以根据内容动态地决定该关注序列中的哪些位置,这才有了后来的一切。

两者的区别在于,RNN就像上课,老师讲到哪你就听到哪,只能从头听到尾,没记住的要么看笔记,要么再次从头来。Transformer则是录播网课,可以随时翻回去看之前最重要的部分。

但在深度维度上,同样的问题一直存在,却没有人用同样的思路去解决。每一层的输出仍然是被等权相加的,模型没有能力根据当前输入去选择性地从某些层提取信息、忽略另一些层。

Kimi团队表示,标准残差连接本质上是“深度维度上的线性注意力”,他们要做的,是把它升级为“深度维度上的softmax注意力”。

于是他们提出了一个“理想版”的方案,叫做全注意力残差(Full Attention Residuals)。



具体做法是给每一层赋予一个可学习的查询向量,这个向量会对之前所有层的输出做一次注意力计算,产生一组归一化的权重。

然后当前层的输入不再是之前所有层输出的简单求和,而是按照这组权重的加权组合。权重是输入相关的,也就是说,不同的token在经过同一层时,可能会从不同的历史层中提取不同的信息。

那我们还是用前面微信群的例子。现在群主不用从头到尾翻聊天记录了,有个助手帮他标出“这几条最值得看”,不同的话题还会标出不同的重点消息。

理想丰满现实骨感,全注意力残差这个方案其实“不靠谱”。

大规模训练时,模型通常会使用流水线并行和激活重计算来节省显存,这意味着之前层的输出不会被保留在内存里。

如果要做全注意力,就需要把所有层的输出都存下来并在流水线的不同阶段之间传递,内存和通信开销都会变得不可接受。

为了解决这个问题,Kimi团队又提出了块注意力残差(Block Attention Residuals)。



思路是把所有层分成若干个块,每个块内部仍然使用传统的残差连接做求和,但块与块之间使用注意力机制来做选择性聚合。这样需要存储和传输的不再是每一层的输出,而是每个块的汇总表示,内存占用从 O(Ld)降到了 O(Nd),其中 N 是块的数量,通常只有8个左右。

这就相当于是把刚才那个微信群分成了八个小组,每组先内部讨论出一个结论,群主只需要看八条小组总结就行。

在此基础上,他们还做了一系列工程优化。

比如跨阶段缓存消除了流水线并行中的冗余传输,两阶段推理策略通过在线softmax把跨块注意力的计算分摊到各个块的处理过程中。最终的结果是,注意力残差作为标准残差连接的替代品,训练时的额外开销很小,推理时的延迟增加不到2%。

Kimi团队又做了两个实验。

一是scaling law实验,验证这个改进在不同模型规模下是否一致有效。结果显示,注意力在所有计算预算下都优于基线,其效果相当于用1.25倍的计算量训练出的基线模型。

二是Kimi拿自己的大模型上做了实战验证。模型参数量为480亿,用超过一万亿个词的数据做了完整的预训练。然后在科学问答、数学推理、代码生成、综合知识等一系列主流测试中,加了块注意力残差的版本全面超过了没加的版本。



从训练动态的分析来看,块注意力残差确实缓解了PreNorm稀释问题。各层输出的幅度不再随深度线性增长,而是保持在一个相对稳定的范围内;梯度的分布也更加均匀,也不再会出现浅层梯度过大、深层梯度过小的失衡现象。

除此以外,论文中还做了一个统一的结构化矩阵分析,证明了标准残差连接和之前的各种变体(比如 Highway Networks、DeepNet 的 scaled residuals 等)本质上都是深度维度上的线性注意力的特例。

简单来说就是,自2015年ResNet以来,在残差连接这个板块,没有任何实质性的变化。而Kimi的这篇论文,是第一个既有理论依据,又能大规模实际部署且低成本的方案。

马斯克也正是因为这个结论,才亲自下场点赞Kimi。

02

融资、争议和马斯克的那个赞

月之暗面正处在一个微妙的时间节点上,那就是上市。

2025年12月底,月之暗面完成了5亿美元的C轮融资。投后估值43亿美元。两个月后,月之暗面完成超7亿美元的C+轮融资,由阿里、腾讯、五源资本等老股东联合领投,投后估值突破100亿美元。

到了3月中,月之暗面最新投前估值已上升至180亿美元,新一轮10亿美元融资正在推进中,3个月内估值实现超4倍增长。

实际上月之暗面最近的收入增长得很快,Kimi K2.5模型发布不到一个月,累计收入就超过了2025年全年总收入。

根据全球支付平台Stripe的数据,Kimi个人订阅用户的支付订单数在1月环比增长了 8280%,2月又环比增长了123.8%,已经进入Stripe全球榜单前十。

但融资顺利并不意味着没有争议。

就在几天前,OpenClaw创始人彼得·斯坦伯格公开对月之暗面的Kimi Claw产品提出了质疑。事

情的起因是,月之暗面此前推出了OpenClaw的云端一键部署服务Kimi Claw,它的逻辑有悖于OpenClaw的设计理念。

有用户在X上询问这个产品是否值得尝试并 @了斯坦伯格,斯坦伯格的回应很直接:他们有没有把安全文档作为必读项展示给用户?



斯坦伯格的核心关切在于,OpenClaw的逻辑是“本地优先”。agent运行在用户自己的设备上,但可能因为过高的本地权限,引发了安全风险,因此工信部也建议“优先考虑在容器或虚拟机中隔离运行,形成独立的权限区域。”

但KimiClaw的做法正是如此,它把OpenClaw搬到了云端的虚拟机。在安全和隐私层面,这两种模式的风险等级完全不同。

对于正在高速融资的月之暗面来说,来自OpenClaw创始人的公开批评,多少会在海外技术社区中制造一些负面情绪。

然后马斯克的那条回复出现了。

虽然这两件事是风马牛不相及的,但在舆论场上,它们会不可避免地被放在一起解读。

一边是OpenClaw创始人对月之暗面产品的安全质疑,另一边是马斯克对月之暗面研究论文的公开认可。

对于正在进行新一轮融资的月之暗面来说,后者的时机几乎不能更好。在资本市场的叙事逻辑里,这种来自顶级人物的认可,往往比任何分析报告都更有说服力。

当然了,不应该过度去解读马斯克的一条推文。他在X上的互动频率极高,对各种技术话题都会随手点评,一句“impressive”并不意味着他会投资月之暗面或者在xAI中采用月之暗面的方法。

但不管怎么说,马斯克那条回复发出去之后,很多原本不关注架构研究的人,也开始去翻这篇论文了。一个十一年没人碰过的组件被重新打开,接下来会发生什么,谁也不知道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人末战验出该留下谁!八村三分超准海斯够强硬,詹皇小里降薪?

湖人末战验出该留下谁!八村三分超准海斯够强硬,詹皇小里降薪?

李喜林篮球绝杀
2026-05-12 16:34:05
故事:国民女神宋慧乔,被财阀控制沦为玩物,收集证据10年逆袭

故事:国民女神宋慧乔,被财阀控制沦为玩物,收集证据10年逆袭

飞云如水
2025-01-17 13:43:48
钓鱼者称在广东阳江近海钓鱼时被养殖户开船冲撞,派出所:被撞船只上的人被认为想破坏网箱;钓鱼者朋友表示其出海时并未接触养殖户网箱

钓鱼者称在广东阳江近海钓鱼时被养殖户开船冲撞,派出所:被撞船只上的人被认为想破坏网箱;钓鱼者朋友表示其出海时并未接触养殖户网箱

台州交通广播
2026-05-11 14:48:29
以总理称伊朗导弹有中国的零部件?外交部:反对没有事实依据的无端指责

以总理称伊朗导弹有中国的零部件?外交部:反对没有事实依据的无端指责

澎湃新闻
2026-05-12 15:48:26
恭喜!中国男篮19岁2米03新星加入路易斯维尔:下一步冲击NBA?

恭喜!中国男篮19岁2米03新星加入路易斯维尔:下一步冲击NBA?

李喜林篮球绝杀
2026-05-12 11:11:50
林诗栋的姐姐是谁?世界冠军的秘密揭晓!

林诗栋的姐姐是谁?世界冠军的秘密揭晓!

观察鉴娱
2026-05-12 09:24:07
全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

琴音似君语
2026-05-10 17:56:21
最高31℃!今天局部有雨!

最高31℃!今天局部有雨!

上观新闻
2026-05-12 11:18:07
日本刚拿到12年稀土大单就飘了,叫嚣反制无效,不料麻烦才开始!

日本刚拿到12年稀土大单就飘了,叫嚣反制无效,不料麻烦才开始!

疯狂小菠萝
2026-05-12 14:42:55
株洲26岁女士征婚!要求男方独生子、存款200万以上,称有前任9名

株洲26岁女士征婚!要求男方独生子、存款200万以上,称有前任9名

火山詩话
2026-05-11 13:50:23
她是陈永贵提拔的副手,1980年被免去职务,如今78岁仍在大寨工作

她是陈永贵提拔的副手,1980年被免去职务,如今78岁仍在大寨工作

明月清风阁
2026-05-12 17:15:08
他几乎熬死了所有对手

他几乎熬死了所有对手

晏凌羊
2026-05-07 21:13:05
爷爷最后一面不见,姥姥录音骂卖国!张本智和,你赢了世界输了家

爷爷最后一面不见,姥姥录音骂卖国!张本智和,你赢了世界输了家

曹老师评球
2026-05-01 13:49:39
没想到,驰援国乒五天后,许昕竟因世乒赛上一举动赚足全球目光

没想到,驰援国乒五天后,许昕竟因世乒赛上一举动赚足全球目光

临云史策
2026-05-12 11:07:33
张艺谋《主角》的细节到底有多考究?看小演员吃戏场面就明白了

张艺谋《主角》的细节到底有多考究?看小演员吃戏场面就明白了

娱乐圈笔娱君
2026-05-12 14:03:43
恐怖 中国拳手赴非洲参赛被软禁+下迷药 绵软无力上场 视频已曝光

恐怖 中国拳手赴非洲参赛被软禁+下迷药 绵软无力上场 视频已曝光

风过乡
2026-05-12 16:25:01
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
【华夏艺术星秀】全国青少年才艺总展演超人气冠军---欧艺琛

【华夏艺术星秀】全国青少年才艺总展演超人气冠军---欧艺琛

简趣
2024-10-17 11:08:21
一算吓一跳!公务员、事业编、企退人员抚恤金真实差额

一算吓一跳!公务员、事业编、企退人员抚恤金真实差额

李博世财经
2026-05-12 14:28:25
“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

“老实人”任重甘愿当接盘侠,迎娶内娱第一海王,网友:天生绝配

橙星文娱
2026-04-20 16:40:14
2026-05-12 18:31:00
字母榜 incentive-icons
字母榜
让未来不止于大。
2452文章数 8063关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

老人游泳馆溺水6分钟无人施救 家属:救生员在玩手机

头条要闻

老人游泳馆溺水6分钟无人施救 家属:救生员在玩手机

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

房产
家居
亲子
教育
手机

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

家居要闻

极简主义下的居住场域与空间

亲子要闻

37岁卵巢功能下降还能怀孕吗?促排期间注意哪些事项吃什么?

教育要闻

牛!玄外41人、明道30人、金中河西26人、求真24....特长生牛娃上岸附中!

手机要闻

iOS 26.5正式版来了!新变化汇总与更新建议

无障碍浏览 进入关怀版