网易首页 > 网易号 > 正文 申请入驻

马斯克也来站台,中国团队对AI底层架构动手术

0
分享至

作者 | 封华

编辑 | 魏晓

来自中国的Kimi,再一次引发了硅谷AI圈的注意。

3月16日,月之暗面Kimi发布了一项技术报告《Attention Residuals》(注意力残差),重新设计了深度学习中核心的残差连接结构。

报告发布后,引来了一众企业家和AI大佬的围观。连续三天登上Twitter全球热搜榜,主贴阅读量超过 460万,堪比一次模型重要版本发布。

OpenAI的“推理模型之父”、前OpenAI研究副总裁Jerry Tworek表示:“深度学习2.0要来了”。

马斯克称赞道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。随后,Kimi进行了回应:“你的火箭造得也不错!”

中外AI,在这一刻产生了惺惺相惜之感。


马斯克在业内一向“口无遮拦”,曾嘲讽Anthropic大规模窃取训练数据,也曾批评OpenAI成为“逐利公司”。只有真心认可,他才会不吝点赞。

这次马斯克对Kimi大加赞赏,正是震惊于AI技术的突破。

Kimi提出的注意力残差,旨在突破大模型架构中的瓶颈,改写大模型训练效率与成本曲线。

技术突破“炸场”的同时,月之暗面创始人杨植麟还成为英伟达年度大会GTC 2026,唯一受邀演讲的中国大模型公司创始人。

在演讲中,杨植麟没有去讲Kimi的用户数,或是其他商业数据,而是解读了一个核心问题:当算力基建的规模化(Scaling)已成为行业共识,我们到底该Scale什么?

当全球AI竞争进入深水区,Kimi的估值已狂飙至1200亿元。从这次的技术突破,和杨植麟干货满满的演讲中,能看到Kimi对追求智能上限的执着。

新技术改变了什么?

Kimi这次的突破,不是“调参数”,而是“动地基”。

当前大多数大规模深度学习模型都在使用“残差连接”的结构,以保证能训练几十层乃至上百层而不崩溃。

这个设计来自何恺明在2015年参与的ResNet论文,十年来不曾被动摇根基。

其简单逻辑是:每一层的输出=当前层的结果+前面数层的累加。每一层网络在做完自己的计算之后,把自己的输出和输入加在一起,然后传到下一层去再做计算。

这样做的好处是,这样一路累加下去,每一层都能“记住”前面所有层的信息。

但这个机制并不是完美的,在大模型PreNorm主流范式下,残差连接中所有层的

贡献都是等权累加。

这样将信息进行“无差别叠加”,没有任何有效机制,去判断哪一层的信息更重要,哪一层的信息可以忽略。随着层数的增加,早期层信息的重要性就会被稀释。并且,后面的层想要产生影响,就必须输出模长更大的激活值,这反过来又加剧了训练的不稳定性。

就像咱们普通用户在使用AI时,提示词要尽量精准、简练,如果事无巨细地进行长篇大论,反而增加了AI理解信息的难度。

AI训练也是如此,重要信息被稀释,并且计算效率较为低下,这是一种浪费和负担。

Kimi团队的最新技术报告提出一种全新方案——既然不想要“无差别累加”,那就让网络自己决定该提取什么信息。也就是,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。

这一创新不仅优化了计算效率,还显著提升了大模型的训练效果。报告显示,经过改进的48B模型训练效率提升了1.25倍。


Kimi的研究表明,当把动态、与输入相关的注意力机制引入进来之后,模型不再是简单地“全盘接收”信息,而是具备了“结构性判断能力”,能够更有选择地抓住关键内容。

结果也很直接——改写了大模型训练效率与成本曲线。

Kimi团队这次对惯性的大胆反思,瞄准的是那座最不起眼却最承重的“地基”。这并非一次局部优化,而是有机会成为未来大模型架构里的“标配组件”。随着验证逐步展开,世界上其他AI团队大概率会跟进类似思路,去探索新的架构路径。

杨植麟此次在英伟达GTC 2026现场的演讲,更将Kimi团队的技术实力与独特思考,第一次完整展示给硅谷核心技术圈。

对“祖传技术”动刀

重构前沿范式

北京时间3月18日凌晨,杨植麟站在英伟达年度大会GTC 2026的现场,发表了主题为《How We Scaled Kimi K2.5》的演讲,首次完整披露了Kimi的技术路线图。

按照他讲述的Kimi K2.5的进化逻辑,只有在“Token效率、长上下文、智能体集群”三个维度同时找到规模效应,才能实现远超现状的智能水平。

如果说三维逻辑是战略,那么对三大底层技术的重构就是战术。

杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为大模型 Scaling 的瓶颈。

这也是本次演讲的真正“硬核”所在,杨植麟直接勾勒出了下一代大模型的思考路径:

要真正实现智能上限的突破,不是来自于对旧架构的修修补补,而是对优化器、注意力机制、残差连接等底层基石的重构。


其一,优化器革命:从Adam到MuonClip。

在超大规模训练中,Adam优化器在提升Token效率上的瓶颈日益凸显,寻找更具 Token 效率的替代方案已成趋势。

Kimi团队在实验中验证了Muon优化器的潜力,但在扩展到万亿参数时遇到了“Logits爆炸”的难题。

对此,他们开出了自己的药方:MuonClip。通过结合Newton-Schulz迭代并结合QK-Clip机制,他们不仅解决了稳定性问题,更实现了2倍于传统AdamW的计算效率。

这一突破意义重大,在算力约束、成本高企的当下,谁能用更少的计算量榨取更多的智能,谁就掌握了通往AGI的速通卡。

其二,Kimi Linear:全注意力机制“终结者”。

杨植麟展示了基于KDA架构的Kimi Linear,一种混合线性注意力架构。它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在128K甚至1M的超长上下文中,将解码速度提升了5到6倍。

这不仅是速度的提升,更是对注意力机制本质的思考:“按需分配”的注意力,才是不同场景下的务实选择。

其三:残差连接:从固定加法到注意力残差

继论文受到各方AI大佬围观之后,杨植麟再次在演讲中介绍了这一技术突破。

针对已有十年历史的残差连接,Kimi引入Attention Residuals方案,将传统的固定加法累加,替换为对前序层输出的Softmax注意力。

这一改动,通过选择性聚合信息,让每一层都能获得前面所有层中更有价值的信息,而不是淹没在求和“噪声”中。

之后,杨植麟提出了一项预判。他认为,未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5引入的Orchestrator机制,能够将复杂的长任务拆解给数十个子Agent并行处理,实现自协调的群体执行。

上述框架,并非零散的技术点叠加,而是一套从底层基石到上层应用的完整技术闭环,每一个环节都直指行业沿用近十年的技术标准的核心瓶颈。

跳出“中国版ChatGPT”框架

Kimi K2.5是全球用户量最大的AI编程平台Cursor唯一接入的开源模型,也是唯一的中国模型。也是全球最大的独立AI搜索服务商Perplexity唯一接入的中国模型,开源的K2.5在跟OpenAI、Anthropic和Google的顶尖闭源模型同场竞技。

一同起飞的,是Kimi商业化的跃迁:20天收入即超2025年全年。

K2.5发布后,Kimi通过其性能90%、价格七分之一的性价比优势,在海外斩获高速的收入增长,海外收入在总营收中占比已超过国内,海外API开放平台日均访问量翻10-20倍。

Kimi Claw于今年1月上线后,1月个人订阅支付订单环比暴增8280%,2月再涨123.8%。

业内认可之外,资本的追捧也极具说服力。

最近三个月,估值涨了4倍,融资超过10亿美元,超过大模型同行IPO募资额。

最备受期待的,是Kimi“身份”的转变——其已跳出“中国版ChatGPT”的狭窄框架,直接参与到了全球AI技术的底层创新。

杨植麟谈到了 AI 研究范式的转变,从中我们得以一窥,为什么Kimi能不断地从“古老”技术中挖掘出新的突破?

他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。

杨植麟传递出的信息清晰而坚定:Kimi不想只做一个更好的模型,而是要做那个定义下一代模型架构的引领者:审视那些被沿用近十年的“旧技术”,严谨验证,大胆重构,找到突破智能上限的下一个项关键技术。

Lanmeih/今日话题

你平时用Kimi吗,感觉怎么样?

咱们评论区聊聊~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子谈释永信,她们姐妹住少林寺3天收费1万,争着往释永信房间跑

女子谈释永信,她们姐妹住少林寺3天收费1万,争着往释永信房间跑

大鱼简科
2026-03-19 11:41:07
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
液化气飙涨至135元一罐,网友感慨:打仗的锅,最后还是老百姓背

液化气飙涨至135元一罐,网友感慨:打仗的锅,最后还是老百姓背

川渝视觉
2026-03-18 20:16:38
爆大冷!世界冠军0-3惨败,温瑞博出局,29岁老将杀进伦敦世乒赛

爆大冷!世界冠军0-3惨败,温瑞博出局,29岁老将杀进伦敦世乒赛

罗纳尔说个球
2026-03-19 00:48:56
小米Xiaomi MiMo Claw免费体验上线:一键部署龙虾 集成金山WebOffice

小米Xiaomi MiMo Claw免费体验上线:一键部署龙虾 集成金山WebOffice

快科技
2026-03-19 12:09:09
混社会的人出来之后变得怎样了 看网友讲述 发现真的好惨

混社会的人出来之后变得怎样了 看网友讲述 发现真的好惨

侃神评故事
2026-03-12 15:25:05
欧冠|八强全部出炉,英超损兵折将只剩两席,哪组对决你最期待?

欧冠|八强全部出炉,英超损兵折将只剩两席,哪组对决你最期待?

齐鲁壹点
2026-03-19 11:31:56
马筱梅想和麻六记做联名款,不曾想碰了一鼻子灰,张兰心里有数

马筱梅想和麻六记做联名款,不曾想碰了一鼻子灰,张兰心里有数

小娱乐悠悠
2026-03-19 10:52:08
崔永熙:现在的体能大概就是打10-15分钟,比赛后腿还是会酸

崔永熙:现在的体能大概就是打10-15分钟,比赛后腿还是会酸

懂球帝
2026-03-18 12:56:38
洪秀柱黄智贤邱毅王炳忠等,建议统一后台湾地区新管理团队名单

洪秀柱黄智贤邱毅王炳忠等,建议统一后台湾地区新管理团队名单

领悟看世界
2026-03-18 01:45:55
贾旭明:冯巩老师的工作特别忙,所以我在2009年,拜了李立山老师

贾旭明:冯巩老师的工作特别忙,所以我在2009年,拜了李立山老师

离离言几许
2026-03-17 17:54:54
书法对决!王洪文江青的字竟比颜真卿差那么多?

书法对决!王洪文江青的字竟比颜真卿差那么多?

书画相约
2026-03-17 08:44:28
特朗普对伊朗发动军事侵略,是超级愚蠢的决定,比发动关税战还蠢

特朗普对伊朗发动军事侵略,是超级愚蠢的决定,比发动关税战还蠢

阿讯说天下
2026-03-19 11:41:42
拿着三千工资,却敢顿顿下馆子?百万中国人涌向越南的真相

拿着三千工资,却敢顿顿下馆子?百万中国人涌向越南的真相

环球格局观
2026-03-16 22:18:00
集体跳水!刚刚,13.92万人爆仓!伊朗大规模袭击!霍尔木兹海峡,新消息

集体跳水!刚刚,13.92万人爆仓!伊朗大规模袭击!霍尔木兹海峡,新消息

数据宝
2026-03-19 10:57:15
卡塔尔谴责以色列袭击伊朗天然气设施:“危险且不负责任的举动”

卡塔尔谴责以色列袭击伊朗天然气设施:“危险且不负责任的举动”

环球网资讯
2026-03-18 22:08:09
雷军回应小米汽车为何启用代言人:因为他是亚洲跑得最快的人,因为他是第一代SU7车主,因为他姓SU

雷军回应小米汽车为何启用代言人:因为他是亚洲跑得最快的人,因为他是第一代SU7车主,因为他姓SU

大风新闻
2026-03-17 12:03:05
八段锦这场“骗局”,到底忽悠了多少中国女人

八段锦这场“骗局”,到底忽悠了多少中国女人

李光满说
2026-03-17 19:36:16
央视紧急曝光:全是假货!别再往家里拎了,很多人天天在用!

央视紧急曝光:全是假货!别再往家里拎了,很多人天天在用!

奇思妙想草叶君
2026-03-18 16:04:59
男性长期禁欲,精子只产不排,最后会怎样?医生:或有4大后果

男性长期禁欲,精子只产不排,最后会怎样?医生:或有4大后果

健康之光
2026-03-06 13:11:59
2026-03-19 12:48:49
蓝媒汇财经plus incentive-icons
蓝媒汇财经plus
聚焦财经热点解读行业动态
665文章数 255关注度
往期回顾 全部

科技要闻

腾讯电话会 : 马化腾首谈养虾构想

头条要闻

美军基地"被炸了个遍" 海湾国家成了牺牲品极度愤怒

头条要闻

美军基地"被炸了个遍" 海湾国家成了牺牲品极度愤怒

体育要闻

他们专卖“老头鞋”,却能签下19岁NBA未来门面?

娱乐要闻

戴军55岁再翻红!与何炅传闻意难平

财经要闻

断油危机,冲击亚洲?

汽车要闻

全新设计风格/中大型SUV 星途EX7开启盲订

态度原创

教育
亲子
房产
健康
家居

教育要闻

作文如何跳出40分陷阱?所有东西都要量化吗?

亲子要闻

没有危险的时候爸爸就是最大的危险

房产要闻

格局打开!三亚四代宅,被这个新盘狠狠破局!

转头就晕的耳石症,能开车上班吗?

家居要闻

复古格纹 轻法森系风

无障碍浏览 进入关怀版