网易首页 > 网易号 > 正文 申请入驻

杨植麟 GTC 2026 演讲:首次完整披露 Kimi 技术路线图

0
分享至

月之暗面是如何K2.5的规模化升级的?继今年 1 月底正式发布 Kimi K2.5 以后,在 2026 年的英伟达 GTC 大会上,月之暗面 Kimi 创始人杨植麟首次披露了该模型背后的技术路线图。


杨植麟表示, Kimi 的进化逻辑可以归纳为三个维度的共振:Token 效率、长上下文以及智能体集群(Agent Swarms)。在他看来,当前的 Scaling 已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。

技术重构是本次演讲的核心。杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。

自 2014 年以来,Adam 优化器一直被视为行业标配,但在超大规模训练中,寻找更具 Token 效率的替代方案已成趋势。Kimi 团队在实验中验证了 Muon 优化器在提升 Token 效率方面的显著潜力,但在将其扩展至万亿参数规模的 K2 模型训练时,发现了 Logits 爆炸导致模型发散的稳定性难题。

为此,团队研发并开源了 MuonClip 优化器,通过 Newton-Schulz 迭代并结合 QK-Clip 机制,在彻底解决 Logits 爆炸问题的同时,实现了 2 倍于传统 AdamW 的计算效率。

针对 2017 年诞生的全注意力机制(Full Attention),杨植麟展示了基于 KDA 架构的 Kimi Linear。这是一种混合线性注意力架构,它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在 128K 甚至 1M 的超长上下文中,将解码速度提升了 5 到 6 倍,且在不同长度的场景下均保持了优异性能。


此外,针对已有十年历史的残差连接,Kimi 引入了 Attention Residuals 方案,将传统的固定加法累加替换为对前序层输出的 Softmax 注意力,解决了隐藏状态随深度增加而无限制增长、从而稀释深层贡献的顽疾,使每一层都能根据输入内容有选择地聚合信息。

过去十年,大多数大规模深度学习模型使用的“残差连接”结构基本未做过重大改变。传统的残差结构是通过对每一层的输出进行统一求和来实现信息传递,虽然这种方式在一定程度上有效,但也存在信息丢失和计算效率低下的问题。

Kimi团队的最新技术报告提出一种全新方案,允许模型在每一层选择性地关注此前各层的输出,而不是简单地进行求和。这一创新不仅优化了计算效率,还显著提升了大模型的训练效果。报告显示,经过改进的48B模型训练效率提升了1.25倍。

根据报告内容,Kimi的三位联合创始人杨植麟、吴育昕、周昕宇与数十名研究员共同完成了这项技术突破。报告不仅在国内引起了广泛关注,也迅速成为全球AI领域的焦点。

报告发布后,马斯克通过社交媒体表示:“Impressive work from Kimi”(令人印象深刻的工作),OpenAI前研究副总裁、o1系列推理模型主要发明者Jerry Tworek也表示,Kimi的这一技术突破标志着“深度学习2.0”的到来,他认为这种创新将在未来的AI发展中起到至关重要的作用。

前OpenAI联合创始人Andrej Karpathy也对这一研究给予了高度评价,他提到:“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透。” Karpathy认为,Kimi团队的创新不仅挑战了现有的深度学习架构,还推动了注意力机制在大规模模型中的进一步应用。

这项创新的残差连接重新设计,可能会成为未来大规模AI模型架构的标配。Kimi团队的研究成果显示,通过引入动态的、依赖输入的注意力机制,模型能够更智能地选择性关注关键信息,从而提升训练效率,减少计算资源的消耗。

业内专家普遍认为,这一技术突破可能推动更多AI公司探索新的架构设计,进而提升AI模型的普适性和灵活性,帮助大模型应用场景进一步拓展。

在跨模态研究方面,杨植麟分享了一个重要的观察:原生的视觉-文本联合预训练中,视觉强化学习(Vision RL)能够显著反哺文本性能。消融实验数据显示,经过视觉 RL 训练后,模型在 MMLU-Pro 和 GPQA-Diamond 等纯文本基准测试上的表现提升了约 2.1%。这意味着空间推理与视觉逻辑的增强,可以有效转化为更深层的通用认知能力。

演讲的最后,杨植麟深入探讨了智能体集群的扩展。他认为未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5 引入的 Orchestrator 机制,能够将复杂的长任务拆解给数十个子 Agent 并行处理。为了防止协作过程中出现单点依赖导致的“串行塌缩”,团队设计了全新的并行 RL 奖励函数,激励模型真正学会任务分解与并行执行。


杨植麟在总结中谈到了 AI 研究范式的转变。他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。

这也是为什么 Kimi 能够从那些看似“古老”的技术中挖掘出新突破的原因。Kimi 将继续坚持开源路径,将 MuonClip、Kimi Linear 和 Attention Residuals 等底层创新贡献给开源社区,打造更强大的模型,推动人工智能技术的普惠。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国女网迎来新一姐!此消彼长间:王欣瑜上位,郑钦文的反击何时到来?

中国女网迎来新一姐!此消彼长间:王欣瑜上位,郑钦文的反击何时到来?

上观新闻
2026-03-31 14:15:41
欧盟已做好准备,即使欧尔班胜选,也会是“竹篮打水一场空”

欧盟已做好准备,即使欧尔班胜选,也会是“竹篮打水一场空”

山河路口
2026-03-30 20:28:01
上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

读懂世界历史
2025-11-23 11:18:04
「侠客岛」郑永年:美国对伊战略目标已经烂尾

「侠客岛」郑永年:美国对伊战略目标已经烂尾

海外网
2026-03-31 18:03:03
72年李敏怀孕,独自来中南海探亲,毛主席怒道:孔令华太不像话了

72年李敏怀孕,独自来中南海探亲,毛主席怒道:孔令华太不像话了

老范谈史
2026-03-30 14:20:00
知名女演员陈妍希突发意外致跟腱断裂,决定暂停或调整部分工作,本人晒图报平安

知名女演员陈妍希突发意外致跟腱断裂,决定暂停或调整部分工作,本人晒图报平安

封面新闻
2026-03-31 19:07:05
郑丽文随行名单出炉,卢秀燕、徐巧芯表现出乎意料,绿营坐不住了

郑丽文随行名单出炉,卢秀燕、徐巧芯表现出乎意料,绿营坐不住了

王姐懒人家常菜
2026-03-31 16:52:13
59年王耀武被特赦,不久后他找到了中央:我想要见一见粟裕将军

59年王耀武被特赦,不久后他找到了中央:我想要见一见粟裕将军

阿柒的讯
2026-03-30 13:32:47
1950年李弥撤台受冷落、妻失联,蒋召见质问:为何留精锐于金三角

1950年李弥撤台受冷落、妻失联,蒋召见质问:为何留精锐于金三角

唠叨说历史
2026-03-27 18:28:49
北京一男子提前回家,发现妻子在父亲房中,崩溃后竟捅死二人

北京一男子提前回家,发现妻子在父亲房中,崩溃后竟捅死二人

第四思维
2025-03-22 16:49:32
2024年叶诚尘被注射死刑,警方恢复大量聊天内容,发现她有一怪癖

2024年叶诚尘被注射死刑,警方恢复大量聊天内容,发现她有一怪癖

瞻史
2026-03-19 21:06:35
网约车司机1天只许开8小时!安全保住了,700万人还能吃饱饭吗?

网约车司机1天只许开8小时!安全保住了,700万人还能吃饱饭吗?

冒泡泡的鱼儿
2026-03-31 15:08:58
最佳睡眠时长更新了,不是8小时!上海交大:睡眠达到这一“黄金时长”,最利于代谢,帮助预防糖尿病

最佳睡眠时长更新了,不是8小时!上海交大:睡眠达到这一“黄金时长”,最利于代谢,帮助预防糖尿病

华医网
2026-03-31 05:40:56
拿1亿英镑打发叫花子?中方拒绝后,英国政府准备将中企资产充公

拿1亿英镑打发叫花子?中方拒绝后,英国政府准备将中企资产充公

知法而形
2026-03-31 17:45:04
急了!见中国光刻机不断进步,荷兰外相:中国用我们技术

急了!见中国光刻机不断进步,荷兰外相:中国用我们技术

瓦伦西亚月亮
2026-03-13 07:22:46
云南发现4万“野人”,衣不蔽体靠吃野果为生,到底是什么人?

云南发现4万“野人”,衣不蔽体靠吃野果为生,到底是什么人?

风信子的花
2026-03-15 22:30:48
大衣哥前儿媳陈亚男订婚!老公近照帅气,情商高但比朱小伟矮

大衣哥前儿媳陈亚男订婚!老公近照帅气,情商高但比朱小伟矮

裕丰娱间说
2026-03-30 18:37:53
核武器殉爆?以色列政府发布危险物质泄露,伊朗这回中大乐透了!

核武器殉爆?以色列政府发布危险物质泄露,伊朗这回中大乐透了!

掉了颗大白兔糖
2026-03-30 18:24:01
"最猛新生儿"走红!带着脐带站起来就想跑,医生险些都没能抓住

"最猛新生儿"走红!带着脐带站起来就想跑,医生险些都没能抓住

大果小果妈妈
2026-03-31 13:27:53
局势再升级,伊朗援兵开辟新战场,美媒:特朗普正在毁灭美国

局势再升级,伊朗援兵开辟新战场,美媒:特朗普正在毁灭美国

长野星河散去了
2026-03-30 23:36:59
2026-04-01 04:52:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131615文章数 862040关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

游戏
健康
旅游
亲子
军事航空

上一秒还在嘲笑瓦学弟,下一秒就去“抗癌”了

干细胞抗衰4大误区,90%的人都中招

旅游要闻

沿沪宁好去处丨上海西站出发,逛花海、品早茶、看球赛!泰州发布三大春季主题线路

亲子要闻

春天养好肝,和我一起种地来呗

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版