网易首页 > 网易科技 > 网易科技 > 正文

杨植麟 2026 中关村论坛演讲:详解 Kimi K2.5,以前的很多标准,现在都可以被挑战

0
分享至


3月25日,中关村论坛全体会议在北京举行。 月之暗面(Moonshot AI)创始人杨植麟发表题为《开源AI:加速探索智能上限》的主题演讲。演讲聚焦大模型发展的“第一性原理”,杨植麟在会上深入解析了最新开源模型 Kimi K2.5的核心技术突破,在强调“规模化定律”的同时,更核心地指向“如何高效地将能源转化为智能”,并展示了其团队在架构与协作模式上的创新突破。
展望未来,杨植麟预测AI研发范式将迎来剧变:“从今年到明年以及接下来的若干年……会有更多的是AI去主导研究。” 研究员将配备海量AI资源,由AI协助合成任务、定义环境与奖励函数,甚至探索新网络架构,从而推动整个领域加速发展。(袁宁)

以下为杨植麟演讲全文:

大家好,今天很高兴有机会能分享我们在做开源模型,以及去训练更好的大模型领域做的很多最新的工作。

其实做大模型本质上是把更多的能源转化成智能,然后转化的过程中最重要的事情是能够去规模化,也就是说能够把尽可能多的能源,然后去经过算力和模型去变成更多的更高程度的智能。

所以本质上,规模化是过去若干年所有的模型和 AI 发展的一个很重要的基础。

当然,规模化并不是代表着我们只是去暴力的增加能源,或者去暴力的增加算力,而是涉及到我们怎么在这里面能够非常有效的去进行规模化,所以我们其实会从三个不同的方面去提高效率,比如说我们会很强调去提升 TOKEN 的效率。

首先是 TOKEN 效率,本质上是代表着说你同样的数据中能够学到多少智能,因为这个世界上的有效的数据其实是一个常量,或者说它是一个非常有限的值。那如果你有更好的网络架构,或者有更好的优化器,那么你就可以从一样的数据里面学到更多的智能。

其次,同时我们也希望去提升更长的上下文,在更长的上下文的时候,可以在相同的情况下得到更低的损失函数(loss),模型可以实现更长的输出,完成更长时和复杂的任务。所以我们也设计了一系列的网络架构(Kimi Linear) 去提升模型在长上下文的表现。

第三,我们在最新的模型 Kimi K2.5里面也提出了新的一种规模化的方法,就是通过引入多个 agent 形成一个 agent 集群或者叫 agent swarm 的概念,使得说有很多个 agent 可以一起去工作,然后通过这种

这是我们在K2.5里面研发出来的Agent 集群,它的一个效果可以看到横坐标是任务的复杂度,而纵坐标是它的执行时间,所以如果我们原来只是用这种单一 agent 的方式进行工作,你可以看到就是随着任务的复杂度逐渐提升,它需要的完成时间是指数增加的。比如说如果你完成一个非常复杂的任务,比如如果想从头去写一个代码仓库,去实现一个很复杂的功能,那它可能需要几天甚至几周的时间。

但是如果我们能够并行开启,比如说100个 agent 去同时完成这个任务,然后在过程中他们会有去进行互相的协作,然后去互相的协调和规划接下来应该要做的事情,就跟一个人类的组织一样,那么这个时候其实可以做到随着任务复杂度的增加,执行时间其实没有太大的变化,那这样的话也是意味着你可以在单位时间内去完成更加复杂的任务,使得原来一些完全不可能实现的任务变得有可能。

就像一个公司一样,如果你想做一个非常艰难的一个事情,你要完成一个很复杂的一个 mission, 比如说从0到1建造一家100亿或者1,000亿美元的公司,那么你只靠一个人,可能要100年才能做出来,那你在市场上是没有竞争力的,但这个时候如果你有100个人,或者200个非常聪明的人,能一起协作,那就有可能在短时间内

所以通过 Agent 集群我们可以实现规模化的输入,比如说你可以同时去调查几百个不同的数据来源,在各种权威的这个数据源里面去寻找你要的答案。你也可以做规模化的输出,比如说你可以通过。刚才说的这个数据来源可以去撰写一个几百页的这样的一个论文,或者去规模化的执行或规模化的编排,通过这种方式去提升任务的复杂度。

同时,我们也非常注重就是去提升,去研发更好的底层网络架构。这个是我们最新开源的一个模型架构,叫做注意力残差(Attention Residuals),然后这项技术其实最主要的洞察就是一个来自于一个10年前的技术,叫 Resnet, 或者叫残差网络连接。

在十年之前其实没有任何人有办法去训练深度的神经网络,然后通过之前像何凯明等研究者去引入这种残差网络,它可以让模型去训练超过,比如说几十、几百层,你可以任意的去增加层数,然后这种残差结构其实你可以认为它是 LSTM 网络的一个变种,只是说 LSTM 是应用在时间的维度上,那残差网络它更多现在是应用在深度上。然后使得说你每一层可以用上一层的输出,然后做一个函数的处理,得到当前这一层的输出。

那我们其实就是把一样的类似的思路做一个自然的泛化,我们把注意力机制这种计算模式也是进行一个90度的旋转,从原来只是应用在时间轴上,现在我们可以把它应用在深度上,所以当你把注意力应用到深度上之后,它其实有很多好处,比如说就不仅仅只是基于前一层的输出来进行计算。而是你可以去结合之前的所有层的输出进行计算,那这样你在优化的时候就会有非常多的好处。这个图是我们的整个架构的体现,就可以看到左边是标准的残差的结构,那右边其实是最新的我们提出来的,并且开源的残差结构,然后我们也设计了这种基于块状的这种残差结构,使得说它能够非常高效的去提,去进行实现,能够基本上在只有2%的这种额外的成本的情况下,能够就非常大幅度的去提升它的效果。

就像我刚才说的,大模型的第一性原理是规模化定律(Scaling Law),但我们不仅仅只是去暴力的做规模化,而是希望我们在这里面规模化的同时也能够去提升它的效率,所以我们一直是致力于研发更强的这个模型架构,使得说它的 TOKEN 效率可以更高,比如说像 Adam 优化器或者像 attention 架构,或者像残差连接这些都是有了8到11年的历史的技术。这个在计算机领域其实是一个非常长的时间,就过去十年的时间里面,其实没有任何人能够去挑战这样的技术,大家都把它当成一个标准。

其实你可以看到随着现在算力的进步,包括大家研发方式的变化,从原来的偏学术,单纯从 idea 出发的研究,到变成现在更加重视与工程的结合,然后可以设计非常。扎实的这种规模化验证实验,从而让你能得到非常扎实的结论,所以很多以前认为是标准的东西,现在都是可以被挑战的,所以我们通过一系列的新的模型架构和我们的开源,让全世界更多的人能够去获取新的技术,从而推进整个领域的发展。

可以看到,我们通过开源模型也逐渐成为了新的标准。这是两张从 NVIDIA 最新 GTC 2026黄仁勋主题演讲中里面摘取的幻灯片,所以你也可以看到就是像以 Kimi 为代表的很多模型,其实现在。正在全世界所有的模型厂商的评测里面作为一个标准,就是你如果要发布一个新的芯片,那你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升。然后包括全世界很多研究机构也在用Kimi K2.5或者是其他的开源模型去进行研究。

我觉得通过开源让每一个企业、每一个研究者、每一个终端的用户能非常低门槛的获取智能,是一个非常重要的事情。同时我们在这里面也做很重要的很多创新,包括我刚提到的很多新的架构,使得说这些技术它都是开放的,可以被任何人所获取,然后大家能够去形成一个生态系统,一起去推动 AI 领域的发展。

大模型领域仍在快速发展,现在的研发方式跟两三年之前会有很大的不同。

三年之前更多的是大家使用天然数据,也就是你从整个互联网获取的数据,加上一些少量的人工标注,你要去标注某一条数据。它到底是不是符合你的价值观或者偏好?

到去年大家更加重视一个大规模的强化学习系统,在这里面人是去筛选里面高质量的任务,但是这些任务还是由人来确定的,然后通过在这些任务上做强化学习得到更好的效果。可以看到大家就是在编程或者数学这些领域上得到的提升,其实主要来自于这种技术路线。

但是从今年到明年以及接下来的若干年的时间内,整个 AI 研究和研发的方式会发生重大的变化,会有更多的是 AI 去主导研究。每个研究员他会配备非常多的 AI 的 TOKEN, 然后这些 AI 的 TOKEN 可以帮你去合成新的任务,然后去帮你合成新的环境,去帮你定义在环境下面到底什么样是最好、最合适的奖励函数,甚至去帮你探索新的网络架构可能长什么样。所以在这样的前提下,整个 AI 的研发也会逐渐加速,所以 Kimi 希望也能够跟整个开源社区一起,去不断的把智能的技术往前推进,打造一个更加好的生态系统。

感谢大家。

延伸阅读
相关推荐
热点推荐
英媒:巴基斯坦在伊朗战争中扮演调解人角色

英媒:巴基斯坦在伊朗战争中扮演调解人角色

参考消息
2026-03-24 16:47:14
匈牙利大选杀疯了!高呼我们不会成为乌克兰殖民地,欧尔班走钢丝

匈牙利大选杀疯了!高呼我们不会成为乌克兰殖民地,欧尔班走钢丝

叮当当科技
2026-03-25 16:39:21
隔天吃一次,排出黑臭便!它是肠道“推粪机”,中老年人要常吃!

隔天吃一次,排出黑臭便!它是肠道“推粪机”,中老年人要常吃!

江江食研社
2026-03-23 18:30:10
小鹏P7新增Max与Ultra SE版,售价20.38万元起

小鹏P7新增Max与Ultra SE版,售价20.38万元起

观察者网
2026-03-25 10:12:21
乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

乌克兰摧毁波罗的海最大的俄方港口!圣彼得堡机场被迫关闭

项鹏飞
2026-03-23 20:18:18
25℃!今明气温将达近期高点!紧接着,有场小雨——

25℃!今明气温将达近期高点!紧接着,有场小雨——

北京女性
2026-03-25 15:47:56
明天(3月26日)的剧本来了,你准备好了吗?

明天(3月26日)的剧本来了,你准备好了吗?

一担金
2026-03-25 12:22:40
整容脸千万别祸害古偶剧!看《逐玉》中的田曦薇和喻钟黎,差点傻傻分不清

整容脸千万别祸害古偶剧!看《逐玉》中的田曦薇和喻钟黎,差点傻傻分不清

小椰的奶奶
2026-03-25 09:05:30
美媒:特朗普已无法恢复其政治地位,他的总统任期已经结束

美媒:特朗普已无法恢复其政治地位,他的总统任期已经结束

而长终
2026-03-24 20:25:02
华为昇腾950PR发布当天,深圳会场的空气都凝固了——2.87倍

华为昇腾950PR发布当天,深圳会场的空气都凝固了——2.87倍

普陀动物世界
2026-03-25 05:24:39
普京铁杆突然倒戈,向全世界痛斥三件事,俄罗斯再也装不下去了

普京铁杆突然倒戈,向全世界痛斥三件事,俄罗斯再也装不下去了

蓝色海边
2026-03-25 16:41:05
48岁王阳开奔驰接女儿放学!又高又瘦一点不油腻,5岁女儿好可爱

48岁王阳开奔驰接女儿放学!又高又瘦一点不油腻,5岁女儿好可爱

乐悠悠娱乐
2026-03-25 10:32:20
雷霆卫冕面对的最大威胁球队都有哪些?美媒:六队上榜,湖人无缘

雷霆卫冕面对的最大威胁球队都有哪些?美媒:六队上榜,湖人无缘

麦子的篮球故事
2026-03-24 17:17:36
四喜临门!从零首发到核心,阿莫林改变一切,曼联两人将续约

四喜临门!从零首发到核心,阿莫林改变一切,曼联两人将续约

嗨皮看球
2026-03-25 17:21:29
局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

阅识
2026-03-25 11:13:13
召回获得9分钟登场,官方:开拓者将杨瀚森下放至混音队

召回获得9分钟登场,官方:开拓者将杨瀚森下放至混音队

懂球帝
2026-03-25 01:48:04
成都悄悄干大事!未来市中心可能要移到北边了!

成都悄悄干大事!未来市中心可能要移到北边了!

王晓爱体彩
2026-03-25 12:00:41
4月1日起,医保大变!癌症、尿毒症、慢病看病,报销迎来新规

4月1日起,医保大变!癌症、尿毒症、慢病看病,报销迎来新规

夜深爱杂谈
2026-03-24 21:18:21
“台湾第一名媛”孙芸芸承认女儿未婚生子:她在孕期被男友抛弃

“台湾第一名媛”孙芸芸承认女儿未婚生子:她在孕期被男友抛弃

娱慧
2026-03-24 17:22:24
100句高情商夸人话术,把中年女人夸到心坎里,越听越上瘾

100句高情商夸人话术,把中年女人夸到心坎里,越听越上瘾

大熊欢乐坊
2026-03-25 17:26:02
2026-03-25 18:07:00

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

"军工虎"谭瑞松获死缓:搞权色交易 多次泄露内幕信息

头条要闻

"军工虎"谭瑞松获死缓:搞权色交易 多次泄露内幕信息

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

家居
教育
时尚
艺术
亲子

家居要闻

轻奢堇天府 小资情调

教育要闻

正确率5%,不少人答错的解方程

告别黑白灰,春天穿“奶油色”真的很好看

艺术要闻

《百花谱》,这个春天画花不用愁!

亲子要闻

2026年3月儿童被子哪个牌子好?8个值得了解的儿童被品牌

无障碍浏览 进入关怀版
×