姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲！基模四杰中关村论英雄|算法|唐廷枢|kimi|agent

分享至

来源：市场资讯

量子位 | 公众号 QbitAI

清华攒了个局，把AI圈大半边天聚到了一块。

基模四杰全员到场：智谱唐杰、Kimi杨植麟、阿里林俊旸，还有……

突然贴脸跳屏的姚顺雨。

这场由清华大学基础模型北京市重点实验室发起的AGI-Next前沿峰会，相当硬核。

各位大咖的演讲简直像是在做技术报告，信息密度极高，而且用词相当犀利。

唐杰：DeepSeek横空出世后，Chat已经基本结束了，下一步是走向做事。
杨植麟：做模型，本质上是在创造一种世界观。
林俊旸：中国想在AI赛道反超，很难。20%这个数字已经很乐观。
姚顺雨：toC的话，大部分人其实用不着那么强的智能。

以下附上演讲原文，为提升可读性，量子位在不改变原意的前提下做了适当调整。

清华论剑

唐杰

我的题目是‘让机器像人一样思考’。

2019年，我们在清华的支持下完成成果转化，成立了智谱。

同一时期，我们也持续推动开源，既有模型和工具层面的项目，也有面向开发者的大模型 API 体系。

我在清华待了将近二十年。

回头看，我做的事情其实很简单，主要就两件：

一是早年做AMiner；二是大模型。

有一个对我影响很深的观念，我称之为‘像喝咖啡一样做研究’。这件事和今天在座的一位嘉宾密切相关——杨强教授。

刚毕业那会儿我去港科大，学校几乎所有空间都在一栋楼里：教室、实验室、会议室、咖啡厅都在一起。

有一次在咖啡厅遇到杨老师，我说最近咖啡喝得有点多，可能该戒一戒。

他先说‘对，应该戒一戒’，接着又说，如果我们做研究也能像喝咖啡一样上瘾，那研究大概就真的能做好了。

这句话对我触动很大，从2008年一直影响到现在。

做研究，本质上需要长期专注和持续投入。AGI正是这样一件事，它并不追求短期见效，而是一项多年投入的工程。

2019 年，我们实验室在图神经网络和知识图谱方向已经有一定国际影响力，但当时还是下定决心阶段性按下暂停键，几乎所有人都转向大模型相关研究。到今天，算是做出了一点点成果。

如果从大模型的发展轨迹来看，用‘智能水平’来描述会比较直观。

2020年前后，模型主要解决的是MMU、QA等相对简单的问题；到2021、2022 年，开始进入数学计算和基础推理阶段；通过后训练，这些能力逐步被补齐。

到2023、2024年，模型从知识记忆走向复杂推理，甚至可以处理研究生层级的问题，并开始在SWE-bench这类真实世界编程任务中表现出可用性。

这个过程很像人的成长：从阅读、算术，到更复杂的推理，再到走向真实工作场景。

今年开始，大家也看到 HLE，也就是‘人类终极测试’，其中不少问题连搜索引擎都无法直接给出答案，要求模型具备更强的泛化能力。

如何解决，目前仍然没有确定答案，但可以确认的是，到2025年，模型的整体能力仍在快速提升。

从另一个角度看，一个核心问题是：模型如何从Scaling走向真正的泛化能力。

人类一直期待机器具备泛化能力。教它少量例子，就能举一反三，解决更多甚至未见过的问题。

这和我们教孩子的期望一致：学会三个问题，就能解出第四个、第十个，甚至超出原本教学范围。

当前的路径，是希望通过Scaling提升这种泛化能力。但客观来说，模型的泛化水平仍有很大提升空间，我们只能在不同层面持续推进。

最早期的阶段，是用Transformer训练模型，通过大规模数据和算力，把大量知识‘记住’。

第二个阶段，是对模型进行对齐和推理能力强化，让它更好地理解人类意图，并完成更复杂的推理任务。

这需要持续ScalingSFT，甚至引入强化学习。通过大量人类反馈数据，不断扩大反馈规模，使模型更准确、更可靠。

今年一个重要变化是RLVR。

过去强化学习难以大规模推进，核心原因在于依赖人类反馈，而人类反馈存在噪音大、覆盖场景有限的问题。如果引入可验证环境，模型就可以自主探索、自动获得反馈，在闭环中持续成长。

但这里的难点也非常明显。所谓‘可验证’，在数学、编程等领域相对容易定义；可一旦扩展到更广泛的任务，比如网页是否美观、交互是否合理，仍需人工判断。

因此，当前RLVR面临的挑战在于：可验证场景正在逐渐耗尽。接下来是否能进入半自动验证，甚至不可验证的任务空间，让模型能力继续泛化，这是一个关键问题。

再往前看，当机器开始进入物理世界、执行真实任务时，如何构建智能体的环境、如何设计反馈机制，会带来更多挑战。可以看到，AI的发展已经不再局限于单一模型或Transformer结构，而是在演变为一个复杂的、系统化的智能体系。

从能力结构上看，模型最初集中在数理化等推理任务，从小学、初中、高中层级，逐步提升到GPQA等高难度理化生问题，再到接近奥赛金牌水平。今年HLE这一极高难度的智能评测基准，也开始出现明显进展。

在真实环境中，代码能力是另一个典型例子。2021年已经存在代码模型，当时也和俊旸、Kimi植麟等有过合作，那一阶段模型具备基础编程能力，但成功率和稳定性有限，往往写十个程序才能跑通一个。

如今情况发生了明显变化，模型在复杂任务中往往可以一次性跑通，已经开始实质性地辅助高级工程师完成更复杂的工程工作。

很多人会问，智能不断增强，是否只要持续把模型训练下去就可以了？

DeepSeek横空出世，当时我们在内部反复讨论一个问题：

Chat这一代问题基本已经被解决得差不多。继续优化，大概率也只是做到性能接近，或在个性化、情感化上做一些改进。从整体范式看，空间正在迅速收敛，剩下更多是工程和实现层面的挑战。

这迫使我们思考下一步方向。我们的判断是，新的范式不再只是‘对话’，而是让每个人真正用AI完成一件具体的事情。

从Chat走向做事，这是一个明显的转折点。

当时摆在我们面前的，主要有两条思路：一条是围绕Thinking能力，结合Coding与Agent；

另一条是让模型更深度地与环境交互，用AI直接辅助研究，例如DeepResearch，生成复杂研究报告。这是一次取舍。

我们最终优先选择了前一条路径，强化Thinking能力并引入Coding场景，同时并未完全放弃与环境交互的方向。

7月28日，我们做了一次尝试，将Coding、Agentic和Reasoning能力整合在同一个模型中。

在7月28日发布的4.5版本中，我们用12个Benchmark做了系统评测，在智能体、推理和代码任务上取得了当时相对领先的结果。

随后我们很快将4.5开放给用户使用，让大家在真实场景中编程。

问题很快暴露出来。比如有用户希望一句话生成一个可玩的植物大战僵尸游戏，包含完整界面、交互逻辑、得分机制和后台系统。4.5在这类真实复杂环境中频繁出Bug，难以完成任务。

这正好指向RLVR可验证强化学习的价值。我们构建了大量真实编程环境，将其作为强化学习的可验证反馈源，同时结合SFT数据进行双向优化，使模型在真实交互中逐步提升稳定性。

类似的方法也被引入到Web场景中，通过Web环境反馈增强可验证性。

在这一策略下，我们在SWE-bench等真实世界评测中取得了较好的成绩，近期也持续保持不错表现。

但Benchmark成绩并不等同于主模型能力。如何将这些能力可靠地回灌到主模型，仍是一个巨大挑战。很多模型在单项Benchmark上表现突出，但用户真实体感未必提升。

另一个挑战在于训练体系本身。RL任务种类多样，序列长度和时间尺度差异极大，难以统一调度。为此，我们开发了一个全异步强化学习训练框架，使不同任务能够并行运行、动态收敛。这一框架也在今年完成了开源。

在此基础上，Agent和Coding能力获得了明显提升。近期发布的4.7版本，相比4.6和4.5，在这两个维度上都有显著进步。

体感评估同样关键。真实用户并不关心模型分数，而关心自己的程序能否跑通、结果是否可靠。为此，我们组织了大量人工评测，邀请经验丰富的工程师对真实编程任务进行主观评估。目前仍有不少问题有待解决，但方向已经逐渐清晰。

在整合这些能力之后，到2025年底，我们在ArtificialAnalysis榜单上取得了一个相对不错的综合成绩，算是阶段性的结果。

再往前一步，当模型真正进入Agent环境并尝试大规模落地时，问题会变得更加复杂。

可以把Agent的最基础能力理解为编程。程序写好后即可执行，对应到Agent中就是一个或几个action。但当任务复杂度继续提升，就会出现完全不同的形态。

左边是Claude提出的computer use，中间是豆包的手机Agent，右边是Manus所做的异步、超长链路任务。

如果你希望AI完成几十步、上百步的任务，比如全天候监控小红书上关于清华大学的讨论，自动整理主题并生成文档，这类任务本质上是完全异步的，也极其复杂。它不可能依赖人工盯着设备执行，更接近于一种Device use层面的能力。

这类问题带来的更大挑战，并不完全在于数据规模。很多应用场景本身几乎没有现成数据，更多是代码逻辑，典型的冷启动问题。

早期我们确实采集并整合了大量数据，通过SFT和特定领域的强化学习，在部分场景中取得了较好效果，但很快会发现一个现实问题：传统的iphone use或手机交互，本质是点按钮，而AI的交互对象并非人。

如果从系统角度看，AI并不需要操作手机界面，最理想的方式是直接调用API。但现实是，设备不可能完全API化，GUI依然存在。

这就需要一种混合方案。在对AI友好的场景下，优先采用API；在对人友好的场景下，让AI模拟人完成GUI操作。通过将API与GUI结合，我们在大量真实环境中采集交互数据，并进行全异步强化学习，使模型逐步获得一定程度的泛化能力。

需要强调的是，这种泛化能力仍然非常有限，与理想状态存在明显差距，但已经具备初步迁移和适应能力。

冷启动带来的另一个问题，是强化学习本身的风险。如果数据不足，模型容易在强化过程中陷入局部最优，表现为策略固化、路径收窄，最终整体效果偏移。

为应对这一问题，我们在训练过程中引入交替机制，在强化学习过程中周期性插入SFT，用以校正方向、恢复多样性，使模型具备一定的容错能力和回拉能力，从而形成可扩展的训练范式。

在移动端环境中，这一策略已经在安卓场景下取得了相对明显的效果提升。

另外在多任务的大模型强调学习上，我们也做了一定的工作，在算法上主要采用多轮的强化学习，工程上本质上就是Scaling，让它更大规模的往下。

今年我们大概在12月份的时候开源了AutoGLM，把里面所有的东西都开源。这个模型是9B模型，可以在人机交互里面动作特别快。

我们在9B规模的模型上引入了大量Agent相关数据，模型在Agent任务上的能力显著增强，但原有的一部分通用语言能力和推理能力会出现下降。它不再是一个完全通用的模型，而是更偏向Agent取向。

在未来更大规模的Agent模型中，如何在强化Agent能力的同时，避免损害通用能力，这是一个需要解决的问题。

2025年也是GLM的开源年。从1月到12月，我们陆续开源了多条模型线，涵盖语言模型、智能体模型以及多模态模型，包括GLM-4.6、4.6V、4.5V等一系列版本。

在Artificial Analysis榜单上，前五名中的蓝色模型几乎全部来自中国，说明中国在开源大模型领域已经形成了非常显著的影响力。

下面一个问题，我们还能否继续Scaling？下一个AGI范式可能是什么？同时也面临更多现实挑战。

在开源取得进展之后，容易产生一种乐观情绪，觉得中国大模型已经在某些维度上超过了美国。但差距未必在缩小，甚至可能在扩大。

下一步我们应该怎么做？

从大模型的发展路径看，它本质上一直在借鉴人脑认知的学习过程。最早阶段，是把世界的长期知识尽可能‘背下来’，就像孩子先大量阅读；随后逐步学会推理、数学、抽象与演绎。

这条主线仍然成立，有几类能力，人类显著领先于当前模型，可能是新的突破方向。

第一，多模态。

人通过视觉、听觉、触觉等多种输入形成整体认知，感统能力不足会直接影响判断和行动。

模型如何建立类似的多模态‘感统’机制，也就是原生多模态，是一个关键方向。

第二，记忆与持续学习。

人类具备多层级记忆结构，包括短期记忆、工作记忆和长期记忆。

进一步看，个体的长期记忆本身也并不等同于‘知识’。只有当知识被记录，才会真正进入人类文明的长期记忆体系。

未来如何从个体记忆扩展到群体级、文明级的记忆结构，并将其纳入模型可持续学习框架，是一个重要问题。

第三，反思与自我认知能力。

当前模型已经具备初步的反思能力，但更深层次的自我认知仍然存在巨大争议。学界对此分歧明显，有人支持，有人反对。我个人倾向于认为，这是有可能的，值得探索。

人类认知是双系统，系统一和系统二。

系统一完成了95%的任务，比如‘你今晚吃饭吗’，随口回答‘吃’，这些是系统一背下来的。

系统二只在更复杂的情境中启动，占比大约5%。

对于大模型来讲同样的道理，我们在2020年画过一张参考人类认知的AI系统结构图：系统一、系统二，再加一个自学习模块。

引入‘自学习’的想法，主要基于三点。

第一，系统一可以对应一个大规模模型，让它通过模式匹配与知识提取，覆盖大量常见问答与常规任务。

第二，系统二可以对应更强的知识融合与推理机制，例如指令微调、思维链等，使模型能处理更复杂的推理与决策。

第三，人脑在睡眠中会发生无意识的整合与巩固，如果缺少睡眠，人并不会变得更聪明。

对应到今天的路径，可以把其三类Scaling。

第一，Scaling数据与模型规模，提升智能上限。

第二，Scaling推理，让思考时间更长，用更多计算与搜索找到更优解。

第三，Scaling自学习环境，让模型有更多与外界交互的机会，从环境中获得反馈。

通过这三个Scaling，可以让机器来参考人的学习范式，学到更多。

对于系统一来说，既然已经有了Transformer，是否意味着只要不断加数据、加参数就够了？

但我们现在面临一个问题，Transformer的计算复杂度接近O（N²），context越长，显存开销越大，推理效率下降越明显。

最近有一些新型模型，例如用线性复杂度处理长序列的模型，尝试像人脑一样，用更小的‘容量’承载更大的知识量。

但最近我也在反思，我们能不能找到更好的压缩方法，把知识压缩到更小的空间里面。这会带来两类问题。

第一，工程上能否做到？

第二，方法论上能否做到？

最近很多人在探讨，大模型要回归到研究上，不能单纯的Scaling。Scaling是一个很好的办法，但也是一个偷懒的办法，

关键在于找到一个新范式，让这个机器可以独立Scaling。自己来定义奖励函数、交互方法、甚至训练任务来做Scaling。

在具备上述两点之后，还要面对真实世界的超长任务。要让这个机器有像人一样规划，做一下，检查一下，再反馈一下。

网上已经有一些尝试，这个idea是模型生成，实验也是模型做的，报告也是模型做的，最后可以做一个Wordshop，但事实上还没有做出来。

给出我们的一些思考：

大模型之前，大部分机器学习都是F-X到Y的映射，我学习一个函数，使得X样本可以映射到Y。

大模型来了之后，把这个问题变成F-X到X的映射，可也不是严格的X，但要让它完全用自监督来做多任务的自学习。

在第二层，我们通过引入更多数据，让模型学会推理，学会如何激活更底层的智能能力。

再往后，是让模型具备自反思与自学习能力。通过持续的自我评估与自我批判，模型能够逐步分辨哪些行为是有效的，哪些路径还有优化空间。

到未来，还希望模型进一步发展出更高层次的能力，例如自我认知。

还要教这个机器能学习到更多，比如说能学习到自我认知，让这个机器能对自己的行为，比如说AI生成了大量的内容可以自我解释，我为什么要生成这个内容，我是什么，我的目标是什么，在终极上也许有一天，AI也有意识。

我们大概有这么定义五层的思考。

计算机有三个能力：计算、编程、搜索。这三个能力叠加在一起，可能能带来所谓的‘超级智能’。

我常常会想起2019年的一件事。当时和阿里巴巴合作，对方希望我用一页PPT描述未来的方向，我给出的那一页叫作‘AGI-Next30’，讨论的是未来30年我们应该做什么。

回到今天看，推理能力已经取得了一定共识和进展；记忆能力开始显现雏形，但仍然有限；意识仍然处在探索阶段。这也是我们持续投入的方向。

再往前看，如果继续参考人类认知，未来AI可能需要回答更根本的问题：什么是‘我’，为什么是‘我’；如何为模型构建意义系统；单个智能体的目标是什么；多个智能体作为群体时目标如何协调。通过这些问题，AI才有可能走向对未知的持续探索。

有人会认为这些问题过于遥远，甚至不可能。但从人类自身来看，文明的终极动力正是不断探索未知。那些看似不可能的方向，往往正是通往AGI道路上值得被认真对待的探索目标。

对我个人而言，2026年更重要的是专注，以及去做一些真正新的事情。

第一，Scaling仍然会继续，但需要区分两种不同方向。一种是Scaling已知路径，通过不断增加数据和算力，持续探索能力上限；另一种是Scaling未知路径，也就是寻找尚未明确的新范式。

第二，技术创新将变得更加关键。我们会推进全新的模型架构探索，重点解决超长上下文、高效知识压缩等问题，并进一步实现知识记忆与持续学习能力。

第三，多模态感统会成为今年的重点方向。具备这种能力之后，AI才能在真实工作环境中执行长链路、长时效任务，例如在手机、电脑等设备上持续协作。

同时，我也判断今年很可能会成为AI for Science的重要突破年份。随着多项基础能力的提升，AI能够参与的科研任务范围将显著扩大，也将打开更多新的可能性。

杨植麟

从2019年到现在所有的大模型基本上基于同一个第一性原理，Scaling Law，也是把能源转化成智能的一个视角。

如果有更好的方法，或者更好的芯片，其实可以把能源更好和更多转化成更高级的智能。

有更多的算力、数据、模型参数之后，你的模型的loss可以线性下降，这是整个技术发展的基础。

最早提出来的Scaling Law的这篇文章，里面对比了Transformer和Lstm在Scaling Law意义下的的区别，很有意思。

不管是在什么样的参数量下，Transformer的Loss都会比LSTM更低，也就是在Scaling Law的尺度下，可以用更少的FLoss或者更少的参数，就能得到更好的Scaling效果。

后面Transformer成为主流架构的一个核心原因，是因为它在Scaling Law上有更好的表现。

今天所有的模型架构的迭代，其实都是为了寻找一条线能够更接近左下角。如果你的网络架构越接近左下角，其实你就是更好的网络架构。

在当前的情况下，它会变的更有意义。互联网上的存量数据是有限，它是一个有限集合，高质量的数据增长速度其实是赶不上这个模型迭代的速度，所以当你有一个越靠左下角的象限的时候，你的智能上限就会更高。

但是，很多人可能会忽略，为什么Transformer会更好。关键在于Token efficiency。

什么是Token efficiency呢？比如说当你给一个一百K的上下文，你会去数里面第一、第二、第三、第四一到第一百个Token的log是什么，比如说还是loss，但是它是一个position loss，因为你的横坐标是你的Token efficienc，表示你在这个序列里面到底是第几个Token。

你可以看到在最前面的一百个Token里面，Transformer和LSTM完全一样的，基本上这两条线是交错在一起。就是说当你在很短的Context的时候，你去预测接下来的Context会变成什么样，基本上是相等的效果。

所以在一百很短的Context下面，其实Transformer并不是一个更好的架构。但是更好的架构体现在当你的Context非常长的时候，Transformer显著的比LSTM更好。

这也是另外一个视角拆解它是一个很重要的指标。

在不同的Context长度下，你的优势有多大。这个问题在Agentic时代会变的非常重要，因为很多agent的任务要求非常长的长上下文，你要问题很复杂的任务，所以当你一个架构有更低的position loss，说明它在做Agent任务的时候，会有好的多的技术上的潜力。

我们预训练策略或者模型设计策略，围绕刚刚两个维度做。

第一个是Token efficiency，我们希望做的事情是尽可能把这条线往左边平移，当你越往左边移动的时候，你的Token efficienc就越高，意味着你可以用尽可能少的Token得到一样的效果。

当你的整个预训练Token不够用的时候，Token是常量，吃完所有Token的时候你的智能上限更高，因为你的Loss更低，这是我们做预训练很重要的指标和优化方向。

第二个方向是Long context。

今天非常复杂的任务，必须在超长的Context下才能够完成。是因为延长了Context之后，Loss必然是下降，而且只有一个好的Agentic才能下降的更多，如果你是LSTM、CNN、RNN这种架构，到一百Token就停了。

可以做简单的做翻译的任务，但是你永远做不了一个编程任务，没有办法从零到一实现一个代码库的编写。这是我们整体的优化，Token efficienc再乘以Long Context两个东西，最终就可以做到非常好的agent智能。

所以在这里面有两个主要的工作，第一个是米用MUON优化器，是工业界二阶优化器，传统的是十几年前，2014年Adam优化器提出之后，它做标志性的一阶优化器。基本上用了十年的时间，可能主流大模型都是基于Adam训练。

但是我们发现可能基于MUON二阶优化器，它的效果会非常好，好的体现在它有两倍的Token efficienc的提升，当你看这两条线的时候，只用50%的数据就可以达到一样的Test Loss，等价的话是如果用一样的数据，你的Loss小或多，就会有一倍的Scaling的效果。

右边是我们最新研究的kimi Linear的架构，当你的这条线拉长的时候，降低的幅度是非常大的，也就是你在Long Context等各种任务上的效果会显著的变好。最后是这两个东西乘起来，我们认为在模型的训练策略上，可以达到最好的agent的效果。

这些都是为了做出来更好的agent，为什么要Token efficiency，本质上Agent的推理或者AgentRL的训练是搜索过程，比如说你想从头开发一个Lineaxr，你想从零做这个事情，本质上是搜索问题。

如果你有无限的数据，可以把所有可能的情况枚举遍，看一看里面哪个东西是好的操作系统，你让AI开发出来Linearx，提升它的效率，之前的agent是你用模型做很好的先验，过程中不需要枚举每一种可能的Token组合的情况，因为很多组合是没有意义或者错的，更好的预训练和基础模型是减少了搜索空间，提升了更好的先验。

今天有很多人研究怎么去减少先验，最终有可能是在先验非常少，或者几乎没有的情况下有可能实现AGI。但是我认为基于先验实现AGI，还是会更早发生，整个领域先基于先验实现AGI，你再去探索先验非常低的情况下，越来越低的情况下实现SCI的方式。

这里等价对应的是更强的先验，你是在有限数据的情况下，同样是一样多的数据，但是脑容量更大，学习效率更高，智能更高，有更好的先验就可以得到更强的agent。context是另外一个维度，你的Agent行为，需要它的工作记忆，所以你有更强的环境感知，做更长程的任务，最后是这两个东西的结合。

我们在这个基础上，整个2025年kimi的迭代是沿着刚说的两个方向做了新的探索和实践。首先是Muon优化器，我们曾经做了非常多的实验，发现有很多比较重要的技巧。

比如说需要加入VDK，你在搜索的过程中，原来是Adam的优化器，可能是接近1.0，如果用Muon的话，对照它的尺度其实效果会更好。通过这些比较重要的改进，我们得到了一个真正意义上比较好，而且在各种方面经得起时间考验的优化器，有2倍的Token efficienc提升。

所以，大家注意的是这里的efficienc不仅仅是efficienc，其实是智能上限，因为你的Token数量有限。我们也做了很多公平的比较，基本上所有的任务都会有提升，本质上是等价相当于训练了别人的两倍Token。

在提升这个优化器的过程中，能看到一些问题，在一个中等规模的实验上，发现Muon的优化过程里会出现一些挑战，左边这张图横坐标是训练的步数，纵坐标是最大的Logit取值，它是一个爆炸式的增长，其实是不健康的。

反映在右边的非常高的时候，你的Logit训练就有可能不收敛，Loss会爆炸，出现一些不稳定现象，其实这个模型最后的效果也不会好。

这里面很重要的一个点是通过一个新的方法解决Muon爆炸的问题，我们也试了很多方法，QK-clip效果非常火，但是这里有一些细节，你做QK映射的话，会乘上一个数值，这个数值是由当前QK最大的Logit决定的，可以动态的让它clip特定的取值里面。

效果就是这样的，一个加Clip，一个没有。

左边这两条线，但是这两条线是完全重叠在一起的，你可能看不出来，其实是完全重叠在一起。说明你加了Clip之后，对效果是没有任何影响，可以复现任何效果，但是logit会健康很多。

右边开始涨了，Logits涨到一百QK就发挥作用了，发现可能我不需要这个东西，这个时候会自动降下来，所以其实是很好稳定训练的作用，使得全新的优化器可以在一万亿参数的kimiK2的级别做稳定训练，不然就像之前那样炸了。

这张图是2025年见过最漂亮的东西，这个是世界上最美的东西。

它是一个完全平稳下降的Loss曲线，在整个15T的Token训练中没有任何的问题，可以全部把logits压下来，平稳的收敛到一个非常好的点上。当你有一个优雅的方法，就可以得到一个优雅的结果。

在kimiK2很好的模型上面，我们又做了很多强化学习，后训练等等，但是这不是今天重点，重要的是有几个点，我们在各种agent的能力上全面提升，而且可以对标美国前沿的公司。

同时，很重要的一个点是在最核心的点上，比如说HLE，里面99%的题我都不知道怎么做，但是模型现在可以做到45%的准确率，而且比OpenAI更高，你在最核心的数据上比美国公司更好，这是很重要的亮点。

同时，它是一个完全agent的模型，kimiK2是中国第一个agent模型，K2 Thinking升级以后，可以完成两百百步的工具调用，解决一个很难的题的时候用它写一写程序。两三百步之后，可以完成我完全看不懂的题，但是它的答案是对的。

得益于这些发展，我觉得很多中国的开源模型逐渐成为新的标准，包括前段时间eda发布新的产品，现在也有中国很多开源模型做标准的测试，这也是开源很大的一个好处，我们希望有更多的中国的开源力量，中国的模型能够逐渐去成为标准的制定者。

在K2之后我们在持续探索下一代模型有可能长什么样，我刚刚讲到开源的kimiLinear的工作，这个工作也是我们前期的尝试，接下来还会在这个基础上做更多的优化和改进来训练K3模型。

最重要的一个改进是kimi Delta Attention，它是一个新的线性注意力机制，这个技术有一段时间，但是一直没有成为主流模型，或者说最前沿的模型都还没有用上这个技术。

最主要的原因是在长距离任务上会掉点，当你的Context变长之后，你用线性注意力效果是打不过全注意力的，打不过原始的Transformer。

这是很重要的问题，因为现在很多任务需要长程的能力，Context变长之后，效果变差了，可能不太能去换。

kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上，甚至比全注意力做的更好，但是同时又更快，因为它是线性的，所以它的效率会高非常多，一百万个Context的话，可能高6到10倍的端到端的速度上的优势。

同时又可以改进很多现有的线性注意力缺点，可能就是表达能力不够，导致了效果不够好，所以kimi Linear是第一个能够在线性注意力上不管是在短程任务，还是在长输入、长输出任务效果都比全注意力机制更好的一个线性注意力的架构。所以，它在实践里面会有非常重要的作用。

我们稍微看一下具体长什么样子，S表示当前线性的数据，可以看到它全部是线性的，ST相对ST减一来说的操作，称之为线性注意力。

这里面很重要的一个点是中间的对角化矩阵，FT每一个维度都会乘上一个值，等于说对于这个状态里面的每一个维度都可以精准的控制到底有多少记忆是从ST减1留到ST。

这个是很重要的点，它的表达能力会有很大增强，增强的同时如果你是一个非常粗糙或者没有优化过的数据，你的效率会大幅度降低，在这里面我们做了非常多的优化，你可以把刚才的那个数值做很多变化之后得到下面的形式。

它在工程实现上就可以得到很多好处，你去对比DPLR，我们在数据上有优势，减少矩阵操作，所以整体的效率是非常高的，你要得到一个好的架构，需要把很多底层的优化和模型的架构联合在一起，你不能只改动一些架构，如果没有高效的实现，很难得到一个很好的效果。

但是同时相比之前的线性注意力架构又有一个显著的优势，表达能力更强。

这张图里面的效果看一下，左边是性能对比，我们会考察两种任务，一种是短程的任务，MMLU，这些都是公平的比较，用完全一样的数据，一样大小的模型去跑。在短程上会显著做的更好，在长程任务上是更好的效果，相比于之前的很多线性注意力和全注意力的架构。

同时，右边的这张图的速度也是显著的变快，基本上跟之前的线性的注意力一样快，但是比全注意力要快非常多。

接下来在K2的基础上做更多的Scaling，当然这个Scaling并不只是加算力。而是说很多是技术改进，这些技术改进也会等效的变成Scaling的优势。当然这里面很重要的一个点是除了架构、优化器这样的挑战，更好的数据。

很重要的点是接下来的模型有更多的Taste，更多的品位和审美。

做模型的过程本质上是在创造一种世界观，你觉得什么样的东西是好的，一个好的AI应该是有什么样的表现，应该追求什么样的价值观，有点像乔布斯讲的Taste这是我们很相信的一个东西，因为智能和很多别的东西不一样，每个模型产生的Token，本身不是一个可交换的东西。

如果你今天看很多事情是相同的，你在深圳产生的一度电和北京一样，银行帐户里面最后一分钱是完全一样，它是等价交换。但是智能并不是这样，一个CEO产生的智能和一个设计师产生的智能和一个音乐家产生的智能是不同的。

在智能的维度，你有非常多的Taste的空间，空间是指数增加，你会有更多新的Taste出来，不是说这个模型会趋同，这是接下来我们很重要的一个目标。

我也经常和kimi对话，分享之前很有趣的一次对话，现在我们都在做AGI/ASI，可能会有更美好的未来，可以一起去探索宇宙，但是有可能会威胁到人类。

如果你的效果做的非常好，它现在也可以完成很多自动化的任务，甚至后面还会有大幅度的提升，这个答案很有启发性。

它可能不是一个普通工具，而是可以提升人类文明上限的东西。

人类认知的延伸，今天我们有很多问题解决不了，很多癌症无法被攻克，有很多能源的问题需要被解决，甚至有很多社会的解决需要更好的设计。我觉得站在kimi讲，它是我们探索未知世界的一个很重要的钥匙。

所以，虽然它有风险，但是它的回答是我仍然会选择继续开发，因为放弃这个开发就意味着放弃人类文明上限。所以，我们不应该害怕技术的风险，而是应该进一步去突破。同时，在这个过程中我们可能把风险控制好，因为所有的技术突破都伴随着风险，不能因为恐惧而停滞不前。

我们希望在接下来的十年、二十年的时间，继续把K4、K5到K100做的更好。

林俊旸

唐老师和植麟都是清华，我代表北大来一下。我很久没有回海淀区了，我是朝阳区的。

今天整体介绍一下千问2025年的进展，有些东西相对旧一些，最近几个月我们在憋着下一代的东西，我尽量讲一些我能讲的东西。

Towards a Generalist Agent这个标题我其实换了很多轮，原来叫Towards a Generalist model，后来觉得model是比什么都大的东西。

后来想想agent也许是更大的概念，像人一样你可以自主的使用工具，人和动物很大的差别是可以自主使用工具。所以就变成了Towards a Generalist Agent。

而且今天训练的范式发生了很大变化，过往我们不管做什么事情，都会有输入和输出把它标注出来，你可以认为是我们传统的标注，今天有了这个新的技术以后，我只要解决了这个推理，解决了这个评估，这个东西就可以炫，干什么都可以，我就可以发挥想象力。

比如说今天数据智能、模型智能都可能，这也是我一个干语言模型的人最近敢斗胆扬言我要做VLA和机器人的一个小小的原因。

大家如果想用上我们的模型的话，最容易体验到我们开源模型和闭源模型，我觉得很有意思，之前我们一直做开源，大家比较清楚，不赘述和吹牛了。

但是网友们一直在骂我们，你们那个东西很难用，每次都得去你们的模型上面找，我们就把OpenWEB AI拖下来之后就把它变成了一个聚合器，看起来就像是ChatGPT一样，本来算法的同学产品意识并没有那么强，做着做着就有这种感觉了，模型即产品，就有很好玩的东西出来，所以我们都会放到这上面。

一般我们会在qwen.ai里面就可以很好的搜到，发博客对于我们来说比较简单，最近我们火的新的模型架构Qwen Next，很多同学没有办法引用，原谅一下我们。

们做开源做的比较久，2023年8月3日开始做开源，很多人问我们为什么做开源这一件事情？

很多事情都有机缘巧合的成分在这里，反正开源一路做下来之后做了很多，至少还是比较工业的事情。

东西不多，基本是一些脚本大家在上面看就可以。我们的模型是比较多的，为什么相对比较多？以前有很多人不理解我们为什么做小模型，但是今天大家都明白小模型还是挺有价值。

小模型最终起源于我们内部用来做实验的1.8B模型，我们做预训练，资源毕竟有限，你做实验的话不能通通用7B的实验来验，就拿1.8B的来验。当时我的师弟跟我说我们要把这个模型开源出去，我非常不理解。

我说这个模型在2023年几乎是一个不可用的状态，为什么要开源出去？

他跟我说：7B很消耗机器资源，很多硕士生和博士生没有机器资源做实验，如果1.8B开源出去的话，很多同学就有机会毕业了，这是很好的初心。

干着干着手机厂商跑来跟我们说7B太大，1.8B太小，能不能给我们干一个3到4B的，这个容易，没有什么很难的事情。

一路干下来型号类型越来越多，跟服务大家多多少少有一点关系。

但是我们自己的内心追求的不仅仅是服务开发者或者服务科研人员，我们看一看能不能做一个Multimoda Foundatine Agent，我特别相信这件事情。

如果追溯到更远的话，刚才唐老师说我们当年还在合作的时候，当时就在大干多模态，现在想想这是一个激情岁月。

2023年的时候大模型是一个大家都不要东西，多少少有那么几分大炼钢铁的成分，多模态是我们延续下来一直想做的事情。

如果你想做一个智能的东西，天然的应该是Multimoda，当然带有不同看法，各个学者都有一些看法，多模态能不能驱动智力的问题。

人有眼睛和耳朵可以做更多的事情，我更多的考虑是Foundatien有更多的生产力，能不能更好的帮助人类，毫无疑问我们应该做视觉，我们应该做语音。

理想的情况下，当年我记得我们2022年的时候，当时设计的一个系统是中间有一个大脑，我们不知道那个大脑是什么东西，但是我们知道不同的模态和任务都应该进入到这个大脑，从这个大脑输出去，这个才是真正的想象当中的AGI。

今天看起来很有可能，因为我不知道大家做的研究方向有没有做统一理解生成这件事情，这件事情还挺复杂的。

目前谷歌也没有做到统一理解互相生成，但是我还挺相信这些事情。如果看GPT的话，今天把很多东西统一了之后，看起来更加完美一些，当年还在争论他们到底是哪个好。

今年最大的进展是Qwen3，这个是吉祥物，有点像熊，但它是一只卡皮巴拉。做的时候我觉得我们同学太辛苦了，不想他们太辛苦，今天这么卷的时代佛系一点不是说不行。我们做的方向相对比较多一些。

但是你可以看到每一个方向都有它自洽的逻辑在这里面。

比如说我们做Text和VL、Omni，做的时间比较长，做视觉、文本、语音生成，我们做的过程当中，可能因为我们比较特殊的地方是我们背后是阿里云支持，我们有很多业务和阿里云的客户比较相关。云的业务很多客户是非常多样的，包括Embed Guard都会给大家提供服务。

今天围绕相对比较主线的Text、VL，包括Omni会给大家做介绍，Coder会放在Text和大家做相应的介绍。Text今年主要是Qwen3系列，现在已经做到3.5，3做的时间比较长一些。

一个最大的特点是总体能力提升。

今年比较有意思的是reasoning的能力要提升，我补充介绍一下我个人的理解，reasoning和现在的单纯的tasks模型有一点不太一样。

第二个是我们支持的语言及方言，语言没有那么多，加上方言一共有119种。

为什么会做多语言这件事情呢？其实也有些机缘巧合的事情，2023年的时候，当时我们觉得只要把中文和英文做好就可以服务好我们需要的人群，但是有一回我遇到韩国朋友，他们在做模型的时候，为什么不用我们的模型做呢？

他说你们的模型根本就不懂任何的含义，我感到非常的受伤，我就去看了一下，后来发现这个事情很简单，顺手就把它做了。

后来发现我们全球的用户越来越多，我记得一些巴基斯坦的朋友不断的跟我说你快点支持乌尔都语，我们真的没有大模型可以用了，这个事情我觉得确实挺好，于是我们支持了更多的语言。我们现在还没有做完，非洲的数据确实有点难以收集，非洲的语言没有覆盖。

今天我跟一些手机厂商聊了一下，非洲还有很多人使用功能机，我们今天已经到进入智能机的时代，他们还在做这个事情，所以要帮助全人类的话，确实是任重道远，如果你的想法不是帮助全人类的话，我觉得不如不做，所以就继续干。

第三个是今天的长文本、长视频可能都是其中一个例子。

但是我觉得这件事情很有意思，如果你真的想形成一个具有自我认知的模型，首先上下文得足够长，之前还有人讨论一个问题，你没有必要把很多垃圾放到长上下文里面，但是有了这个以后才能做到下面的理解。

所以我们现在一路做到1M以上，实际上我们内部已经做到好几个M，可能还不够。今天为什么还想说这是非常非常长的这种事情。回到刚才的问题，我们这一代模型可能和2024年相比，很大的一个区别是reasoning的能力要提升，广义的reasoning是做问题推理，让问题得到更好的解决。

虽然不得不做相关的研究，怎么让reasoning更加nativel一些，Qwen3的时候，我们4月份发的版本，当时有些做的不太好，数据方面没有做的太好，合并起来有一些问题。

有超过90%的客户不再使用Thinking模型，大量使用我们QWQ系列的很重要的原因是他们的用户喜欢看机器和自己进行聊天。但是很快大家就回到Instruct，这里主要看一下黄色和蓝色的部分，蓝色是4月份版本，红色是7月份版本。

除了把数据做的更好以外，一件很重要的事情是AIME可以干到70分，你做Thinking可以做到90分，但是这个能力加进去之后，客户很明显的反馈是模型比以前聪明了很多，只有20多分，基本上什么题可能都做不了，比如说在教育领域做一点数学题可能都干不明白，这是我们挺骄傲的模型，这个模型也不是很大，很多人在用我们系列的模型。

但是还有一个遗憾，这个模型还有很多东西没有做完，这里是一个取舍的问题。

比如说Coding和Agent能力怎么把它集成进去，做起来很难。考虑到自己的技术实力和状况，包括自己一直做Cod系列，我们推出了这个模型。

今天的Cod和过往的不太一样。比如说去年和前年都在解单纯的竞赛题，给一道题看一看能不能把答案做出来。

今天我们做什么事情呢？Software Engineer，2024年的时候大家非常惊讶，第一个AI能不能像一个程序员，今天我就维护一个这件事情挺难的，你把它做了就好了。实际做的过程中，这个事情人做起来步骤挺复杂，最简单的是至少我可以打开这些文件夹，看了这些文件夹的名字知道我可以点开哪一个，其实是多轮交互的过程。

今天做Agent一个很重要的但，为什么大家提多轮环境交互，说白了打开文件夹看一言，这个其实也是一个跟环境交付的方式，这件事情很重要，并且非常有意思，让我们非常激动，真的能产生产力。我们想做今天的Coding的模型可以有生产力，很多代码可以写出来，这是很惊讶的。

当然这个中美是不一样的，刚刚从湾区回来，我感受到两边不太一样。这个是非常夸张的，但是今天是不是模型做的不够好，还是说WEBCoding还没有做的更好，我觉得是大家认知上面有差异，我们想做的事情是殊途同归，都是想让它产生生产力。

当时我们就特别关注两个生辰里，一个是SWE-bench，你能不能提一个PR把它解掉，70算是比较高的门槛，当然现在可以感到75以上，这是7月份的时候，当时我们做到67和69分觉得可以。

Terminal-Bench也挺难，今天大家都在用这系列的产品，大家会发现这个东西确实会和你的生产力接在一起以前不一样，今天我们做的是贴近实际的任务。也许今天我们只是一两个Bench而，有没有可能让它更加服真实的环境和真实的生产任务是我们想做的事情。

当时刚出的时候挺火的，但是现在竞争太过激烈，Token coder量一直干到第二名，小小吹嘘一下。

最有意思的是这一套东西，以前从来没有做过，今天模型训练我有一个Scaling，就是今天AgentScaffods的东西，所谓的脚手架你再简单理解一点就是这个东西。它就能够在机器里面跟阿里云的ECS的这些机器在这里面一个个起一个不仅是算法的挑战，在里面干完活就把它消除掉。

真真实实的存在，Instruct挑战也很多，右上角的东西我自己可以感，左上角就得需要拉其他的伙伴一起，算法Instruct今天联合的事情是真真实实的存在的，今天我们要做这么难的任务，需要很多Instruct的支持。

这个是当时做Coding的事情，我们更想做的是把Coding的能力是否可以集成在我们很大的模型上，比较抱歉的一件事情是最大的这个模型，大于1T的模型，我确实没有推动将其开源出来，虽然我也很想开源。

但是就是这么回事，我们终于把这些能力集成进来，大家可以看到我们的SWE-bench可以做到70分，之前你没有很好的把它集成进来，其实很难做到一个比较高的分数。这也说明一个问题，做到很强的时候，你也可以集结一个很强的模型，需要进行相应的积累。

Qwen3-Max也是排在前五，Overall。当然，它体现的是人类的偏好，未来评测会不会是动态的？让它放到人类的生产环境里面，比如说就让它炒股票。最后有一个公司做炒股这件事情，虽然有很多随机性，但是开了一个好头，让大家在人类的真实世界中看AI做的好还是不好。

做语言模型其实还要想一个问题，它能不能有眼睛看到这个世界，举个例子。我们刚才提到想做Coding Agent提升生产力，我总得让它操控电脑，看电脑屏幕，没有眼睛就看不到，所以我们毫不犹豫的去做，这是巨大的差异，Visual Understanding就去做可以了。

但是今天很多的模型比人看东西看的更明白，比如说我又近视又散光，基本上不太好使，看不明白。但是上下左右我总归分的很清楚，但是AI很有意思，很细节的东西它看很清楚。比如说问前后左右这个问题，居然分布出来。

我们很长时间评估一个案例，叫活体的方向，当时我还问我们的评测人员什么是活体，分不清楚东西在左边还是右边，我觉得蛮奇怪的，但是这是我们要解的问题。

但是不仅仅如此，我们还要做一件事情是让它的intelligence不要降低，我们没有期待它真的能够大幅度提高智商，但是至少不要变笨，因为很多时候做VL模型是变笨的，我们这一次终于让它不再变笨，大概和我们的235B的语言模型达到一个持平的状态。

这里讲一下我们这次主要的提升，简略的说一下。

第一个我们大家都在做一件事情，让它操作手机、操控电脑的能力进一步提升。

第二个是它的语言的治理，VL模型能不能当LRM来用，这样才可以追上原生多模态的模型，至少做到技术上让语言的智力能够达到持平状态。

第三个是Coding，这件事情很重要，但是Coding的输入也可以是图像或者是视频。

比如说今天我想做一个APP，想做一个网页，我可以画出来。不一定我用文字写，因为这个很考验人类的表达能力。很多时候大家表达的不一定很清楚，你可以画一个图。还有对视频的理解，也许是VL下一代的机会。

视频是更广义的表达，图片可以理解为是单帧的视频，理解很长的视频是很有意思的一个事情。

我一直在想如果我们有了智能眼镜，每天接收更多东西的时候，能不能构建我们的矩阵，这个眼镜是第一人称视角的东西，一般来说我们在网上搜罗的视频是第三人称视角，对第一人称视角理解很少，我们一般谈论的是它对这个物理世界能不能构建一些好的理解。

我们做的时候，就发现真的需要知道他是不是能理解这个空间的东西，这个东西激励我们做一件事情，我们能不能去做VLA，可能得把这些数据都集合进来，有没有可能接入硬件做VLA的模型，能不能让它获得一些泛化。

另外是基础能力的提升，比如说今天大家在使用OCR的时候，有很多东西的用力，都在检测一些很褶皱的东西。但是我们的的图像很多时候检测不到，纸张非常的褶皱，能不能让它看的懂都是我们自己要解的问题。

另外是印章，字体非常特别，非常的小，图片分辨率低，能不能识别出来是很特别的事情。Multimmod模型能不能做Reasoning，能不能对图片进行理解。比如说今天我们看到一个数学问题做分析，不断的一步一步去推，和图片结合起来看能不能看到图片上更小的点。

举个更小的例子，一张照片有50个人它能不能数的出来呢？数不出来，但是配上Reasoning我就可以一点点的去看，一点点的去打这个点，有可能我能把这个数字给数出来。今天结合具体的应用，能做的空间其实非常多。

我们现在基本上可以达到2.5pro的水平，但是让我开心的是语言的智力没有那么降智了，也算是第一次解决了这个问题。

更进一步我们想做什么呢？除了理解图像和视频以外，有没有可能同时生成图像和视频？我们甚至有一个更大的想象，如果我们今天在思考有没有可能把我们的基础模型实现想象这些事情。

我脑海里有一些画面，这个想象对我来说是有意义的，这些事情都可以通过图像生成和视频生成进行相应的实现，这个也会和今年的视界模型联系在一起。

今年我们刚开始做生成的事情，花了几个月时间做了Qwen-lmage系列，12月份刚刚更新了一个。

这是我们内部人员进行盲测，排名还是可以，基本上比最好的开源模型和闭源模型，比相交还是稍微差一点点。但是我看到一些实际的图的时候，我其实比较兴奋。

比如说和其他模型比较没有什么感觉，但是可以看一下8月份和12月份的版本，8月份生成的图AI感还是非常重的，但是12月份生成了已经接近离谱了，虽然没有那么美和好看，但是已经接近真人了。

其实还有一张我们博客里面宿舍女生拍照，真的很像宿舍女生刚睡醒拍照，放在这里不是很好，我放了更好看一点的。还有更自然的东西，比如说灯塔，水花特别夸张，但是右面的水可以达到非常自然的状态。

另外一个是生成图像文字要很准确，能够把文字生成到图片上面来。分镜不是拼出来的，其实是12张图合起来的一张图，包括文字都是一次性生成出来，今天模型有一些威力超出了我们的现象，有时候我们自己训练模型都没有想到会变的这么强。

但是除了生成以外的话，我们还要做更重要的事情。我们做了生成之后，用户告诉我们才知道编辑是更大的需求，因为大家都需要P图，让自己变的更好看。

Image-edit版本也有，接下来会把edit生成合在一起，我自己每天用这个东西，最近出去旅游的时候，我想拍出美国往事的感觉，下面有很多人，我就把很多人P掉，调整一下风格，就可以把这个东西做出来，这是每天干的事情。

我想给大家分享一个更有意思的案例，也是今天大家会问我，开源社区究竟怎么帮助我们研发这个模型，如果不是开源社区告诉我们，这辈子都想不到有这个问题。

有一张图片我们想对它进行编辑，让它放下图像中右边的人，你会发现它放下来之后，两张图重叠在一起的时候你会发现糊了，它有点移动了，不在原位，偏移了。

对于很多搞PS的同学来说，这个东西要非常精确，你不能随便移动，所以2511这个版本很重点的是在解这个问题。在2511这个版本，我把两张合在一起的时候，基本上人在原来的位置上，我觉得是开发者给我们很好的用力，原来可以做出真的可以帮助到他们东西。

编辑可以做很多事情，比如说我调整光线让它变成更柔和的光鲜。我们的用户和产品跟我们说这个光射合理不合理是很重要的，我们做算法的同学很多时候感受，但是有些时候大家对图的要求比想象的更高。

所以，大家谈世界模型的时候，是不是真的能构建出符合物理规律或者真实世界的东西其实还是很重要的东西。

还有一些例子，比如若平移一些镜头，旋转30度这些都是很常见东西，今天这个模型甚至可以和推理结合在一起，我们一直有一件事情非常想做，教小朋友家长们很痛苦，很多时候AI去教有一些题教不了，画辅助线的东西是教不了的，真的需要生成模型才能做，我真的能够把一道数学题做好，比如说画辅助线这件事情我可能要通过生成推动更好的理解。

接下来是更进一步的，如果今天看的图像的问题解的差不多了，甚至自己可以把东西生成出来，有没有让它像人一样听和说呢？因为语音交互也是很重要的事情。今天大家在使用各类的APP的时候，大家发现有语音交互真的是很方便的一件事情。

Omni也是很大的智能，并且我愿意相信一些事情，今天对事件的环境音理解，人讲的话不是单纯的使用ASR就可以解决的。

所以我们就做一个Talker的东西，这个模型做了很久，让它既能听又能说，能够保证它的效果是稳定的。Omni是沿着这个方向持续做的，大概的进展稍微有一点降智，但是降智的已经不多。

我们这个模型可以达到2.5文本的水平，对于语音基本可以对标2.5por的水平，这里面有挺多好玩的东西，时间关系没有办法和大家分享。

今天TDS可以换各种声音，包括自己定制你自己的声音，只要描述这个声音长的什么样子，就可以让AI以这个形式把东西讲出来，我觉得还有很好玩的事情，基础模型和基础Agent是不是真的可以跟人类的真实世界，也包括虚拟世界进行更好的交互。

下一步要做什么样的事情呢？我们做了这么多，当然希望集合在一起，全模态模型是要做的。

有一个很重要的，我觉得也是殊途同归的事情，跟kimi文化做类似的事情。我们同时做各种各样的实验的时候，最后选择了用Linear Context，当然也是以三层Linear配合它的。

下一代的模型也会沿着新的架构进行相应的实现，其实我们这里想做的事情是新一代的架构能不能解决我们刚才到的问题，能够省下很多步骤。也许还会有更多的威力在里面。下一代的模型，其实也会沿着新的架构进行相应的实现。

更进一步我们要做什么东西呢？Omni的模型不仅仅是我能够理解文本、视觉、音频，我们可能还让它生成文本、音频，今天我们已经做到了，但是我们还没有做到把视觉生成结合在一起。如果做到三进三出，我觉得会是至少我个人喜欢的东西。

第二个是今天的范式发生了一个很大的变化，今天不是像以前那样训模型，有标注的数据，有一条输入和输出训练就可以，我们今天要把更多的数据放到实验中去训练。

如果大家关注XAI的宣传，RL的数据我虽然觉得他们有点浪费，但是另一方面也意味着RL有很多的想象空间。当然并不是说自己跟自己对话，我其实没有那么关心我们的模型能不能做成为最强的数学大脑，我更关心的是像日常真实的人，为这个社会做贡献。如果它能够做到这一点，我觉得还挺好。

所以Multi-turn RL with environment feedback towards long-horizon reasoning，因为很多时候做很多事情需要很长的时间，你得一步步去做。

但是AI可以加速很多，比如说人类花两个月的时间做的东西，AI可以花两天的时间。虽然有很多Token在里面，但是两天确实能够节省我们很多的时间在这里面。

Agent其实可以走向虚拟世界和物理世界，所以有了Embodied Reasoning的这种方式。我们内部讨论了一个方式，就算你是做VLA，做Coding的模型，说白了也是把语言转化成Embodied的模型，从这个角度上来看就非常的振奋人心。

于是我们就觉得大干一长，看一看能不能走向Digital Agent，GUI操作，同时能够使用API，这个就是非常完美的Digital Agent。如果走向物理世界，是不是能够把话筒拿起来，能够斟茶倒水。

圆桌对谈

本次峰会最精彩的，当属圆桌环节。

开场就很drama，本应有四位嘉宾，台上却只有三位。

正在疑惑，姚顺雨突然大脸跳屏：

我现在是不是一张大脸在屏幕上？

全场都愣了一下，随后便是哄堂大笑。

主持人也正好趁这个机会，直接从姚顺雨开始，切入了正题。

Q1：路线分化

主持人：我是接下来Panel的主持人广密。

可以从分化这个主题先聊起来，硅谷的竞争那么激烈，它没有完全Follow，全都做，而且是专注到了企业，专注到了Coding，专注到了Agent。

我也在想接下来中国的模型会分化成自己想要的哪些方向？我觉得分化这个主题蛮有意思的。

顺雨开场给大家讲一讲，顺便说说你最近在干什么。

姚顺雨：大家好，我现在是不是一个巨大的脸在会场？不好意思，今天没法亲自来北京，但是很高兴参加这个活动。最近忙着做模型、做产品、做AI，是一个很正常的状态。回国的感觉还是挺好的，吃的好很多。

我觉得有两个大的感受，一个感受是toC和toB发生了明显的分化，另外一个感受是垂直整合这条路，以及模型和应用分层这条路，也开始出现了分化。

我先说第一点，我觉得很明显的是当大家想到AI就是两个，ChatGPT，另外一个Claude code，是做toC和toB的。

非常有意思的一点是我们今天用ChatGPT和去年相比的话，感受差别不是太大。

但是，Coding夸张一点来讲，已经在重塑整个计算机行业做事的方式，人已经不再写代码，而是用英语和电脑去交流。

我觉得很核心的一点，对于toC来说，大部分人大部分时候不需要用到这么强的智能，可能今天用ChatGPT和去年相比，写成交代数和伽罗瓦理论的能力变强的，但是大部分人大部分时候感受不到。

大部分人尤其是在中国更多像是搜索引擎的加强版，很多时候也不知道该怎么去用，把它的智能给激发出来。

但对于toB来说，很明显的一点是智能越高，代表生产力越高，值钱的也越来越多，这些东西都是相关的。

对于toB来讲，还有一个很明显的点，大部分时候很多人就愿意用最强的模型，一个模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月。

很多美国的人愿意花溢价用最好的模型，可能他的年薪是20万美元，每天要做10个任务，像一个非常强的模型可能10个任务中，八九个做对了，差的是做对五六个，问题是你不知道这五六个是哪五六个的情况下，需要花额外精力去监控这个事情。

我觉得无论是人还是模型，在toB这个市场上发现了一个很有意思的现象，强的模型和稍微差点，或者弱的模型它的分化会越来越明显。

第二点观察，垂直整合这条路和模型应用分层这条路的区别，我觉得一个比较好的例子，比如ChatGPT Agent，相比于用Claude或者Gemini加上Manus这样的应用层产品，过去大家会认为当你有垂直整合能力肯定会做的更好，但起码今天来看并不一定。

首先模型层和应用层需要的能力还是挺不一样的，尤其是对于toB或者生产力这样的场景来说，可能更大的预训练还是一个非常关键的事情，这个事情对于产品公司确实很难做，但是想要把这么一个特别好的模型用好，或者这样的模型有它的溢出能力，也需要在应用侧或者环境这一侧做很多相应的事情。

我们会发现其实在toC的应用上垂直整合还是成立的，无论是ChatGPT还是豆包，模型和产品是非常强耦合去紧密迭代的，但是对于toB来说这个趋势似乎是相反的，模型在变的越来越强、越来越好，但同样会有很多应用层的东西应用好的模型在不同的生产力环节。

腾讯肯定还是toC基因更强的公司，我觉得我们会思考怎么样能够让今天的大模型或者说AI的发展能够给用户提供更多价值，很核心的思考是我们发现很多时候我们的环境来讲或者更强的模型，或者很强的模型，很多时候是额外的Context。

我最近经常举一个例子，比如我想问我今天该去吃什么？其实你今天问ChatGPT和你去年问或者明天问都会差很多。

这个事情想要变好，不是说你需要更大的模型、更强的预训练、更强的强化学习、更强的Agent环境或者更强的搜索引擎，这个问题可能需要更多额外的输入，或者我们叫Context。

toB确实是很难的事情，生产力的革命，包括我们今天很多中国的公司做Coding Agent需要打很多海外市场。

我们会思考怎么把自己先服务好，像创业公司做Coding这个事情和大公司做Coding这个事情，一个区别是作为大公司本身就已经有各种各样的应用场景、各种各样需要生产力变的更好的地方。

如果我们的模型能够在这个地方做的更好，不仅这个模型会有自己独特的优势，不仅我们公司本身能得到很好的发展，很重要的一点是对于真实世界场景的数据捕捉会是一个很有意思的事情。

比如说Cloud，这些创业公司，他们想要去做更多的Coding Agent的数据厂商去标注这个数据，他们需要利用各种各样的软件工程师去想我要去标什么样的数据。

这个事情是数据公司一共就这么几家，一共有招了这么多人，最终你会受限，但如果你是一个10万人的公司可能会有一些有意思的尝试，怎么把真实世界的数据利用好，而不是仅仅依赖于标注商或者协议。

林俊旸：今天toB也好，toC也好，我们在服务真实的问题，我们想的问题是怎么把人类世界变的更好。你就算做toC的产品也会分化，今天OpenAI更像一个平台了，但是toC最终要服务真实的这批用户究竟是谁。

今天可能有很多AI会更偏向medical和log，今天我觉得Coding真的很厉害，我就拜访它，因为我知道他们跟客户交流非常多，这个是我们还不够好的一个点，虽然我们拥有巨大的优势，也可能中国SaaS市场跟美国确实不太一样，他们确实非常频繁地跟客户进行交流，很容易发现很大的机会。

今天我跟美国的很多API厂商聊起来，他们没有想Coding消耗量那么大，在中国真的没有那么大，至少从我这边来看，但是在美国，基本上全都是Coding，我觉得这个事情不是所有人都能Get到的。

今天做的一些相关的一些东西，我觉得也是他们自己在跟客户看到这个机会，我觉得可能大家的分化是自然的分化，我更愿意相信AGI，做AGI该做的事情，顺其自然，这是我们该做的事情。

杨强：分化的问题其实我更想聊一下工业界和学术界的分化，这个可能是横跨美国和中国的。

一直以来，学术界是一个观望者，工业界在领头往前疯跑，搞得很多学术界的人也在做工业界的事情，像唐杰老师，这是一个好事，就好像天体物理学刚刚开始的时候是以观测为主，伽利略的望远镜，然后才出现牛顿。

所以我觉得后面一个阶段，当我们有了众多的稳定大模型，进入一个稳态的时候，我们学术界应该跟上来。

学术界跟上来要解决什么问题呢？工业界可能还没来得及解决的一些问题，这也是我一直在考虑的问题，就是说智能上界在哪里，比如说给你一定的资源，计算资源或者能源资源，你能做到多好？

可以更细一点，比方说我们把这个资源怎么分配，哪些分配在训练上、哪些分配在推理上？其

实我很早就在做AI，90年代初就做过一个小实验，如果我们有一定的投入在记忆上，那么这个记忆能够帮助推理多少，这个帮助会不会变成一个反向的，就是说你记的太多了，反而记的噪音会干扰你的推理，有没有一个平衡点，我觉得这些问题今天还是适用的。

我最近也在想另外一个问题，大家学计算机的都必定上计算机理论课，里面有一个重要的定理叫哥德尔不完备定理，大概意思是说一个大模型不能自证清白，必定有一些幻觉不可能消灭掉，可能你给更多的资源，它会消灭的更多。

所以科学问题就来了，你多少资源能够换取多少幻觉的降低或者错误率的降低，这是有一个平衡点的，这个平衡点特别像经济学，经济学的风险和收益的一种平衡，所以我们叫这叫无免费午餐定理。像这些东西，我觉得今天就特别适合数学界、算法界和学术界和工业界一起做研究，这孕育着一个巨大的突破。

刚才唐杰老师也提到持续学习，我觉得持续学习是一个特别好的问题，它里面有个时间的概念，你在持续地不断地学的过程当中。

但是你会发现，比方说你把不同的Agent给串联起来，每一个Agent都不能做到百分之百的话，你在N个以后它的能力是按指数下降的，你怎么样能够保证它不下降，人类是用一个方法做这个事，第一天是学习，第二天会在第一天噪音的基础上学习，这样你的能力就类似大模型会下降。

但是人类有一个方法就是睡觉、睡眠，我建议大家看一本书叫《我们为什么睡觉》，是MIT的两个教授写的，非常好玩，它说每天晚上睡觉是在清理噪音，使得第二天你可以把准确率持续地提升，不至于是两个策略率的叠加。

像这些理论的研究孕育着一种新的计算模式。我们今天可能比较关注Transformer computer，但是我觉得有必要做一些新的探索，这是工业界和学术界要拉齐。

唐杰：早期的时候还是基座模型，2023年那个时候我们第一个做出Chat的，当时第一个想法是赶紧把Chat扔在网上上线，当时国家有规定，八九月份一起上。

当时我的第一感受是十来个大模型都上来了，而且每一家用户都没有那么多，当然今天分化的非常严重。

后来我经过一年的思考，我觉得其实这个已经不是真的解决问题，我的第一个预判是说它会替代搜索。

我相信今天很多人在用这个模型替代搜索，到今天我相信大家很多人在开始用这个模型替代索索，但是并没有替代谷歌，谷歌反而把自己的搜索革命了，谷歌自己做了搜索的改进。

从这个角度上，我觉得这一仗从DeepSeek出来之后，已经没有了，已经结束了。

DeepSeek之后我们应该想的是下一仗是什么东西？

我们团队争论了很久，下一仗肯定要让AI做一件事情，做这件事情是什么可以讨论一下，那个时候广密还到我们那跟我们交流，广密的知识特别渊博，他思考问题很深邃。和他的交流对我的启发非常大，原来我没有想到，那一次让我启发非常大。

后来我们团队争论了很多晚上，争论到最后，可以叫我们的运气，另一方面我们也是把所有的精力放在了Coding上。

Q2：自主学习

主持人：接下来第二个比较有意思的问题，今天这个时间点特别特殊，一个是预训练过去走了3年，大家都说可能今天走到了七八成的收益，强化学习也都成为共识，做到了四五十的空间，后面的数据、环境空间很大。

接下来一个新的范式，唐老师也谈到了自主学习、自我学习，因为今天这个会的主题是接下来的展望Next，我觉得这是一个特别值得去聊的话题。

姚顺雨：现在自主学习是一个非常热门的词，在硅谷大街小巷咖啡馆里面，大家都在谈论，形成了一个共识。根据我的观察，每个人对这个东西的定义和看法都不一样，我讲两点：

第一，这个事情不是方法论，而是数据或者任务。

当我们在谈论自主学习的时候，它到底在什么样的场景下基于什么样的奖励函数去做。

你在聊天的时候变的越来越个性化是一种自主学习，在写代码的时候越来越熟悉每个公司独特的环境或者文档是一种自主学习，你去探索新的科学，在这个过程中像一个博士一样，从原来不了解有机化学是什么，到完成这个领域的专家，这也是一种自主学习。每一种自主学习的挑战或者说方法论都不太一样。

第二，ChatGPT在利用用户的数据不断弥合人聊天的风格是什么，这是不是一种自我学习？

今天Claude已经写了Claude这个项目95%的代码，它在帮助它自己变的更好，这是不是一种自我学习？

我们当时2022年、2023年的时候，我去硅谷宣传这个工作，我当时写了第一页是说ASI最重要的点是自主学习。今天的AI系统本质上都有两部分，首先它是一个模型，其次它有个代码库，你怎么去用这个模型，是用来做推理，还是做Agent，有相应的代码库，我们今天看Claude这个系统本质上有两部分。

一部分是是部署环境的一大堆相应的代码，KeonGPU的环境是怎样的。

另一部分是怎么样去使用它，有一大堆相应的代码，无论是GPU的，或者说它的前端还是环境是什么样的。

我们做Switch方面大家意识不到，这些自主学习的例子可能还局限在每一个特定的场景下，没有让人感觉到非常大的威力。

这个事情已经在发生了，可能效率或者受限制的限制，有各种各样的问题，可能这个事情我个人的看法它更像是一个渐变。

很多人说2026年看到信号，我觉得2025年就看到信号了。

Cursor每几个小时都会用最新的用户数据去进行学习，包括新的模型，也在使用这些真实环境下的数据去训练，大家觉得这个东西可能还没有特别石破天惊，是因为受限于他们没有预训练能力，他们模型效果确实还不如Opens，显然这是一个信号。

最大的问题是想象力，我们很容易想象强化学习或者推理这个范式，如果实现大概是什么样，我们可以想象O1，在数学题上本来是10分，现在变成了80分，通过这个强化学习有非常强的思维链做这个事情。

如果2026年或者2027年我们有一个范式的发生，我宣布了一个新的模型或者新的系统实现了自我学习，我们应该用什么样的任务，它应该是什么样的效果，你会相信它实现了。

它是一个赚钱的交易系统，它可以赚很多钱，它真的解决了人类之前没法解决的科学问题还是别的。我觉得可能需要先想象到它长什么样。

林俊旸：如果从更实际一点来讲的话，刚才讲的这个范式在比较早期阶段，RL这个事情，实际上我们还没有做的那么充分，很多潜力没有打出来。

今天我们也看到很多问题在这里面发生，我觉得全球范围内类似的问题还存在。

如果要说下一代范式的话，一个自主学习，之前跟一个朋友聊到说人类不能让AI变的更厉害，比如说你跟AI不断地交互，只会让它上下文变的越来越长，AI变的越来越笨，这是很烦人的事情。

这件事情是不是真的能够发生？这还是挺值得思考的，你能吐更多Token让你变的更强，就像我真的干30个小时真的能够干出很难的任务，今天大家做超越的事情很难，有没有可能通过Coding去实现。

从这个角度来说，AI肯定需要自主进化，但究竟你是不是要更新参数，我觉得见仁见智，大家都有不同的技术手段去实现这个事情。

第二点是AI有没有可能实现更强的主动性，环境是我的输入信号，我现在的AI必须得有人类帮助他才能启动，但是有没有可能自己能自主思考，去做一些事情。这引发了一个新的问题，就是安全的问题，我非常担心安全的问题，不是担心它今天讲一些不该说的话，最担心的是它做一些不该做的事情

比如说今天主动产生一些想法，往会场里面扔一颗炸弹，我们肯定不希望不安全的事情发生。就像培养小孩一样，我们要给它注入一些正确的方向，但主动学习是一个挺重要的范式。

可能很快训AI这件事情就可以实现，我看我们同学每天干这个事情，我觉得很快就被替代掉。

可能更持续的理解用户这件事情还挺重要的，比如说过往我们在做推荐系统的时候，用户这个信息是持续输入，让这个系统变的更强，它的算法变的更简单。在AI这个时代它是不是能不更懂你，这些信息的输入能不能真正成为帮助我们的工具。

如果说自主学习的话，可能会是跟人的交互上就能做到。但是以什么指标进行衡量？不太好说。

在推荐的时代下，你做的越好，别人可能点的越多、买的越多，但是在AI时代覆盖到人类生活的方方面面的时候，真正的衡量指标是什么，我们不太知道。我感觉今天更大的从技术上的挑战，我们今天不知道该怎么做，这可能是我们更值得研究的问题。

大量的技术所谓的突破性都是一些观测问题，都是在线性发展的，只是人类对它的感受非常强烈而已。

包括像ChatGPT的出现，对于我们做大模型的人来讲都是线性的增长，现在大家都是在做Memory这个事情，这个技术对还是不对呢？

很多方案也没有对错之分，但做出来的效果，至少拿我们自己献丑，我们自己的Memory看起来知道我过去干了什么，但是只是记起来过去事情，每次叫一遍我的名字，其实并不显得你很聪明。

你的Memory有没有可能到某一个临界点的时候，结合你的Memory，就像生活当中的人一样，过去大家讲电影，它真的很像人，理解你的Memory就是在那一下，人类的感受突然间迸发。

我觉得多多少少也需要一年时间，很多时候技术也没有发展那么快。

大家比较卷，每天有新的东西，但是技术在线性的发展，我们在观测的角度处于指数上升的阶段，比如说Coding能力的一点点提升，可能就能带来很多生产价值。

每天看我们自己做的事情觉得真的挺土的，那些Bug真的不好意思拿出来跟大家讲。如果这样做，我们已经做到这样的成绩，我觉得可能未来算法infra结合的更好，可能更大有可为。

杨强：我一直以来是做联邦学习的，联邦学习的主要思想是多个中心大家协作。

我现在越来越多地看到很多有本地资源不足，但是本地的数据又有很多隐私和安全的要求，所以这样我们就可以想象现在大模型的能力越来越强，这种通用型大模型和本地特殊性的小模型或者领域专家的模型如何协作，我觉得这种协作变的越来越可能。

像美国ZOOM，就是黄学东他们做的AI系统，他做了一个很大的基座，这个基座大家都可以插进来，它可以在Decentralise的状态下，能够既保护隐私，又能够和通用大模型有效的沟通、协作。

我觉得这种开源模式特别好，一个是知识的开源，一个是Code方面的开源，模型阶段。

尤其是像医疗、金融这样的场景下，会越来越多看到这样的现象发生。

唐杰：我对今年会有非常大的范式革新有信心，我不说太细，就像我刚才讲的持续学习，还有Memory，甚至多模态，我觉得都有可能出现新的范式变革。

为什么会产生这么一个范式？

我觉得原来其实工业界跑的远远快于学术界，我记得去年和前年回到清华跟很多老师聊天的时候能不能做大模型，很多老师第一是没卡，也不是没卡，是卡的数量几乎为零。

工业界有1万片，学校是0片或者1片，倍数是1万次，但是到现在的时候，很多学校已经有很多卡了，而且很多老师已经开始做了很多大模型的相关研究，包括硅谷那边有很多老师都开始做模型架构、持续学习相关的研究。

原来我们总觉得工业界在dominating这些，其实我觉得今天在2025年底到2026年初的时候，这一现象不大存在了，可能还有10倍的差，但它已经孵化出种子了，我觉得在学术界有这个创新的基因，有这个可能性，这是第一个。

第二，我觉得一个创新的出现一定是某个事情有大量的投入，并且它的efficiency变成瓶颈了，现在在整个大模型里面投入已经巨大，但是efficiency并不高，也就是我们继续Scaling，肯定是有收益。

原来data从2025年初，当时可能10个TB的数据，现在30个T，甚至我们可以Scaling到100个T，但是100个T，你Scaling上去以后，你的收益有多少，计算Cost有多少，变成了这么一个问题，你不创新，这就变成了可能花掉10个亿、花掉了20个亿，但是你的收益很小，就不值得了。

另外一方面对于新的智能创新，假如说我们每一次都要重训一个基座，再重训很多RL，像2024年出RL的时候，很多人会觉得我接着训，收益表里有，但是到今天的时候再接着疯狂的RL，收益也有，但没有那么大，还是收益效率的问题，可能我们未来也许可以定义，一方面既然要Scaling up，最笨的办法就是Scaling，Scaling我们会有收益，Scaling肯定会带来智能上界的提升。

第二个办法是应该定义Intelligence efficiency，就是说智能的效率，我们获得智能的效率，我们用多少投入能获得这个智能的增量，如果我们能用更少的获得它的增量，而且现在我们已经变成了一个瓶颈，假如能用更少的范式获得同样智能的提升，它就变成一个瓶颈式的事情。

所以我觉得2026年一定会有这样一个范式的发生，我们也在努力，我们希望发生在我们身上，但也不一定。

Q3：Agent之年

主持人：第三个是聊聊Agent战略，它不再只是一个Chat，而是说真的在自动化一整天甚至一周的任务流，2026年Agent可能是创造经济价值的关键一年。

顺雨花了很多时间做Agent的研究，你对2026年Agent，比如说Long Agent真的能干人类1-2周的工作，对Agent战略，包括从模型公司的出发点，会怎么思考这个问题？

姚顺雨：我觉得还是像刚刚说的toB和toC不太一样，目前看起来，我觉得toB的情况现在已经达到了在不断上升的曲线，目前看起来好像没有变慢的趋势。

很有意思的一点是它基本上不做什么创新，就是觉得模型预训练变大了，老老实实的把这些东西做好，只要预训练不断地变大，后训练不断地把这些真实世界的任务给做好，会越来越聪明，它就会带来越来越大的价值。

从某种程度来说，做toB，所有的目标这件事更一致，模型的智能越高，解决的任务越多，解决的任务越多，在toB下带来的收益越大。

做toC的问题是说，我们都知道DAU或者说产品的指标和模型的智能，很多时候是不相关的，甚至是相反的关系，我觉得这是能够聚焦的另一个很重要的原因，他只要真的把模型越做越好，他的收益越来越高，所有的事情都是非常好的。

目前看起来，toB或者说生产力的Agent刚刚开始，现在除了模型之外，有两个Next，环境问题或者Deployment问题。

在OpenAI之前，我在一个公司实习过，这是一个toB的公司，我觉得在toB公司工作过有很多收获，最大的收获是即使今天的模型不再变好，所有的模型训练全部停止了。

但是我们把这些模型部署到世界上各种各样的公司，已经能带来今天10倍或者100倍的收益，能应对GDP产生5%-10%的影响，但是今天它对GDP的影响还不到1%。

另外我觉得教育非常重要，我观察现在人和人的差距非常大，更多时候不是说人类替代了人类工作，而是会使用这些工具的人在替代那些不会使用工具的人，就像当年电脑出来，如果转身学习编程跟你还在持续计算尺、使用算法，差距是巨大的。

今天中国能做到的最大的有意义的事情是更好的教育，教育大家怎么更好的使用像Claude或者ChatGPT这样的产品，当然Claude可能在中国用不了，但我们可以用Kimi或者智谱这样的国产模型。

林俊旸：这里可能涉及到产品哲学的问题，当然Manus确实很成功，套壳是不是未来，这本身也是个话题，今天到这个环节，我比较同意你的观点，叫模型即产品。

我跟TML的聊，他们叫Research，其实我挺喜欢这个事情的，包括我的视角看OpenAI，我觉得还有挺多这种事情，就是挺多Research，自己可以成为产品经理，把这个东西给做起来，包括今天我们自己内部的Research都可以做面向真实世界的东西。

我愿意相信接下来的Agent是可以做到刚才所说的这个事情，而且跟刚才所提的主动学习都有比较强烈的关系，它能干这么长的时间，自己就得在这个过程当中进化，并且它还要决定去干什么，因为它收到的这个指令是非常通用的任务，我们现在Agent已经变的托管式的Agent，而不是我要不断给你来来回回交互的那种形式。

从这个角度来说，它对模型的要求是很高的，模型就是这是这个Agent本身，Agent就是这个产品本身，如果它们都是一体化的话，今天做基础模型本身，其实也就是在做产品。

从这个角度来说，如果不断提升模型能力的上限，包括Scaling能做上去，确实能够做到这个事情。

我觉得还有一个点是跟环境交互有关系，我们现在交互的环境还不是很复杂，这些都还是电脑的环境。我有朋友是做AI for Science比较相关的，比如说今天你干AlphaFold这个事情，其实你最后干出来，它还没有到那一步。

比如距离制药这件事情，就算用今天的AI，不一定能帮到你那么多，因为你要去做试实验，你要去做这些事情才能得到反馈，有没有可能我们未来AI环境复杂到真实的人类世界的环境，指挥机器人去做试实验，去加快效率。

现在人类的效率非常低，我们还要雇佣很多外包在实验环境里面去做实验，如果能达到这个点，可能才是我想象当中Agent能做很长时间的活，而不是在电脑当中写个文件等，这些东西今年很快就可以完成，接下来3-5年的时间，这个事情会更加有意思一些。这个可能又要跟具身智能结合在一起。

做通用Agent最有意思的事情就是长尾反而是更值得关注的事情，或者说今天AI更大的魅力是在长尾，如果是马太效应，头部的东西挺容易解决的。

当年做推荐的时候我们看到那个推荐非常集中，商品都是在头部，但我们想把尾部的东西推过去，但是我当时做的非常遭殃，我作为一个干多模态的人碰到推荐系统，我去干解马太效应，基本上是奔着死路去的。

今天所谓的AGI就在解这个问题，你做通用Agent，能不能把长尾的问题给解决，今天我一个用户，真的寻遍各处都找不到能够帮我解这个问题的，但是在那一刻，我感受到了AI的能力，全世界任何一个角落，寻遍各处都找不到，但是你却能帮我解决，这就是AI最大的魅力。

要不要做通用Agent呢？我觉得见仁见智，如果你是一套壳高手，套的可以比模型公司做的更好，我觉得可以去做；但如果你没有这个信心，这个事情可能是留给模型公司做模型即产品的，因为他们遇到问题的时候，我只要训一训模型，只要烧一烧卡，这个问题可能就解决了。

今天RL最有意思的地方，修问题比以前容易。

以前修问题很难。我举个B端客户的情况，他们说我们自己要做SSD，你能不能告诉我这个通用数据怎么配比，每次我们都很头痛，我们觉得对方不太会做SSD，他那个数据非常垃圾，但他们可能觉得非常有用。

但现在有RL以后，今天很小的一个数据点，甚至都不需要标注，只要有Query，这个东西稍微训一训，合并起来也非常容易，这可能是今天技术的魅力。

杨强：Agent出现，应该有四个阶段，

一个是目标的定义，是人为定义的，还是自动定义的，这是目标。第二是说规划，就是中间的Action，规划可以由人定义，也可以AI自动定义。

我们现在在一个非常初级的阶段，目标也是人定义的，规划也是由人来做的，所以现在的这些Agent的软件系统，基本上是更高级的阶段，但是我预料未来会出现一个大模型观察人的工作，尤其是把data给使用起来。

最后目标也可以是大模型来定义，规划也可以由大模型定义，所以Agent应该是由大模型内生的一个native的系统。

唐杰：有几个方面决定了Agent未来的走势。

第一，Agent本身有没有解决人类的事情，而这个事情是不是有价值，价值有多大？比如说原来的Agent像GPT-S出来也做了很多Agent，那时候你会发现那个Agent非常简单，最后发现promoment就解决了，这时候大部分Agent慢慢就死掉了。第一个是解决Agent这个事情多有价值，以及真的能够帮到人。

第二，做这个事情咱们Cost有多大，如果Cost的特别大，这个时候也是一个问题，就像刚才俊旸说的，也许调用一个API就能把这个问题解决了，但是反过来，假如调到API就能解决，这个API本身有可能觉得当这件事情价值很大的时候，就会把它做进去，这是个矛盾，非常矛盾，基座的应用永远是矛盾。

最后，做应用的速度。如果说我有个时间窗，能够拉开半年的时间窗，迅速把这个应用满足了，半年以后，要么迭代，要么怎么接，怎么能往前走也是一个方面。

大模型到现在更多的是在拼速度、拼时间，也许我们代码正确了，也许我们就会在这方面走的更远一点，但也许失败以后就半年，半年就没了，今年我们只是在Coding，在Agent这一块做了一点点，现在我们Coding的调用量都还不错，我觉得更多的也是一个方向，做Agent未来也是一个方向。

Q4：中国能否反超

主持人：第四个问题，在三年和五年以后，全球最领先的AI公司是中国团队的概率有多大？

姚顺雨：我觉得概率还挺高的，我还是挺乐观的。目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做的更好，包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点，一个可能是中国的光刻机到底能不能突破，如果最终算力变成了Bottleneck，我们能不能解决算力问题。

目前看起来，我们有很好的电力优势，有很好的基础设施的优势。主要的瓶颈，一个是产能，包括光刻机，以及软件生态。如果这个问题解决，我觉得会是很大的帮助。

另一个问题，除了toC之外，能不能有更成熟或者更好的toB的市场，或者有没有机会在国际的商业环境竞争。

今天我们看到很多做生产力或者做toB的模型或者应用，还是会诞生在美国，因为支付意愿更强的，文化更好，今天在国内做这个事情很难，所以大家都会选择出海或者国际化的事情，这两个是比较大的客观上的因素。

更重要的是主观上的概念，最近我在跟很多人聊天，我们的感受是在中国有非常多非常强的人才，任何一个事情只要被证明能做出来，很多人都会非常积极地尝试，并且想做的更好。

我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多，这里面有经济环境、商业环境包括文化的因素，如果增加一点，主观上有没有更多有创业精神或者冒险精神的人，真的想要去做前沿探索或者新的范式突破的事情。

目前来看，一个范式一旦发生，我们可以用很少的卡、很高的效率去局部做的更好，我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题，因为其他所有做的事情，无论是商业，还是产业设计，还是做工程，我们某种程度上已经比美国做的更好。

每个地方的研究文化都很不一样，美国实验室的区别可能比中美实验室的差别还要大，在中国也一样。

在中国大家还是更喜欢做更安全的事情，比如说今天预训练这个事情已经被证明可以做出来了，其实这个事情也非常难做，有很多技术问题要解决，但只要这件事情一旦被证明能做出来，我们都很有信心几个月或者一段时间内就把这个问题搞清楚。

但如果今天让一个人说探索一个长期记忆或者持续学习，这个事情大家不知道怎么做、不知道能不能做起来，这个事情还是比较困难的。

可能不只是大家更喜欢做确定性的事情、不太愿意做创新性的事情，很重要的一点是文化的积累或者整体的认知，其实是需要时间沉淀的事情

OpenAI在2022年就开始做这个事情了，国内2023年开始做了，对这个东西的理解会有一些差异，或者说中国没有这么大。

我觉得可能很多也就是时间问题，当你积累了文化或者底蕴更深的时候，潜移默化的程度可能会影响人的做事方式，但是它很微妙，很难通过榜单去体现。

中国对于刷榜或者数字看的更重一些，包括DeepSeek做的比较好的一点，他们可能没有那么关注榜单的数字，可能会更注重，第一，什么是正确的事情；

第二，什么是你自己能体验出好或者不好的。我觉得这还是挺有意思的，因为你看Claude模型可能在编程或者软件工程的榜单上也不是最高的，但大家都知道这个东西是最好用的，我觉得这还是需要大家能够走出这些榜单的束缚，能够坚持自己觉得是不是正确的过程。

林俊旸：美国的Computer可能整体比我们大1-2个数量级，但我看到不管是OpenAI还是什么，他们大量的Computer投入到的是下一代的Research当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的Computer，这会是一个比较大的差异在这里。

创新是发生在有钱的人手里，还是穷人手里，穷人不是没有机会，我们觉得这些富哥真的很浪费卡，他们训了这么东西，可能训了很多也没什么用，但今天穷的话，比如今天所谓的算法Infra联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。

我觉得可能更进一步的，刚才顺雨提到光刻机的问题，未来有可能还有一个点，如果从软硬结合的角度，是不是真的有可能做出来，比如说我们下一代这个模型和芯片，有可能是一起把它给做出来的。

我在2021年的时候在做大模型，因为阿里做芯片，在找我说能不能预测一下三年之后这个模型是不是Transformer，三年之后这个模型是不是多模态，为什么是三年呢？

他说我们需要三年时间才能流片。

我当时的回答是三年之后，在不在阿里巴巴，我都不知道！

但我今天还在阿里巴巴，他果然还是Transformer，果然还是多模态，我非常懊悔为什么当时没有催他去做，当时我们的交流非常鸡同鸭讲，他给我讲了一大堆东西，我完全听不懂。

我给他讲，他也不知道我们在做什么，就错过了这个机会。这个机会有没有可能再来一次？我们虽然是一群穷人，是不是穷则生变，创新的机会会不会发生在这里？

今天我们教育在变好，我属于90年代靠前一些的，顺雨属于90年代靠后一点的，我们团队里面有很多00后，我感觉大家的冒险精神变的越来越强。

美国人天然有非常强烈的冒险精神，一个很典型的例子是当时电动车刚出来，甚至天棚漏水的情况下，甚至开车会意外身亡的情况下，依然会有很多富豪们都愿意去做这个事情。

今天大家的冒险精神开始变的更好，中国的营商环境也在变的更好的情况下，我觉得是有可能带来一些创新的。

概率没那么大，但真的有可能。我觉得是20%吧，已经非常乐观了。

今天你干这一行就不能恐惧，必须得有非常强的心态，对于我们的心态来说，能干这一行就非常不错了，能做大模型这件事情已经非常幸运了。

我觉得还是看你的初心是什么，刚才顺雨提到一个点，你的模型不一定那么强在C端里边是OK的。我可能转换成另外一个角度去思考这个问题，我们的模型为人类社会带来了什么样的价值，只要我相信我这个东西能够为人类社会带来充分的价值，能够帮助人类，就算不是最强的，我也愿意接受。

杨强：我们可以回顾一下互联网的发展，一开始也是从美国开始，但中国很快就赶上了，而且应用像微信，是世界第一的。

我想AI是一个技术，它并不是一个终端的产品，但我们中国有很多聪明才智会把这个产品发挥到极致，不管是toB还是toC，但我可能更看好toC，因为百花齐放，中国人集思广益，但toB可能会有一些限制，像付费意愿、企业文化等也在改变。

我最近也在观察商业方向跟商学院的一些同学探讨，比方说美国有一个公司叫Palantir，它的一个理念是不管AI现在发展到什么阶段，我总是能在AI里面发现一些好的东西应用在企业上，中间肯定有gap，我们要给它弥合，它有一个办法叫本体，用的是本体的方法。

我观察了一下，大概的思想是我们之前做的迁移学习，就是说把一个通用的Solution能够应用到一个具体的实践当中，用一个本体来做知识的迁移，这个方法非常巧妙。当然它是通过一种工程的方法，叫前端工程师FDE来解决的。

不管怎么样，我觉得像这种就非常值得我们学习，我觉得中国的企业像AI Native的公司应该发展出这样一些toB的Solution来，我相信会的。所以我觉得toC肯定是百花齐放的，toB也会很快的跟上来。

唐杰：首先我觉得确实要承认在中美，无论是做研究，尤其是企业界的AI Lab，我觉得和美国是有差距的，这是第一个。

但我觉得在未来中国，现在慢慢变的越来越好，尤其是90后、00后这一代企业，远远好过之前。有一次我在一个会上说我们这一代最不幸运，上一代也在继续工作，我们也在工作，所以我们还没有出头之日，很不幸的是下一代已经出来了，世界已经交给下一代了，已经把我们这一代无缝跳过了。这是开玩笑的。

中国也许的机会：

第一，一群聪明人真的敢做特别冒险的事。

00后这一代，包括90后这一代是有的，包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

第二，咱们的环境可能更好一些。

无论是国家的环境，比如说大企业和小企业之间的竞争，创业企业之间的问题，包括我们的营商环境，像刚才俊旸说的，我还在做交付，我觉得如果把这个环境建设的更好。

让一群敢于冒险的聪明人有更多的时间去做这样创新的事情，比如说让俊旸有更多的时间做创新的事情，这是第二个，也许是我们政府，包括我们国家可以帮忙改善的事情。

第三，回到我们每个人自己身上，就是我们能不能坚持。

我们能不能愿意在一条路上敢做、敢冒险，而且环境还不错。

我觉得环境肯定不会是最好的，永远不会想着环境是最好的，我们恰恰是幸运，我们经历环境从原来没那么好，到慢慢变得更好的一个时代。

我们是经历者，也许就是财富，包括经历收获最多的人，如果我们笨笨的坚持，也许走到最后的就是我们。

张钹院士：AI时代，企业家会承担更多使命

听了这个报告之后，我一直在思索，觉得还可以说几句话，实际上我没有资格说这些话，首先我跟大家的年龄已经差的非常多了，刚才唐杰老师还说下一代如何替代他，我早已经被替代了。

对企业来讲我是外行，但是我想起刚才杨强老师提到的哥德尔的一句话，不完全性定理。

也就是说，系统内部、圈子内部的人很难发现它里头的问题和错误。我作为圈外的人，因此给我提供的条件，有可能发现你们还发现不到的问题。

我在中间休息的时候做了PPT，我不敢太多早，没听到大家是怎么做的，不敢先做。

首先先说一个问题，我们现在正在干什么事。

从刚才各位介绍中，大家都在做大语言模型，实际上最初的就是做一个聊天机器人，也就是说希望机器跟人类能够说话。这个做的结果怎么样？做的结果是这样，在外部提示下，机器能够在开放领域生成多样性的、语义上连贯的类似人类的语言。

做到这一点，这一点算不算掌握了人类的语言呢？应该说算，但是还不够彻底，也就是说我们发现它里头有很多地方跟人类语言不一样。

这个怎么办？什么原因引起的？我们今后究竟通过这个能做到什么程度？最后能不能像人类那样理解自己的工作，而且对自己的问题能够进行反思、能够有意识，哲学来讲叫做有没有自反性。

我们现在从这个出发，究竟现在大语言模型用的什么原理，实际上用了分布式语义的原理，也就是把语义翻译成Firth说的这句话，用它周围贡献频率最高的词，来作为这个词的语义，他是这么来定义的。

从这出发，我们就有条件把贡献的词变成从贡献中学习语义，我们现在就是这么做的，实际上是把原来离散空间里贡献的词，变成高维空间里头稀疏的空间，帮它变成致密的向量空间的几何结构，这是一个重大的进步，使得我们语言变成可计算的。因为原来稀疏的贡献的空间是不能计算的，现在变成稠密的向量空间就可以计算。所以把语言处理的问题完全变成数学计算问题。

可以证明，只要你用的数据量足够多，用的上下文足够长，这个空间就会出现语义关系空间。如果我们有了足够的数据，有了足够长的文本，就会使这个越接近它。

大家现在拼命在这做方面的工作，这个长度越长越好，数据越多越好，现在基本上趋近于语义关系了，从这个角度来看，唐杰老师也说了一定意义下完全可以做到理解、可以做到自反性，也是对自己的思考进行思考。实际上现在大家在大语言模型中，已经发现了这个现象。

这个问题现在出在哪里？出在模型是近似的，不是人类语言的真正模型，为什么？因为我们使用的定义是用贡献的词来定义我这个意义。

关于语义的定义，世界上有七八种不同哲学学派的定义，我们对语义并没有科学的定义，所以现在所用的定义都是不完备的，都是近似的，这样就告诉我们，即使你把这个模型做的非常大，你毕竟也是在这个语义定义下的语义关系。

所以现在很多人提出来，很多人发现机器人出现很多怪现象，都归结于语义有问题，这是有错误的。

现在很多东西是由于模型近似引起的，我们这么定义意义本身是很不完备、很不准确的，因为科学上现在并找不到准确的定义，这就会出现五个缺失：

指称的缺失、真知和因果的缺失、语用的缺失、多义和动态语境的缺失、闭环行为的缺失。

这五个缺失必然会影响到你用语言模型去做应用。所以现在我们要做的就是在干这件事。

刚才也有很多报告讲的非常清楚，我们通过这里头的体系结构、算法本身，是会帮助我们不断趋近这个语义关系，但是这个语义关系，是我们目前能够得到最好的，不可能再得到我们真正需要的准确的定义。所以这五个缺失必然存在。

下面讲另外一个问题，我们现在需要干什么？

实际上现在大家所做的事情就是要从LLM要能够实现实际环境下执行复杂任务的Agent，大家现在在做这个事，你把语言模型拿去应用，现在有很多问题，想从语言模型再跨进一步，把它变成可执行复杂任务的Agent。

大家把这个目标用一个概念来套，叫做通用人工智能。其实用这个概念有很多误解，实际上我们目标是这个，但是为了说的好听，大家都说AGI，因为AGI很有吸引力。

这里有一个误导，大家以为做AGI都要做通用，其实AGI确实强调通用，但是跟我们目前想做的事不是一回事，但现在大家都这么用，我们也只好这么用，所以很多用这个目标来做定义的肯定都不行，都会引起很大的误解。

比如马斯克说，我们人类能够干70%以上的任务，机器都会干，而且达到或者超过人类的水平，这样的定义完全不可执行、不可检验，所以必然引起很多误解，有的人说很容易得到，有的人说根本达不到，为什么？

因为这个定义非常模糊。什么叫做达到人类水平？时变率超过人类，算不算达到人类的水平，有的人说算，有的人说根本不算，如果鲁棒性从其他方面来看差的远。所以我认为必须要定义一个可执行、可检验的定义。

我认为可执行、可检验的定义，AGI就应该满足下面5个要求，达到下面5个关键的能力。其实现在大家在做的都是这5件事。刚才唐老师讲了4个层次，实际上包括我这里的几个层次，但少了一个，我这里强调这几个问题的形容词非常重要：

时空一致的多模态理解与落地。

大家都在做这个，关键在哪里？关键在时空一致性，这是非常大的困难，大家知道每个模态的时间是不同步的，视频是一个帧一个帧的，文本是几千年一句话，两个词很难对齐，你如果对不齐，根本做不到多模态理解。

可控的在线学习与适应。

过去我们做的主要是离线学习，刚才大家说RL强化学习，其实强化学习最重要的是可控性问题，刚才唐老师说到可检验，可检验放在推理可控的问题。

其实强化学习最大的问题是不可控，你虽然有目标在那儿，但这个目标能不能收敛到那去，整个学习过程是不可控的，如果不解决可控的问题，其实在线学习的效果不会特别好。

可验证的推理与长期执行与规划。

对于推理来讲，必须要可检验。对于很多大模型里头，很多推理不可检验，很难判定它对与错，规划主要是集中在长期的规划和执行，所以这个关键的问题必须抓住一个形容自。

可校准的反思与元认知。

现在所有的反思都是一种感觉，并没有可回溯、可检验、可把它变成一个准确的信号。

跨任务强泛化。

大家知道大语言模型在跨领域的泛化上效果很好，但如果我们要让它去执行实际的任务，必须要实现跨任务的强化问题。这里头最大的困难就是分布以外的，结构不一样，长尾的泛化。

所以我认为如果我们把这个作为我们的目标，我们就有一个可执行、可检验的定义，我认为按照这个定义，应该是可以指导我们往前做的。

下面一个问题，整个讲起来就是组成这么一个东西，就是Agent。

再走一步，怎么办？

实际上我们现在做的几件事都是冲着解决这5个问题的，多模态，具身与交互落地，检索与证据不落地，结构化知识对齐，工具与执行落地，对齐与约束落地。

具体的，我们就做这六件事，这六件事都是冲着刚才讲的五个目标来完成的。

第四，我们的目标是什么？

过去人工智能只是作为工具，现在我们处于一个非常矛盾的状态，我们一方面又希望人工智能能够做更多更复杂的事情、又害怕人工智能超过我们，成为新的主体。

所以大家非常焦虑，过去我们只有一个主体，人类都摆不平，因为人类这个主体是复数的，不是单数的，每个主体的要求都不一样，之后再出现人类以外的主体，我们该怎么办？我们如何跟人工智能相处？我们如何来解决这种担忧？

实际上未来的主体分成3个层次：

1、功能-行动主体。

目前我们已经达到了，而且很希望它达到，因为它可以帮助我们。

2、规范-责任主体。

这个目前还没达到，一个最大的困难，如何使机器也能够担负起责任来，这是我们希望做到的，但从目前的情况来讲有一定的难度，技术的难度比较高，但我相信大家会努力地争取做这个事。

3、体验-意识主体。

大家最怕的是这个，一旦机器有了意识以后，我们人类该怎么办？

如果我们做实际企业的人，可能不必考虑太远，我们考虑第一、第二就可以，但是这两个问题必须考虑：对齐和治理。

对齐这个问题，大家谈的很多，机器一定要和人类对齐吗？这是值得讨论的问题，人类并不是都有优点的，人类中间贪婪、欺骗，原来机器都没有，像人类对齐，人类到了最高吗？不是，我们也涉及到这个问题。

我们如何来治理？我认为最主要的治理不是治理机器，而是治理人类，也就是研究者和使用者。

这里头，涉及到我们人工智能时代的企业、企业家应该担负什么责任。

第五，AI时代的企业家。

在大语言模型出现之前，我非常不赞成我的学生去创业，有的学生家长找我，有些学生家长跟我的观点也一样，说别去搞企业，但是大模型之后，我觉得最优秀的学生应该去搞企业。

因为人工智能给企业家做的重新的定义，刚才说人工智能会定义一切，同时也定义未来的企业家。这里头未来的企业家应该具备这六个方面的职责。

我简单说一下重新定义价值的创造。人工智能不是给大家简单的提供产品和服务，而是把知识、伦理和应用变成可复用的工具，去实现对人类的造福，所以这个东西完全改变了，而且要把人工智能作为像水和电那样通用的技术交给人类，所以企业家的要求很高，包括关于治理问题。

对于企业家、对企业也必须把这个社会的责任担当起来，所以人工智能时代的企业家是有很多新的使命。

AI时代，企业家会变成光荣的、神圣的职业之一。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.