姚顺雨“露脸”，和唐杰杨植麟探讨AGI之路|模态|吴恩达|agi|唐廷枢|kimi

分享至

“我相信今年可能是AI for Science的一个爆发年，因为很多能力大大提升，我们可以做更多的事情。”在昨日举行的AGI-Next前沿峰会上，清华大学教授、智谱首席科学家唐杰这样说道。

据了解，该峰会由清华大学基础模型北京重点实验室发起，旨在探讨全球AGI发展的新范式与面临的挑战。

活动还邀请了Kimi创始人、CEO杨植麟，阿里Qwen技术负责人林俊旸，加拿大皇家学院院士、香港科技大学荣休教授杨强，以及此前被腾讯高调官宣的CEO首席科学家姚顺雨参与了报告和分享，中国“开源四杰”一次聚齐了三家。

“开源四杰”是DeepLearning.AI创始人、斯坦福大学兼职教授吴恩达给出的定义，他曾在社媒上表示，尽管美国在顶尖闭源模型上保持优势，但在开源领域，中国的DeepSeek R1、Kimi K2、Qwen3和GLM-4.5等模型已经领先于美国最好的开源产品。

最近一段时间，中国大模型企业也在资本市场上动作不断。就在本场峰会举办的前三天，智谱刚刚在港交所敲钟上市。本周，智谱股价已上扬至158港元，市值来到700亿港元。

而在几周前，月之暗面方面宣布刚刚完成了一轮5亿美元规模融资，投后估值来到43亿美元。

“开源四杰”中未能在本次活动现身的DeepSeek，也在近期传出将在今年2月中旬推出DeepSeek V4的传闻，外媒报道称其将具备更强的编码能力。

2026刚刚开年，中国大模型围场已经热闹起来。

“大模型应对GDP产生

5%-10%的影响”

在圆桌座谈环节，姚顺雨并未现身活动现场，而是远程加入了这场关于AGI新范式的讨论。

“对于ToC来说，大部分人不需要用到这么强的智能。今天用ChatGPT和去年相比，写交换代数和伽罗瓦理论的能力变强了，但是大部分人基本感受不到。”在谈及对模型路线分化的看法时，姚顺雨表示，大模型在ToC和ToB，以及模型和应用分层两个维度上，都发生了明显的分化。

“AI Coding夸张一点来讲，已经在重塑整个计算机行业做事的方式，人不再是写代码，而是用自然语言和电脑去交流。”在姚顺雨看来，ToB行业正呈现一个模型分化趋势，即大部分用户其实更倾向于用最强的模型。“最好的模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月。我们发现像很多美国人愿意溢价用最好的模型。”

在姚顺雨看来，AI在ToC应用上的垂直整合已经看到效果，无论是ChatGPT还是豆包，模型和产品是强耦合、紧密迭代的，“但对于ToB而言，这个趋势似乎是相反的，模型在变得越来越强、越来越好，但同样会有很多应用层的东西，应用好的模型在不同的生产力环节。”

“这一仗从DeepSeek出来之后，已经结束了。”说起模型分化，唐杰坦言，DeepSeek在2025年初的横空出世，已经终结了大模型排队做对话和搜索的时代，让他开始思考下一阶段一定要“让AI做一件事情”。他表示，在和团队争论很久后，才决定把重心放在Coding上。

而在谈到当下RL（强化学习）正成为行业主流训练方式时，尤其是RLVR（编者注：可验证奖励强化学习，一种在既定标准下的机器自主学习），姚顺雨给出了他的观察。

“现在自主学习是一个非常热门的词，在硅谷的大街小巷，甚至路边的咖啡馆里，大家都在谈论。”谈及模型自主学习的技术路线，姚顺雨表示，自主学习会面临“在什么场景下，基于什么奖励函数做”的问题，比如掌握某一业务场景的代码能力，和学习某一种自然科学，是完全不同的自主学习方法论。

“这个事情其实已经发生了。”姚顺雨提到，OpenAI就在利用用户数据不断弥合人聊天的风格，Claude已经为自身这个项目完成了95%的代码，这都可以算是一种自主学习。

在姚顺雨看来，自主学习在过去一年中已出现清晰信号。他提到，Cursor团队已在真实环境中，实现按小时级别用最新用户数据持续学习与迭代，尽管受限于预训练能力，整体效果仍不及OpenAI，但路径的可行性已被证明。

“我对今年会有非常大的范式革新有信心，在持续学习、模型记忆能力，甚至多模态领域，都有可能出现新的范式变革。”在唐杰的表述中，这份信心来源于在大模型研发领域，学术界正在跟上工业界的脚步。

“两年前，一些高校老师手上都没有卡（算力），如今很多高校都有了算力配置，也开始进行大模型架构、持续学习的相关研究。”在唐杰看来，学术界已经加速铺开AI研究的土壤，有望孵化出新的创新种子。

“一个创新的出现，一定是某个事情有大量的投入，并且它的Efficiency（这里指模型训练的投入产出比）到了瓶颈。”唐杰进一步解释这一观点。他表示，如果AI行业继续Scaling，尽管这样做仍会有收益，但当成本到达某一个数量级，就需要训练范式的创新。

“一方面既然要Scaling up，Scaling肯定会带来智能上界的提升；但同时应该定义Intelligence Efficiency，即智能的效率，用更少的投入获得智能的增量。”唐杰这样总结他对未来模型训练范式的观察。

另一边，作为Agent领域的知名研究学者，姚顺雨也分享了他对Agent迭代的前瞻。

“目前看来，ToB或者说生产力Agent才刚刚开始。”姚顺雨表示，即使今天开始，世界上所有的模型训练全部停止，但是把这些模型部署到企业中，已经能带来10倍甚至100倍的收益。“大模型应对GDP产生5%-10%的影响，但是今天它对GDP的影响还不到1%。”

而在唐杰看来，判断一个Agent的功能逻辑是否成立，首先要看它是否真正解决了对人有价值的问题。早期不少Agent看似复杂，但最终发现通过更好的Prompt或基础能力即可完成，独立Agent的存在价值随之消失。

“基座的应用永远是矛盾。”唐杰表示，如果实现成本过高，而调用现成API就能解决，Agent的合理性就会被削弱；但一旦需求价值足够大，基座模型又可能把能力直接吸收进来。

对于Agent的演进，加拿大皇家学院院士、香港科技大学荣休教授杨强将其划分为四个阶段：从目标与规划均由人定义，到逐步由模型参与，再到完全由大模型内生完成。他指出，当前阶段的Agent仍高度依赖人工设定，本质是工具化系统；真正的拐点在于模型开始观察人类工作并利用真实数据，进而自主生成目标与行动路径。

对于Agent的未来，杨强给出了他的定义：“Agent应该是由大模型内生的一个native系统。”

“很多时候不是说人类替代了人类工作，而是会使用这些工具的人，在替代那些不会使用工具的人。”姚顺雨的另一个观察，来自AI时代大众对大模型认知的参差。

“今天中国能做到一个很有意义的事情，是更好的教育，教育大家怎么更好地使用大模型产品。”姚顺雨如是说道。

Scaling仍在继续，

但训练范式在变

“今年是RLVR（可验证奖励强化学习）爆发年。”谈及Scaling模式的进化，唐杰表示，在RLVR爆发之前，行业内只能通过人类反馈数据来做，但人类反馈的数据中“噪音”也非常多，而且场景也非常单一。“但如果我们有一个可验证的环境，就可以让机器自己去探索、去发现反馈数据，实现自我成长。”

唐杰所说的RLVR，是指在推理训练中，只对模型最终是否完成目标给反馈，而不评判表达方式或推理风格。系统会依据预设规则自动判断结果：如数学是否得到唯一正确解、代码是否通过测试。模型在多次尝试中，仅当结果被验证成功时才获得奖励，失败则不奖励，从而调整其推理策略。

RLVR的反馈可自动生成、标准一致，因此同一套推理任务可以被反复、大规模（scaling）用于训练。

“大家可能会问，是不是智能越来越强，我们直接把模型不停地训就行了？”在报告环节，唐杰抛出了这样一个问题。他表示，2025年初，DeepSeek的横空出世给了业内很多“震撼”，标志着大模型已经基本解决了Chat（对话）和搜索部分，“这个范式可能基本上快到头了，剩下更多的反而是工程和技术上的问题。”

“今天（行业内）训练的范式发生了很大变化。过往我们不管做什么事情，都会由人工将输入和输出标注出来。”在发言中，阿里Qwen大模型负责人林俊旸同样提及了模型的训练范式。他表示，早期训模型时，只要有标注的数据，有“输入”和“输出”就可以进行训练，“现在则是要把更多的数据，放到实验中去训练。”

林俊旸以xAI为例进一步解释了这一观点。xAI团队此前在直播中透露，Grok 4在RL（强化学习）阶段投入的算力，是市面上其他任何模型的10倍以上。

“如此大规模的RL的数据，我虽然觉得他们有点浪费，但另一方面也意味着RL有很多的想象空间。”林俊旸说道。

“我们发现可能基于MUON二阶优化器，它的效果会非常好，体现在它有两倍的Token Efficiency的提升。”在月之暗面CEO杨植麟的分享中，他反复提到Token Efficiency这个概念，“你的Token Efficiency越高，意味着你可以用尽可能少的Token得到一样的效果。”

杨植麟提到的Muon，是一种用于大模型训练的优化器。在训练过程中，模型会不断计算预测结果与正确答案之间的误差，优化器的任务就是根据这个误差，计算参数该如何更新。优化器不决定模型上限，但会直接影响训练所需的Token数量和算力成本。

“我认为基于先验实现AGI，可能会更早发生。”总结个人观察时，杨植麟表示，Agent训练本质是一个搜索问题：在大量可能的行动与推理路径中，找到有效解。更强的基础模型和预训练，相当于提供更好的先验（Prior，已有知识与约束），能提前排除大量无意义或错误的尝试，从而减少搜索空间、提升Token Efficiency。

“什么是Agent最基础的能力？是编程，（任何）计算机完成编程动作，就可以执行。”唐杰这样解构Agent的技术逻辑。他在现场举例说明，不管是Claude的Computer Use，还是几周前刚刚发布的豆包手机助手，抑或是名声大噪的Manus，“异步”执行都是一个关键属性。

“帮我搜集一下，今天关于清华大学在小红书上所有的讨论，然后将关于某某的全部整理出来，生成相关的文档。”唐杰举例说明，像这样一个任务，往往要经历几十步，甚至上百步流程。AI必须在后台自动运行、持续判断与执行。换言之，大模型在Agent和Coding上的能力，将是一个映射在Device Use（设备端侧使用）上的命题。

在总结环节，唐杰进一步阐释了他的理念，“在我看来计算机有三个能力：第一，计算机的表示和计算；第二，编程；第三，本质上是搜索。”他认为，正是这三种能力的叠加，使计算机具备了走向“超级智能”的潜力。

回到训练层面上，唐杰坦言，他认为Scaling仍将继续，但重点正在发生变化，“已知的是我们不断加数据、不断探索上限。还有Scaling未知，就是我们不知道的新的范式是什么。”

做大模型要敢于冒险，

走出榜单的束缚

展望下一个AGI的范式和行业未来，唐杰毫不掩饰作为AI研究学者的审视态度：“我们做了一些开源的成功，可能有些人会觉得很兴奋，觉得中国的大模型好像已经超过美国了，但可能真正的答案是，我们的差距目前并未缩小。”

正视挑战和差距的同时，唐杰也分享了他眼中的国产模型发展方向。在他看来，2025年只是多模态适应的适应期。未来关键在于，模型能否像人类一样，把视觉、声音、触觉等信息统一整合，形成原生、多源协同的整体感知能力，这是多模态能力跃迁的核心难题。

唐杰进一步指出，大模型在记忆、持续学习与自我认知上仍明显不足。当前模型缺乏分层记忆结构，如何把个人记忆扩展为可长期保存的人类集体知识，并在此基础上探索反思与自我认知能力，将是下一阶段最具挑战、也最值得投入的方向。

“目前的模型已经有一定的反思能力，但如何形成自我认知还是很难的问题。”唐杰表示，对于大模型是否能有自我认知，在基础模型研究领域一直都存在争议，“我觉得模型的自我认识是有可能的，这个领域值得我们探索。”

“在国内，大家对于刷榜或者数字看得更重一些。”在对话中，姚顺雨对当下的AI研究文化也给出了个人视角的观察。他以DeepSeek为例阐述这一观点：“他们（DeepSeek）就没有那么关注榜单的数字，反而会更注重：第一，什么是正确的事情；第二，什么是你自己能体验出好或者不好的。”

他进一步举例，Claude可能在编程或者软件工程的榜单上并非排名最高，但却获得了业内公认的好评。“这需要大家能够走出榜单的束缚，在体验上去感受是不是正确的过程。”

“我们到底能不能引领新的范式，这可能是今天中国AI产业唯一要解决的问题。”姚顺雨坦言，“其他所有做的事情，无论是商业、产业设计还是做工程，我们某种程度上已经比美国做得更好。”

“我还是挺乐观的。”这位1998年出生的AI顶尖学者表示，任何一个新业态一旦被发现，在中国就能够很快复现，甚至局部做得更好，“在制造业、新能源车领域，这样的例子已经不断发生。”

在唐杰看来，中国AI产业的机会，在于聪明且敢冒险的年轻人，在于持续改善的营商环境；而在产业中的每个人身上，“就是我们能不能坚持，能不能在一条路上敢做、敢冒险。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.