姚顺雨、杨植麟、林俊旸、唐杰罕见同台，决定中国大模型未来的天才都来了|张鹏|唐廷枢|kimi

分享至

摘要：

这些清华学子不仅握有核心资源，也帮助中国大模型在全球市场取得了显著的影响力。

凤凰网科技出品

作者｜赵子坤、董雨晴

编辑｜董雨晴

2025年，是清华当之无愧的收获年。凤凰网科技不完全统计，目前各大互联网公司、头部大模型创业公司的掌舵者，已多数出自清华，如智谱创始人唐杰、CEO张鹏，月之暗面Kimi创始人兼CEO杨植麟，腾讯CEO/总裁办公室首席AI科学家姚顺雨，他们中智谱刚刚拿下“全球大模型第一股”，Kimi也顺利超额完成C轮融资，27岁的姚顺雨以高光掌舵腾讯核心模型研究任务。

可以说，这些清华学子不仅握有核心资源，在全球市场都具有显著的影响力，都是AGI决赛圈的中国种子选手。

1月10日，凤凰网科技现场参与了由清华大学基础模型北京市重点实验室低调发起的一场名为AGI-Next的前沿峰会，与会人物除了前述提及的三人，还包括Qwen技术负责人林俊旸。他们要探讨的，正是迈向AGI下一阶段的关键路径。

在他们身后，是中国开源大模型力量在全球舞台上的集体崛起。

三个清华学霸顶峰再相见

今天之所以会有这场观点交锋，故事可以追溯到2006年，在获得清华大学计算机科学与技术专业工学博士学位后，唐杰拒绝了诸多大公司伸出的橄榄枝，放弃高薪职位，选择留在清华大学担任老师。

他自小喜欢编程，高中时期物理成绩就非常优秀。2006年，在加入清华后，便投身到了KEG（清华大学计算机系知识工程实验室）。当时，谷歌在学术界硕果累累，唐杰觉得国内缺少一个同等能量的学术引擎，这一年，他和同门师兄弟，开始了AMiner系统的搭建。这是一个汇集了众多研究者档案的平台，当时便为阿里和腾讯等大公司提报了不少线索支持。

一直到2010年，AMiner的系统用户已覆盖180个国家，平台创造了3年52万独立IP访问记录。研究成果还在与IBM、Google、Nokia、搜狐的多个国际合作和企业合作项目中得到推广应用。

这个清华园的技术成果最终转化为了智谱的前身，2019年，在中科创星的早期孵化下，瞄准自然语言处理与知识图谱，智谱华章正式诞生。现如今的智谱CEO张鹏，同样毕业于清华大学，并在2005年加入了清华大学知识工程实验室。

早在OpenAI发布GPT1时，中科创星就敏锐预判到，自然语言处理、知识图谱是机器视觉（CV）之后，AI行业最重要的技术发展方向。

这个早期观点，一直到2021年，GPT3发布才成为行业共识。即便如此，由于当时国内早期主打CV视觉的AI四小龙频频碰壁，使得国内AI赛道正在经历惨淡的低谷期，没有人在其上押注。

2023年前五个月，后来成为中国大模型起跑的关键月份，期间月之暗面Kimi、百川智能、阶跃星辰、零一万物中国大模型六虎终于全数成立完成，掌舵者半数来自清华。2023年7月，梁文锋带领的幻方量化做了一个重要决定，自己下场展开大语言模型研究，此后DeepSeek诞生。

只用了一年半时间，就扭转了全球的竞争赛点，在这种架构创新的氛围下，今天高峰论坛里的各方力量贡献着自己的创新观点。

姚顺雨对模型分化的看法，是AI应用正沿着To B与To C两条路径分化。在消费端，ChatGPT类产品对普通用户更像是“搜索引擎增强版”，体验迭代感知不强；而在企业端，“智能即生产力”的逻辑让客户愿为最强模型支付高溢价。“强的模型和弱的模型分化会越来越明显。”

“分化是自然的分化，我更愿意相信AGI，做AGI该做的事情，顺其自然。”阿里千问大模型技术负责人林俊旸则从市场差异切入，指出一个被忽略的事实：在中国，Coding消耗量没有那么大，而美国市场则“基本上全都是Coding”。

在最受关注的“中美竞争”议题上，观点出现微妙分野。

姚顺雨展现乐观，认为中国在技术复现和工程优化上优势明显。关键突破点在于算力自主（光刻机）、To B市场成熟度，以及最重要的——“更多有冒险精神的人去引领范式突破”。

提及中美的研究文化之差异时，姚顺雨说，“在中国，大家更喜欢做更安全的事情。只要这件事情一旦被证明能做出来，我们都很有信心，几个月或者一段时间内就把这个问题搞清楚，但如果这个事情大家不知道怎么做、不知道能不能做起来，还是比较困难的。可能不只是更喜欢做确定性的事情、不太愿意做创新性的事情，很重要的一点是文化的积累或者整体的认知。”

他还提及，中国对刷榜或者数字看得更重一点。“DeepSeek比较好的一点，是没有那么关注榜单的数字，可能会更注重，第一，什么是正确的事情；第二，什么是你自己能体验出好或者不好的……还是需要大家能够走出这些榜单的束缚，能够坚持自己觉得是不是正确的过程。”

面对“三五年后，最领先的那个公司，是一家中国公司的概率”的假设，林俊旸则给出20%的谨慎预估。他观察到核心差异，“美国的Computer可能整体比我们大1-2个数量级”，美国将更多算力投入前沿研究，中国算力则被交付需求占据。

“创新是发生在有钱人手里还是穷人手里？我们虽然是一群穷人，是不是穷则生变，创新的机会会不会发生在这里？”林俊旸说。

唐杰则从代际视角提供新解：“90后、00后这一代企业，远远好过之前。”他强调，中国机会在于敢冒险的聪明人、改善的创新环境，以及“笨笨的坚持”。

四位推动中国大模型开源革命的关键人物落座

2015年，姚顺雨以安徽省理科第三的成绩考入清华姚班。2018年，按姚班传统赴麻省理工学院交流，系统性切入AI研究。2019年，他进入普林斯顿大学，将主攻方向从计算机视觉转为更具通用潜力的自然语言处理与强化学习，并最终以智能体研究闻名。在当时，这就是一种“乖学生”的按部就班。

2024年8月，姚顺雨加入OpenAI担任研究科学家，是OpenAI首批智能体产品 Operator 和 Deep Research的核心贡献者，致力于将大模型从理论研究推向实际应用。在《麻省理工科技评论》“35岁以下科技创新35人”入选评语中写着，姚顺雨为语言智能体方向的开启和发展做出了基础性贡献。他提出了 ReAct 方法，首次引入“推理—行动”结合的智能体范式，为创建具备通用性、可扩展性的语言智能体奠定了基础。

2025年也成为了姚顺雨的转折年，凤凰网科技在当年9月获悉，姚顺雨规划回国，并接触了多家大厂。这个转折直到2025年12月才揭晓，姚顺雨正式加入腾讯并出任首席AI科学家，同时兼任新成立的AI Infra部及大语言模型部负责人，全面负责腾讯大模型研发体系。

姚顺雨加入腾讯后的首次公开露面贡献给了这个重要的场合。席间落座的四位核心人物，各自代表了中国大模型开源革命的不同力量，他们的发展路径与决策正影响着全球AI格局。

唐杰作为清华大学计算机系教授与智谱的创始人，其职业生涯完美体现了清华系“学术研究-技术转化”的模式。

其在现场表示，智谱从2019年研究至今，见证了大模型行业的变化，智能水平已大幅提高，从早期简单问答到如今能处理复杂推理、编程乃至真实世界问题。模型通过知识记忆、推理训练、强化学习等阶段演进，但泛化能力仍需提升。“我们认为当前大模型范式已接近上限，下一步需探索新方向，让模型具备更强的自主交互与复杂任务解决能力。”

在智谱AI上市当日，唐杰曾发布内部信，宣布“很快将推出新一代模型GLM-5”，他也明确表示2026年战略将全面回归基础模型研究，似是为探索超越Transformer的全新模型架构做准备。

颇为巧合的是，2025年末，杨植麟曾宣布月之暗面完成了5亿美元C轮融资，公司估值达43亿美元。他在内部信中毫不掩饰雄心：“接下来公司最重要的目标是超越Anthropic等前沿公司成为世界领先的AGI公司。”

对于下一代K3模型，杨植麟透露将融入重大的架构变革。2025年11月，他在Reddit论坛上表示：“KDA（Kimi Delta Attention，一种线性注意力模块）是我们最新的实验性架构，相关想法很可能会在K3中使用。”

这种线性注意力机制有望带来更长的上下文处理能力，对其社交应用和智能体至关重要。

杨植麟也在此次分享上表示，Kimi的预训练策略围绕两个维度：一是提升数据效率，即用更少数据达到相同效果；二是优化长上下文能力，使模型在更长上下文中损失更低，以支持复杂任务。Kimi采用二阶优化器，相比传统一阶优化器，在达到相同效果时可节省约50%的计算量，等价于提升一倍的训练效率。

在强化学习与模型调优方面，Kimi在多项复杂任务上达到或超越国际先进水平，尤其是在代码生成与长序列任务上表现突出。模型能够进行连续多轮工具调用与推理，完成复杂问题求解。

Kimi认为，模型不仅是工具，更是人类认知的延伸，能够提升文明上限。尽管存在风险，但应继续推进技术发展，因为放弃开发意味着放弃人类进步的可能。

林俊旸及其领导的阿里通义千问团队是兵团式作战，他们早在2023年时训练千问大模型时，就曾尝试改很多东西，但最终发现Transformer确实挺好用的。因此，在此后的一年多时间里，团队都在围绕着共识做动作。一直到2025年，千问团队的注意力转向了非共识，寻找新的架构创新。

这些敢于从0-1探索的态度，既来源于DeepSeek的创新启示，也来自于全球化开源战争格局的变化。

就在2天前，DeepSeek一口气将其核心研究论文从原20页大幅扩展至86页，详细披露了R1模型的技术细节与性能提升。证明了不依赖海量标注数据，通过精心设计的纯强化学习（RL）也能让模型获得顶尖的推理能力。这为行业提供了一套可复现的“算法驱动”新范式。

此外，在2026年开年第一天，DeepSeek发布了梁文锋参与署名的文章，即全新的流形约束超连接（mHC）架构，它旨在解决当前大模型（尤其是采用“超连接”扩展后）训练不稳定、内存开销大的根本问题。

无论是R1的RL训练配方，还是mHC的稳定架构，都让更多研究机构和公司有望在有限算力下探索前沿模型，可能催生更多创新。

DeepSeek将技术细节公开到教科书级别，树立了开源的新标杆。这种极致透明加速了全球范围内的技术验证与迭代，对闭源模型形成了独特的竞争压力。

2025年，是毫无疑问的中国开源模型的胜利年。

公开数据显示，截至2025年8月，阿里通义已开源200余个模型，全球下载量超3亿次，千问系列衍生模型突破10万个，远超 Meta的Llama系列，更一跃成为全球最大的开源模型家族。甚至，彭博社曾爆出，Meta最新AI模型“牛油果”项目正在秘密使用中国阿里巴巴的千问Qwen开源模型进行蒸馏训练。智谱同样打破了海外模型霸榜的局面，首次杀入top10名单。

站在2026年开局新起点，在中国取得的巨大进展之上，新的范式会不会就此碰撞而来？期待新创新的诞生。

以下是针对本次峰会提炼的现场金句：

主持人拾象科技CEO李广密

● “2025年是中国开源模型大放异彩的一年，是开源四杰在全球大放异彩的一年，而且是Coding过去一年有10-20倍增长的一年。”

● “硅谷几家明显做分化……专注到了企业，专注到了Coding，专注到了Agent。我也在想接下来中国的模型会分化成自己想要的哪些方向？”

● “Agent今天可以在后台推理3-5个小时，做人类1-2天的工作量，大家期待2026年可以做人类正常工作1-2周的工作量……2026年Agent可能是创造经济价值的关键一年。”

姚顺雨

● “Coding夸张一点来讲，已经在重塑整个计算机行业做事的方式，人已经不再写代码，而是用英语和电脑去交流。”

● “对于TO B来说，很明显的一点是，智能越高，代表生产力越高，值钱的也越来越多。”

● “很多人愿意花溢价用最好的模型……强模型和稍微差点，或者弱的模型它的分化会越来越明显。”

● “对于To B来说，这个趋势似乎是相反的，模型在变的越来越强、越来越好，但同样会有很多应用层的东西应用好的模型在不同的生产力环节。”

● “这个事情想要变好，不是说你需要更大的模型、更强的预训练、更强的强化学习、更强的Agent环境或者更强的搜索引擎，这个问题可能需要更多额外的输入，把额外的输入用好，反而会给用户带来很多额外的价值。”

● “这个事情已经在发生了，可能效率或者受限制的限制，有各种各样的问题，它更像是一个渐变，不是突变。”

● “很多人说2026年看到（自主学习的）信号，我觉得2025年就看到信号了。”

● “如果2026年或者2027年我们有一个范式的发生……我们应该用什么样的任务，它应该是什么样的效果，你会相信它实现了？我觉得可能需要先想象到它长什么样。”

● “目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做的更好。”

● “中国想要突破新的范式或者做非常冒险事情的人可能还不够多……我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题。”

林俊旸

● “公司也不一定有那么多基因之分，一代一代的人可能就塑造了这些公司。比如说今天顺雨到腾讯之后，可能腾讯变成一个有着顺雨基因的公司。”

● “我更愿意相信AGI，做AGI该做的事情，顺其自然。”

● “今天AI更大的魅力是在长尾……今天所谓的AGI就在解这个问题，你做通用Agent，能不能把长尾的问题给解决，全世界任何一个角落，寻遍各处都找不到，但是你却能帮我解决，这就是AI最大的魅力。”

● “大量的技术所谓的突破性都是一些观测问题，都是在线性发展的，只是人类对它的感受非常强烈而已。”

● “我们的模型为人类社会带来了什么样的价值，只要我相信我这个东西能够为人类社会带来充分的价值，能够帮助人类，就算不是最强的，我也愿意接受。”

● “我非常担心安全的问题，不是担心它今天讲一些不该说的话，最担心的是它做一些不该做的事情……就像培养小孩一样，我们要给它注入一些正确的方向。”

杨强

● “工业界可能还没来得及解决的一些问题，智能上界在哪里。”

● “哥德尔不完备定理，大概意思是说一个大模型不能自证清白，必定有一些幻觉不可能消灭掉……多少资源能够换取多少幻觉的降低或者错误率的降低，这是有一个平衡点的。”

● “Agent应该是由大模型内生的一个native的系统。”

● “我们可以回顾一下互联网的发展，一开始也是从美国开始，但中国很快就赶上了，而且应用像微信，是世界第一的。”

唐杰

● “这一仗从DeepSeek出来之后，已经没有了，已经结束了。DeepSeek之后我们应该想的是下一仗是什么东西？”

● “我们对今年会有非常大的范式革新有信心。”

● “之前，工业界有1万片，学校是0片或者1片，倍数是1万次，但是到现在，很多学校已经有很多卡了。”

● “最笨的办法就是Scaling，Scaling我们会有收益，Scaling肯定会带来智能上界的提升。第二个办法是应该定义Intelligence efficiency，也就是智能的效率，我们获得智能的效率，我们用多少投入能获得这个智能的增量。”

● “大模型到现在更多的是在拼速度、拼时间，也许我们代码正确了，就会在这方面走的更远一点，但也许失败，半年就没了。”

● “我们这一代最不幸运……世界已经交给下一代了，已经把我们这一代无缝跳过了。”

● “如果我们笨笨地坚持，也许走到最后的就是我们。”

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.