网易首页 > 网易号 > 正文 申请入驻

林俊旸离职后首度发声

0
分享至

3月26日晚间,前千问技术负责人林俊旸在x上发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判,这也是林俊旸自阿里离职后,首度发声。



原文:Junyang Lin (@JustinLin610)

翻译:文心一言(注:有错误的希望大家指正)

文本正文

过去两年重塑了我们评估模型的方式和对模型的期望。OpenAI 的 o1 证明了「思考」可以成为一种核心能力——一种你专门训练并向用户开放的能力。DeepSeek-R1 证明了推理风格的后训练可以在原始实验室之外被复现和规模化。OpenAI 将 o1 描述为一个通过强化学习训练的模型,让它「在回答之前先思考」。DeepSeek 则将 R1 定位为一个与 o1 竞争的开源推理模型。

那个阶段很重要。但 2025 年上半年主要是关于推理思考(reasoning thinking):如何让模型在推理时投入更多计算,如何用更强的奖励信号来训练它们,如何展示或调控额外的推理投入。

现在的问题是:下一步是什么?我认为答案是智能体思考(agentic thinking):为了行动而思考,同时与环境交互,并根据来自真实世界的反馈持续更新计划。

1. o1 和 R1 的崛起真正教会了我们什么

第一波推理模型教会了我们:如果想在语言模型中扩展强化学习,我们需要确定性的、稳定的、可扩展的反馈信号。数学、代码、逻辑和其他可验证领域成为核心,因为这些场景中的奖励信号比通用的偏好监督强得多。它们让 RL 能针对「正确性」而非「看起来合理」来优化。基础设施变得至关重要。

一旦模型被训练为通过更长的轨迹进行推理,RL 就不再是监督微调的轻量级附加组件,而变成了一个系统工程问题。你需要大规模的 rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是一个基础设施故事,也是一个建模故事。

第一个重大转变:从扩展预训练到扩展推理后训练。

2. 真正的问题从来不只是「合并思考和指令模式」

2025 年初,Qwen 团队中的很多人有一个宏大的愿景:理想的系统应该统一思考模式和指令模式。它应该支持可调节的推理力度,类似于低/中/高的推理设置。更好的是,它应该能从提示和上下文中自动推断合适的推理量,让模型自己决定何时立即回答、何时多想一会儿、何时为真正困难的问题投入大量计算。

概念上,这是正确的方向。Qwen3 是最清晰的公开尝试之一。它引入了「混合思考模式」,在一个模型家族中同时支持思考和非思考行为,强调可控的思考预算,并描述了一个四阶段后训练流程,明确包含了在长 CoT 冷启动和推理 RL 之后的「思考模式融合」。

但合并说起来容易,做好很难。难点在于数据。当人们谈论合并思考和指令时,往往首先想到模型端的兼容性:一个检查点能否支持两种模式,一个聊天模板能否在两者之间切换,一个服务栈能否提供合适的控制开关。更深层的问题是,两种模式的数据分布和行为目标有本质差异。

我们在试图平衡模型合并与提高后训练数据质量和多样性时,并没有完全做对:

  • 一个好的指令模型通常因直接、简洁、格式合规、低延迟而获得奖励——服务于重写、标注、模板化客服、结构化提取和运营 QA 等重复性高吞吐企业任务。
  • 一个好的思考模型则因在困难问题上花更多 token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来切实提高最终答案的正确性。

这两种行为配置是相互拉扯的。如果合并数据没有精心策划,结果通常是两边都平庸:「思考」行为变得噪声大、臃肿或不够果断,而「指令」行为变得不够干脆、不够可靠,且比商业用户实际需要的更昂贵。

实践中,分离仍然有吸引力。2025 年晚些时候,Qwen3 的 2507 系列发布了独立的 Instruct 和 Thinking 更新,包括独立的 30B 和 235B 变体。在商业部署中,大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对于这些场景,合并并不是明显的好处。

其他实验室选择了相反的路线。Anthropic 公开倡导集成模型哲学:Claude 3.7 Sonnet 作为混合推理模型推出,用户可以选择普通回复或扩展思考,API 用户可以设置思考预算。Anthropic 明确表示,他们相信推理应该是一种集成能力,而不是一个单独的模型。

关键问题是合并是否有机。如果思考和指令只是被共同放置在一个检查点内,但仍然表现得像两个尴尬缝合的人格,产品体验就仍然不自然。真正成功的合并需要平滑的推理力度光谱。模型应该能表达多个层次的努力,并理想地在它们之间自适应选择。GPT 风格的 effort control 指向了这一点:一种关于计算的策略,而非一个二元开关。

3. 为什么 Anthropic 的方向是有益的矫正

产生更长的推理轨迹并不会自动让模型更智能。在很多情况下,过多的可见推理痕迹反而暴露了糟糕的计算分配。如果模型对什么问题都用同样冗长的方式推理一遍,说明它无法有效排序优先级、无法精简压缩、也无法果断行动。Anthropic 的路线暗示了一种更克制的理念:思考应该围绕具体的任务目标来组织。

这种对目标效用的强调指向更大的东西:我们正在从训练模型的时代走向训练 Agent 的时代。Agent 是一个能制定计划、决定何时行动、使用工具、感知环境反馈、修订策略、并在长时间范围内持续运行的系统。它由与世界的闭环交互来定义。

4. 「智能体思考」到底意味着什么

智能体思考是一个不同的优化目标。

  • 推理思考
  • 通常以最终答案前的内部推导质量来衡量:模型能否解出定理、写出证明、产生正确的代码、或通过基准测试。
  • 智能体思考
  • 关注的是模型能否在与环境交互的同时持续取得进展。

核心问题从「模型能否思考足够长?」转变为「模型能否以一种维持有效行动的方式来思考?

智能体思考必须处理纯推理模型大多可以避免的几件事:

  • 决定何时停止思考并采取行动;
  • 选择调用哪个工具,以什么顺序;
  • 整合来自环境的嘈杂或不完整的观察;
  • 在失败后修订计划;
  • 在多轮和多次工具调用中保持连贯性。

智能体思考,就是让模型通过行动来推理。

5. 为什么智能体 RL 基础设施更难

一旦目标从解决基准测试问题转向解决交互式任务,RL 技术栈就变了。用于经典推理 RL 的基础设施不够用了。在智能体 RL 中,模型的策略被嵌入到一个更庞大的外围系统中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统和编排框架。环境不再是静态的验证器,它本身就是训练系统的一部分。

这创造了新的系统需求:训练和推理必须更干净地解耦。没有这种解耦,rollout 吞吐量就会崩溃。想象一个编码 Agent,需要在实时测试环境中运行它生成的代码:推理端卡在那里等执行反馈,训练端因为拿不到足够的完整轨迹而空转,整个管道运行远低于预期的 GPU 利用率。

环境本身也成为一级研究产物。在 SFT 时代,我们痴迷于数据多样性。在 Agent 时代,我们应该痴迷于环境质量:稳定性、现实性、覆盖范围、难度、状态多样性、反馈丰富度、防利用性和 rollout 生成的可扩展性。环境构建已经开始从边缘项目变成一个真正的创业品类。

6. 下一个前沿是更有用的思考

我的预期是智能体思考将成为主导的思考形式。它最终可能会取代大部分旧的静态独白式推理思考:那种过于冗长、孤立的内部轨迹,试图通过输出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健而高效地解决问题。

训练这类系统最难的挑战是奖励作弊(reward hacking)。一旦模型获得有意义的工具访问,奖励作弊就变得危险得多。有搜索能力的模型可能在 RL 期间学会直接搜索答案。编码 Agent 可能会利用代码仓库中的未来信息走捷径。存在隐性信息泄漏的训练环境,可以让模型表现看起来超越人类,但实际上只是在训练它作弊。

智能体思考也意味着工具架工程(harness engineering)。核心智能将越来越多地来自多个 Agent 如何被组织:一个规划和路由工作的编排者,充当领域专家的专业 Agent,以及执行更窄任务的子 Agent。未来是从训练模型到训练 Agent,从训练 Agent 到训练系统的转变。

结论

更深层的转变是从推理思考到智能体思考:从更长的思考到为了行动而思考。训练的核心对象已经改变了。它不再是单独的模型,而是模型加环境的系统。这改变了「好的思考」意味着什么:在真实世界约束下维持行动的最有用的轨迹,而不是最长或最可见的那个。

在推理时代,优势来自更好的 RL 算法、更强的反馈信号和更可扩展的训练管道。在 Agent 时代,优势将来自更好的环境、更紧密的训练-服务集成、更强的工具架工程,以及让模型的决策和决策带来的后果形成闭环的能力。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑成功39岁猝死,为何临终前要下令杀死自己的妻子、长子和孙子?

郑成功39岁猝死,为何临终前要下令杀死自己的妻子、长子和孙子?

小豫讲故事
2026-04-08 06:00:06
贵人缘爆棚,4月好运来了挡不住的3生肖,天降大喜横财入门!

贵人缘爆棚,4月好运来了挡不住的3生肖,天降大喜横财入门!

毅谈生肖
2026-04-09 10:18:12
外媒:“绝对不可能”!中国已经能制造出足以进行核聚变的超级钢

外媒:“绝对不可能”!中国已经能制造出足以进行核聚变的超级钢

阿纂看事
2026-04-03 21:10:57
崩得最彻底的专业,连985毕业生都哭诉:越努力越不幸!

崩得最彻底的专业,连985毕业生都哭诉:越努力越不幸!

黯泉
2026-04-05 20:49:28
女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

红星新闻
2026-04-08 19:52:16
5月起,80岁老人务必做好3项准备,安安稳稳过养老生活

5月起,80岁老人务必做好3项准备,安安稳稳过养老生活

小谈食刻美食
2026-04-09 08:33:21
华为10年花13820亿做研发,有啥用?苹果小米为啥跟华为不一样?

华为10年花13820亿做研发,有啥用?苹果小米为啥跟华为不一样?

老方
2026-04-08 21:11:34
35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

林轻吟
2026-04-02 19:51:37
779元滴眼液缺货暴涨至3382元?厂家、成都多家医院:正常发货,价格未变

779元滴眼液缺货暴涨至3382元?厂家、成都多家医院:正常发货,价格未变

红星新闻
2026-04-09 13:37:17
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
收复台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

收复台湾后,第一任省长由谁担任最合适?五人上榜,一人脱颖而出

探源历史
2026-01-11 11:24:43
医学奇迹落地!我国突破阿尔法同位素技术壁垒,癌症患者有救了?

医学奇迹落地!我国突破阿尔法同位素技术壁垒,癌症患者有救了?

宏哥谈商道
2026-04-05 19:00:06
因太漂亮被导演“收入囊中”的4位女星,有一位戏没拍完就怀孕了

因太漂亮被导演“收入囊中”的4位女星,有一位戏没拍完就怀孕了

雅儿姐游世界
2026-04-05 14:48:13
一顿南京宴席,掀开国民党遮羞布:路线不敢讲,迟早被现实逼出来

一顿南京宴席,掀开国民党遮羞布:路线不敢讲,迟早被现实逼出来

混沌录
2026-04-09 15:01:15
万斯在匈牙利发表重磅演讲,还抨击泽连斯基,泽连斯基请求和谈!

万斯在匈牙利发表重磅演讲,还抨击泽连斯基,泽连斯基请求和谈!

常高俊AprilI18N
2026-04-09 13:28:54
陈丽华离世,最让她魂牵梦绕的,既不是子女,也不是迟重瑞

陈丽华离世,最让她魂牵梦绕的,既不是子女,也不是迟重瑞

小光侃娱乐
2026-04-09 12:45:03
广州同学聚会吃了16万6,请客的人付完钱先走,剩下的人却翻脸了

广州同学聚会吃了16万6,请客的人付完钱先走,剩下的人却翻脸了

诡谲怪谈
2025-06-09 08:45:42
刚从法国回来,说点不中听的:法国的真实面目,可能让你很意外

刚从法国回来,说点不中听的:法国的真实面目,可能让你很意外

复转这些年
2026-04-09 11:47:29
万科史诗级清算!9 大高管全军覆没,连退休 8 年的王石都跑不掉

万科史诗级清算!9 大高管全军覆没,连退休 8 年的王石都跑不掉

宏哥谈商道
2026-04-06 19:00:06
“这种衣服咋能穿出门?”女孩被3.9万人围观,家教太松不是好事

“这种衣服咋能穿出门?”女孩被3.9万人围观,家教太松不是好事

妍妍教育日记
2026-03-08 08:00:10
2026-04-09 16:03:00
互联网坊间八卦 incentive-icons
互联网坊间八卦
多平台入驻
5922文章数 6883关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

合资3.0革命性重构,文飞与神行者背水一战

态度原创

家居
艺术
亲子
旅游
公开课

家居要闻

清新自然 复古风尚

艺术要闻

庞茂琨 2026油画写生新作

亲子要闻

谁能拒绝一只软乎乎的小羊包啊

旅游要闻

新华视点|文旅融合消费升级 春日经济活力涌动

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版