网易首页 > 网易号 > 正文 申请入驻

改变强化学习范式,Meta新作呼应Sutton「经验时代」预言

0
分享至



机器之心报道

编辑:张倩、泽南

从数据时代到经验时代,怎么平滑过渡?Meta提出了新见解。

前段时间,图灵奖得主 Richard Sutton 与谷歌 RL 大佬 David Silver 合作撰写的《Welcome to the Era of Experience(欢迎来到经验时代)引发了广泛关注。他们在文中指出,人类数据已接近极限,AI 智能体若想突破天花板,必须像人类和动物一样,通过与环境持续互动生成「经验流」,并通过强化学习实现自主提升。也就是说,AI 智能体将迎来「经验时代」,这是重大的范式转变。

然而,在许多环境中,基于经验数据使用强化学习来训练智能体仍然面临挑战。一方面,这些环境往往缺乏可验证或密集的奖励信号 —— 尤其是在开放式场景中(例如网页环境通常不会返回明确的任务反馈);另一方面,智能体可能需要在长时间跨度内进行低效的探索与泛化,例如跨多轮的工具使用或复杂交互流程。

目前大多数语言智能体采用监督微调(SFT)从专家示范中学习,以避免依赖奖励信号。虽然这种方法训练高效,但缺乏环境交互,无法从失败中学习或主动探索,同时对高质量专家数据依赖强、成本高、泛化性有限。因此,一个关键问题浮出水面:如何让智能体在没有外部奖励的情况下,从自身经验中学习成长?

上周末,一篇来自 META 超级智能实验室(MSL)、FAIR、俄亥俄州立大学的研究为该问题提供了一种解法。

他们创新性地尝试使用一种介于模仿学习与强化学习之间的中间范式来解决上述问题,它被称为「早期经验」:智能体不仅从人工整理的数据中学习,还从自身在环境中执行动作后产生的未来状态中学习。这些未来状态代表着智能体的「自身经验」,可以被转化为监督信号,使其能够直接从行动后果中成长,而无需依赖外部奖励。

在这个范式中,研究人员探索了两种使用此类数据的策略:

  • 隐式的世界建模,它使用收集到的状态作为环境动态策略的基础;
  • 自我反思,智能体从其次优行为中学习,以改进推理和决策。

基于这一方法,Meta 成功地将智能体完成任务的成功率提升了 9.6%,分布外泛化能力提升了 9.4%。这为后续 RL 继续突破人类天花板铺了一条快速通道。



  • 论文标题:Agent Learning via Early Experience
  • 论文链接:https://arxiv.org/abs/2510.08558

方法概览

为了帮助大家理解早期经验范式,研究者在论文中给出了一个例子:想象一个语言智能体要学习如何在网页上预订航班。在传统的模仿学习中,它只能看到专家成功预订的示范过程。而在「早期经验范式」中,智能体还会探索当它点击不同的按钮或错误填写表单时会发生什么,观察错误提示、页面跳转以及其他结果。这些观察会成为无需显式奖励的学习信号。从专家轨迹出发,智能体在每一个访问到的状态下都会尝试提出自己的行动,通过探索来收集额外的环境反馈。



下图 2 展示了两种「早期经验」方法:

  • 隐式世界建模(左图)通过为专家轨迹添加替代动作及其预测的下一个状态,使策略在部署前就能够内化环境的转移动态。
  • 自我反思(右图)则在专家动作的基础上加入智能体自生成的解释 c_1,让策略学会推理并修正自身决策。

这两种方法都使用由初始策略(LLM)提出的替代动作。替代动作的数量(K)是一个超参数;为简洁起见,图中仅展示了一个示例。



隐式世界建模

作者将世界建模表述为一项辅助预测任务,它能帮助智能体从自身早期经验中内化环境动态。在本文的设定中,状态完全以自然语言来表示,这使作者能够将下一状态预测建模为标准的下一个 token 预测目标。受先前关于将 LLM 训练为世界模型的研究的启发,他们使用从 rollout 数据集 D_rollout 中获得的下一个状态,作为语言智能体策略 π_θ 的直接训练信号。

例如,在网上预订航班时,模型可能会预测输入无效日期后的页面状态,并从文本错误信息中学习,将其作为下一状态的自然语言表示。这种设计无需单独的模块,并且自然地融入了大型语言模型的微调范式。

这一训练目标鼓励模型去捕捉环境行为中的规律,包括常见的状态转移、附带效应以及无效动作的结果。不同于推理时用于规划的显式世界模型,本文中的隐式建模方式将预测信号直接整合进策略学习中,作为监督学习或后续优化前的轻量级「预热」阶段。

这种方法让智能体能够接触到多样的、非专家的行为数据,从而提升对分布变化的鲁棒性,并减少对脆弱的专家轨迹的依赖。实践中,rollout 数据的规模通常比专家数据集 D_expert 大一个数量级。作者采用两阶段训练流程:首先利用 L_IWM(隐式世界建模)来学习环境的粗略动态,然后在 D_expert 上进行微调(即 L_IL 阶段)。

自我反思

作者将「自我反思」形式化为一种机制,使智能体能够从自身的探索结果中学习。与仅依赖专家的状态 — 动作对不同,智能体在每个状态下会将专家动作与从自身策略中采样得到的替代动作进行比较,并根据它们产生的后续状态,用自然语言生成解释,说明为何专家的选择更优。这些解释比单纯的专家动作提供了更丰富、可迁移的监督信号,借助大语言模型在语言处理方面的优势,使智能体能够内化可在不同任务间泛化的决策原则。

在实践中,作者将自我反思数据集 D_refl 与专家数据集 D_expert 混合,并使用标准的「下一个 token 预测」损失进行训练。在自我反思训练数据上会生成链式思维链推理,而在 D_expert 中,只要专家轨迹自带推理过程,作者就保留原有的思维链思维文本。 这种联合训练方式在示范数据带来的扎实决策信号与探索数据带来的对比性洞见之间实现了平衡。

从这两类数据中同时学习,有助于模型超越机械模仿,发展出更具泛化性的决策准则。例如,在 WebShop 环境中,专家动作是「点击 15 美元的蓝色衬衫」,而替代动作可能是「点击 30 美元的红色衬衫」。模型生成的反思可能是:「虽然红色衬衫符合颜色偏好,但它超出了查询中指定的 20 美元预算限制;蓝色衬衫同时满足了风格要求和预算约束。」这样的训练教会模型在决策中优先考虑约束条件,这种经验可以泛化到其他任务和情境中。

下图展示了作者在不同环境中使用的提示模板。



隐式世界建模与自我反思遵循相同的核心原则:都将智能体自身的动作及其导致的未来状态转化为可扩展的监督信号,从而训练出更具泛化能力的语言智能体策略。

实验结果

Meta 列出了基准测试的结果,所有数值均为成功率(%)。Prompt 表示指令调优模型的性能表现。IWM 和 SR 分别代表隐式世界建模与自我反思。



可见,在几乎所有场景和两种模型规模下,早期经验的提升效果都优于模仿学习。隐式世界建模(IWM)在结构化模拟器和交易类网站中表现稳定,自我反思(SR)则在需要多步骤推理和约束满足的任务中进步最大。



分布外评估结果(%)。绿色部分显示了相较于模仿学习的改进情况。Prompt 表示指令模型的性能表现。IWM 和 SR 分别指隐性世界建模和自我反思。

在分布外(OOD)数据集环境中,尽管所有任务上的分数均有所下降,但早期经验方法始终可以显著减小差距。这表明将自身训练结果转化为监督信息,能有效帮助策略适应演示数据未覆盖的场景。



综上所述,从早期经验开始训练始终能获得更高的后强化学习上限。而且在某些场景中,这种性能差距会随着训练而持续扩大。

Meta 认为,早期经验在人类数据时代与经验时代之间起到了中期训练桥梁的作用。它产生的策略即使没有奖励也能表现出色,并放大了后续强化学习的益处。在相同的强化学习方案下,早期经验开始时就能实现更高的最终性能。这些结果表明,一旦 RL 基础设施在新环境中可用,早期的经验可以立即解锁进一步的收益,而无需从头开始重新训练。

更多内容请参阅论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1985年,叛逃至台湾的飞行员萧天润和台湾美女主播张德芬结婚了

1985年,叛逃至台湾的飞行员萧天润和台湾美女主播张德芬结婚了

忠于法纪
2025-11-01 09:22:20
成都蓉城不想夺冠的背后:教练薪资节省1.6亿,徐正源断舍离

成都蓉城不想夺冠的背后:教练薪资节省1.6亿,徐正源断舍离

姜大叔侃球
2025-11-01 20:27:43
广东降温后,竟是全球17级风王。

广东降温后,竟是全球17级风王。

天气观察站
2025-11-02 05:39:00
河南中牟男子涉嫌杀害发小妻儿3人,警方在遇害者指甲中发现关键DNA线索

河南中牟男子涉嫌杀害发小妻儿3人,警方在遇害者指甲中发现关键DNA线索

封面新闻
2025-11-01 23:29:09
0-0,莫拉塔失点仍不输,38岁法布雷加斯率意甲第5逼平意甲第1

0-0,莫拉塔失点仍不输,38岁法布雷加斯率意甲第5逼平意甲第1

侧身凌空斩
2025-11-02 02:55:39
为什么国家越来越强大,我们还是感觉到没钱,问题出在哪?

为什么国家越来越强大,我们还是感觉到没钱,问题出在哪?

三目观史
2025-10-30 19:47:08
重磅:美国数小时或攻击委内瑞拉!马杜罗求助俄罗斯

重磅:美国数小时或攻击委内瑞拉!马杜罗求助俄罗斯

项鹏飞
2025-11-01 16:00:00
著名音乐人屠颖发生意外不幸离世,作品《情书》《味道》《过火》家喻户晓

著名音乐人屠颖发生意外不幸离世,作品《情书》《味道》《过火》家喻户晓

鲁中晨报
2025-11-01 19:03:04
秦雯袭警冲上热搜!向王家卫炫耀后台硬能捞人,网友要求严查特权

秦雯袭警冲上热搜!向王家卫炫耀后台硬能捞人,网友要求严查特权

萌神木木
2025-10-31 21:33:21
张曼玉61岁近照曝光,无儿无女爱宠如子,当众亲狗画面感动人心

张曼玉61岁近照曝光,无儿无女爱宠如子,当众亲狗画面感动人心

仙味少女心
2025-11-01 07:51:13
拿1.9亿顶薪,球队老大带头内讧!西部黑马倒下,你们该趁早重建

拿1.9亿顶薪,球队老大带头内讧!西部黑马倒下,你们该趁早重建

老梁体育漫谈
2025-11-02 00:05:02
全程呲牙咧嘴,台词含糊不清,连丁禹兮和曹骏都带不动这个拖油瓶

全程呲牙咧嘴,台词含糊不清,连丁禹兮和曹骏都带不动这个拖油瓶

仙味少女心
2025-10-31 19:40:49
开拓者下放杨瀚森引热议:下一个姚明暂时搁置 他一定会强势回归

开拓者下放杨瀚森引热议:下一个姚明暂时搁置 他一定会强势回归

罗说NBA
2025-11-02 06:27:28
女生发明“咯噔字体”,被老师0分警告:别用个性挑战考试的底线

女生发明“咯噔字体”,被老师0分警告:别用个性挑战考试的底线

妍妍教育日记
2025-11-01 12:00:56
入睡时间缩短10倍!北大研究揭示:3亿人失眠或是肠道里缺了它

入睡时间缩短10倍!北大研究揭示:3亿人失眠或是肠道里缺了它

思思夜话
2025-10-31 11:52:53
订单破纪录、产能全开!三季报高增长龙头股掘金名单

订单破纪录、产能全开!三季报高增长龙头股掘金名单

K线论势
2025-11-01 22:49:44
女子108元预订三亚酒店,入住半小时要求退房遭拒,一顿操作结果倒赔3万元……

女子108元预订三亚酒店,入住半小时要求退房遭拒,一顿操作结果倒赔3万元……

鲁中晨报
2025-11-01 15:51:06
薄一波直接打断原副总理姬鹏飞电话,说:他大逆不道,别执迷不悟

薄一波直接打断原副总理姬鹏飞电话,说:他大逆不道,别执迷不悟

大运河时空
2025-11-01 18:00:03
人民币在朝鲜的购买力,超出了我的想象,平壤女售货员的手在发抖

人民币在朝鲜的购买力,超出了我的想象,平壤女售货员的手在发抖

史阁
2025-10-10 10:54:33
沈泊洋遭查后,赵少康慌了?节目言论揭真实担忧

沈泊洋遭查后,赵少康慌了?节目言论揭真实担忧

动物奇奇怪怪
2025-11-02 03:21:29
2025-11-02 08:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

母亲给35岁儿子花32万和女子"闪婚" 发现女方背负巨债

头条要闻

母亲给35岁儿子花32万和女子"闪婚" 发现女方背负巨债

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

亲子
艺术
健康
教育
军事航空

亲子要闻

曲柄摇杆间歇摆动机构

艺术要闻

郑丰林:中国当代年轻女画家

核磁VS肌骨超声,谁更胜一筹?

教育要闻

2026高考报名,这八处变化一定要了解!

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版