网易首页 > 网易号 > 正文 申请入驻

刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人

0
分享至


新智元报道

编辑:艾伦

【新智元导读】风雨飘摇中的Meta,于昨天发布了一篇重量级论文,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。

Meta自从Alexandr Wang加入后混乱不堪,人心惶惶,Yann LeCun也公开表达出走意愿。

但就在昨天,他们发了一篇大论文《Agent Learning via Early Experience》,提出了一种被称作「早期经验」(Early Experience)的全新范式,让AI智能体「无师自通」,为突破强化学习瓶颈提供了一种新思路。


https://arxiv.org/abs/2510.08558

论文作者绝大多数都是华人。默默做事的,永远是华人。

研究背景与问题

在现实场景中训练语言智能体常常面临一个两难困境:

强化学习需要明确的环境奖励信号,但许多真实环境缺乏可验证的奖励反馈,或者任务跨度很长导致信用分配(credit assignment)困难;

而模仿学习(通常采取监督微调)则依赖昂贵且有限的专家演示数据,模型在训练中无法与环境交互,因而难以从失败中学习,遇到新情况时泛化能力差。

要么没有奖励信号指导学习,要么只有少量人类示范可供模仿,智能体的自主成长因此受限。

目前大多数语言智能体采取监督微调的范式:在静态的专家轨迹数据上训练策略,将环境状态映射到人类给定的动作序列。

这种方法虽然训练方便,却存在明显局限:智能体训练时不与环境互动,看不到自己动作导致的结果,无法「知错就改」,也很难推广到训练数据覆盖不到的新情境。

此外,高质量专家示范数据获取成本高昂,难以大规模扩充。

另一方面,理想情况下我们希望让智能体像人一样通过自身经验不断成长,但是传统强化学习在缺少奖励的环境中难以奏效。

面对缺乏奖励信号且示范数据有限的困境,我们亟需新的训练范式来让智能体完成自主学习。

方法框架:「早期经验范式」

针对上述难题,该论文提出了一种折中的新范式,称为「早期经验」(Early Experience)。

这一范式定位于模仿学习和强化学习之间的中间地带:智能体在训练过程中不再仅依赖人类示范数据,还引入自身动作所产生的后续状态作为训练信号。

该范式是让智能体在没有外部奖励的情况下,通过尝试动作->观察结果->将结果转化为监督,来直接从自己行为的后果中获取经验教训。

这一过程无需环境提供奖励,利用的完全是智能体探索所产生的数据,可视作在人工演示(无奖励但数据有限)和强化学习(有奖励但探索困难)之间架起的一座桥梁。

论文具体探讨了在「早期经验」范式下的两种核心训练策略:

  • 隐式世界建模(Implicit World Modeling, IWM):该策略让智能体利用收集到的环境状态序列来建立内部的环境动态模型。

    做法是让智能体在一些决策点尝试由其策略自主提出的替代动作,然后记录执行这些动作后环境的状态变化,将这些「未来状态」作为额外训练信号。

    通过学习预测动作将带来怎样的状态转变,智能体逐渐内化环境的因果规律,提升对环境动态的理解和决策的稳健性。

    这种隐式建模有点类似于人类在脑海中模拟「如果我这么做,会发生什么」,从而让策略对行动后果有所预见。

  • 自我反思(Self-Reflection, SR):该策略旨在让智能体从自身不理想的决策中总结经验教训。

    智能体会将自己的动作与专家示范进行对比,识别哪些决策是次优的或错误的,并为此生成一段反思性的思维链说明,即一个自我分析的内在独白。

    这些由智能体生成的反思性解释将作为训练数据的一部分,指导模型在相似情境下做出更优选择。

    例如,在购物网站任务中,如果智能体原本选择了一个超出预算的商品,一个可能的自我反思是:

    「这个红色衬衫虽然符合颜色偏好,但价格超出预算,上述选择不合理,应该考虑价格更低的蓝衬衫。」

    这样,智能体通过反思约束条件,理解了自己决策的不足。

    在训练中,研究者将这些反思解说与正确动作一起加入训练,使模型学会根据上下文进行推理并修正决策。

    自我反思策略相当于给予智能体一个自我导师:让它自己说明哪里做错了,以及正确的思路是什么,从而内化细粒度的经验教训。


这两种策略都遵循同一原则:即使没有外部奖励,智能体「自我探索」所产生的动作-结果数据本身就能提供高质量的监督信号。

通过将自身行为引起的未来状态转换成学习信号,语言智能体无需额外的人类奖励标注也可以不断改进。

早期经验范式可以无缝集成到现有训练流程中:先用少量专家数据进行基本模仿学习初始化策略,然后让智能体展开受控的探索(产生「早期经验」数据),再用上述隐式世界建模和自我反思策略提取的监督信号对策略进行强化训练。

这一过程实现了从「人教模型」向「模型自学」的转变。

实验验证:八大环境的评估表现

作者在八个多样化环境中对早期经验范式进行了全面评估,涵盖实体导航、网页浏览、多轮工具使用、长序列规划以及多领域API调用等任务类型。

这些环境包括例如:文本版的室内导航和操作(如ALFWorld)、在线购物网页(WebShop)、科学实验模拟环境(ScienceWorld)、旅行规划对话任务(TravelPlanner)等等,既有需要在虚拟空间中行动的执行型任务,也有需要多步推理规划的认知型任务。

同时,模型基座涵盖了不同规模和架构的大语言模型(如不同参数规模的Llama系模型等),以测试方法对模型尺寸的适应性。

实验结果显示,引入「早期经验」后的智能体表现显著优于纯模仿学习基线。


在所有测试环境中,无论采用隐式世界建模还是自我反思,两种方法都取得了一致的提升:任务成功率平均提升了约9.6个百分点,迁移到域外新情境的泛化成功率提升约9.4个百分点。

这表明早期经验范式不仅提高了智能体在已知任务上的效率,还大幅增强了其应对未知场景的泛化能力。

例如,在要求满足多重约束的长链推理任务中(如旅行规划需要兼顾时间与预算),自我反思策略带来了超过10个百分点的成功率跃升,体现出对复杂推理任务的特别优势。

而在需要与环境反复交互尝试的任务中(如网页购物需要点击不同页面),隐式世界建模有效让智能体掌握了环境状态转移规律,也取得了两位数的成功率提升。

此外,作者还考察了该范式的数据效率和模型可扩展性:令人惊喜的是,即使将专家演示数据量减少一半,引入早期经验训练后模型仍能达到甚至超过使用全部专家数据时的性能。

这说明早期经验提供了额外且多样的训练信号,可以在一定程度上替代昂贵的人工示范数据,提高数据利用效率。

同时,将这一方法应用到更大规模的模型上,同样取得了稳定增益——早期经验范式在不同模型大小上效果保持一致,不存在随模型变大而效果递减的问题。

这表明该方法具有良好的横向与纵向可扩展性:既能拓展到更广的任务领域,又能适用于更强大的模型。

另一个关键实验是验证早期经验作为强化学习的预热(warm-start)是否能够进一步提升最终表现。

作者在其中3个具有明确奖励的环境中先用模仿学习、隐式世界建模、自我反思分别训练初始策略,然后再在相同条件下继续进行强化学习微调。

结果发现:以早期经验(隐式世界建模或自我反思)初始化的策略经过强化学习优化后达到了最高的最终成功率,相比直接用模仿学习初始化的策略最终成功率最高提升了约6.4个百分点。


这说明,早期经验阶段带来的性能增益可以持续到最终的强化学习训练成果中。

一些环境中,早期经验组与普通组的差距在强化学习过程中甚至进一步拉大(例如ALFWorld环境),证明早期经验为后续强化学习提供了更高的上限起点。

在有奖励和无奖励场景下,早期经验训练都展示出优异表现,架起了一座从模仿学习通向完全自主强化学习的实践之桥。

分析与亮点

通读论文后,我们认为该论文有一些显著的亮点。


无奖励下的高质量监督信号

早期经验范式的最大亮点在于即便没有环境奖励,也能为智能体提供有效的学习信号。

传统强化学习需要奖励来评价行为好坏,而早期经验通过「自身行为的后果」来指导策略改进。

智能体探索产生的未来状态本身就是监督——成功也好,失误也罢,这些经验片段都成为训练素材。

例如,隐式世界建模让模型直接预测环境响应,自我反思让模型检讨错误决策的原因,两者都为智能体提供了稠密而丰富的反馈(哪怕这种反馈不以数值奖励呈现)。

实验已经证明,这种没有显式奖励的监督信号依然可以将模型性能推向新的高度。

相比之下,单纯依赖专家示范的监督信号是静态且狭窄的,而早期经验信号来自智能体主动探索,覆盖了更广的状态-动作空间,这正是其泛化能力大幅提升的原因之一。


泛化能力与可扩展性

由于引入了智能体自己探索得到的大量多样化轨迹,模型不再局限于人类示范所涵盖的有限情景,从而在未知环境下表现更稳健。

作者的域外测试显示,早期经验训练的智能体在任务变种或新场景中的成功率远超仅有模仿学习的基线,证明了其跨域迁移能力。

此外,从可扩展性看,早期经验范式具有良好的数据与模型扩展效果:

它可以利用相同环境,让智能体反复生成海量的训练数据(因为不需要人工标注奖励),大幅降低了对人工数据的依赖;

同时无论模型参数规模增加还是减小,方法的收益都基本保持,展示出跨模型规模的一致性。


这一点非常关键,因为很多方法在小模型上有效但扩展到大模型时效果不明显,而早期经验方法在不同规模的模型上都取得了显著而稳定的提升。

早期经验不仅拓宽了智能体「见过」的世界,也为大模型时代的持续改进提供了一种数据可伸缩的方案。


对比其他方法(STaR、长链推理等)

早期经验范式与现有一些让模型自我提升的思路有所不同,提供了更具「现实检验」的学习信号。

例如,Zelikman等人提出的STaR(Self-Taught Reasoner,自学推理器)方法让模型为已有示范生成推理过程并自我过滤。

但这种方法面对复杂环境时遇到两个问题:

  • 模型产生的解说未经过环境验证,可能并不正确;

  • 为保证动作正确性常需要丢弃大量不匹配专家的解说数据,导致可用训练样本很少。

作者在文中复现了STaR风格的数据生成,发现模型为专家动作生成的推理链中,只有极少比例能匹配专家决策,筛选后几乎没剩下多少有用数据,而且这些推理因为从未真正与环境交互,往往是假想的、不可靠的。


相比之下,早期经验方法中智能体每一次生成的动作和反思都直接基于实际环境反馈:不论是隐式建模获取的状态转移,还是自我反思产生的教训,都源自真实行动的结果,因而信息含量更高、指导性更强。

针对需要长链推理的任务,简单地让模型生成更长的思考链(例如调优提示词或控制思考步数)只能带来有限的改善,而早期经验中的自我反思相当于让模型亲身实践再反思,其对于复杂推理任务的提升要显著得多。

在作者的实验中,自我反思策略在需要多步规划和约束满足的任务上取得了最大的增益(如旅行规划任务成功率提高十多个百分点),这也从侧面证明了相比静态的CoT方法,让模型「做过再想」效果更加突出。



方法适用范围

早期经验范式的一大优点在于其通用性。

论文结果表明,无论是具身环境(如机器人操作)还是数字环境(如网页、API交互),无论任务需要感知行动还是逻辑推理,该方法都能带来一致收益。

这说明将「自己探索」融入训练的思路具有很强的普适性,不局限于某一类任务。

同时,隐式世界建模和自我反思两种策略各有侧重又能相辅相成:

隐式世界建模更侧重环境动力学,适用于需要试错探索的场景;

自我反思侧重策略优化和约束满足,对多步骤推理任务帮助更大。

两者共享早期经验的框架,可以根据任务特点选择使用,从而灵活地提高智能体性能。

总结

《Agent Learning via Early Experience》提出了一种创新的语言智能体训练范式,成功弥合了模仿学习和强化学习之间的鸿沟。


主要贡献

  • 早期经验范式的提出:

    正式提出并定义了「早期经验」这一训练新范式,为在无外部奖励信号的条件下让智能体从自身经验中学习提供了可行方案。

    这一范式可被视为从依赖人类数据的模仿学习迈向完全自主强化学习的实用且可扩展的桥梁。

  • 两大训练策略(隐式世界建模和自我反思):

    设计并系统研究了在早期经验范式下的两种具体策略:

    一是通过隐式世界建模让智能体学会预测环境变化,从而增强决策的环境扎根性;

    二是通过自我反思促使智能体从自身行动中提炼细粒度教训,提升推理和决策能力。

    这两种策略证明了即使没有奖励,智能体也能将「探索-反馈」循环转化为有效学习信号。

  • 实验与效果:

    在八个多样环境和多种模型架构上进行了综合评测,结果显示早期经验方法在任务成功率、跨域泛化以及后续强化学习表现等方面均有显著提升。

    在若干基准上,该方法取得了SOTA,并通过消融和分析实验提供了有益的洞察。

    例如,早期经验模型以更少的数据达到甚至超过基线效果,且能提升最终的强化学习训练上限。



当前方法的局限与未来方向

  • 目前的隐式建模和自我反思主要着眼于短跨度的经验片段,对于那些超长序列规划任务中的信用分配问题,如果没有显式奖励仍然是一个挑战。

    未来的研究可以探索如何让早期经验范式也能处理更长链条的决策优化。

  • 结合自监督目标是一个有前景的方向——可以考虑引入丰富的自监督学习信号(如预测下一个子目标等),进一步提升无奖励环境下的训练效果。

  • 将早期经验与强化学习在持续学习框架下结合,也是作者设想的方向之一。

    例如,在有了环境奖励后,让模型接着用RL微调,或在训练过程中逐步引入奖励信号,检验两者的协同作用。

  • 还可以探索更多形式的早期经验(不限于论文提出的两种),比如不同的自我监督策略,乃至让智能体自己生成新的训练目标等。

  • 作者也提到希望将该范式拓展到更大规模的真实应用中,在真实线上环境中持续收集智能体的交互数据,进行有机的持续优化。

    这将是真正迈向「经验时代」的一步——让智能体在真实世界中边运行边成长。

Early Experience为训练更自主、更智能的语言代理打开了一扇新的大门。

在奖励稀缺甚至缺失的广阔应用场景下,它提供了一种高效利用自身经验的学习机制。

随着这一范式与强化学习、自监督等方法的融合,以及在长期规划任务上的突破,我们有理由期待下一代智能体将能够更充分地自我进化,朝着真正的通用智能体迈进。

显然,属于AI智能体的「早期经验」时代或许才刚刚开始。

目前的这些成果可能是几个月甚至更久之前就在进行的,而Meta的新时代能否保持住这种学术产出质量,仍有待观察。

参考资料:

https://arxiv.org/abs/2510.08558

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王腾换iPhone 17了 从红米换成苹果手机

王腾换iPhone 17了 从红米换成苹果手机

快科技
2026-02-20 15:48:07
女单签位公布!国乒首轮阻击桥本帆乃香,王曼昱有望再战张本美和

女单签位公布!国乒首轮阻击桥本帆乃香,王曼昱有望再战张本美和

全言作品
2026-02-20 19:05:47
黄海上空激烈对峙!解放军霸气亮剑,美军数十架F-16战机匆忙而逃

黄海上空激烈对峙!解放军霸气亮剑,美军数十架F-16战机匆忙而逃

钦点历史
2026-02-20 19:58:16
老鹰官宣:北京新外援麦基包揽得分+篮板+盖帽王 当选队内MVP

老鹰官宣:北京新外援麦基包揽得分+篮板+盖帽王 当选队内MVP

醉卧浮生
2026-02-20 20:47:11
我国大学“临床医学”专业排名!第1名既不是985、也不是211

我国大学“临床医学”专业排名!第1名既不是985、也不是211

Delete丨CC
2025-12-29 15:57:53
一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

台州交通广播
2026-02-20 12:14:08
“妈,我想死你了!”河南小伙离家出走1年,母亲在短视频刷到其在南京一菜场附近出现

“妈,我想死你了!”河南小伙离家出走1年,母亲在短视频刷到其在南京一菜场附近出现

都市快报橙柿互动
2026-02-20 14:07:47
王心迪:帮徐梦桃圆梦!她期待变成奥运冠军夫妇,我在家里排老二

王心迪:帮徐梦桃圆梦!她期待变成奥运冠军夫妇,我在家里排老二

奥拜尔
2026-02-20 22:33:11
装都不装了?消费完丈夫的傅首尔再曝猛料,“狼子野心”藏不住了

装都不装了?消费完丈夫的傅首尔再曝猛料,“狼子野心”藏不住了

一娱三分地
2026-02-20 23:31:22
柬埔寨向26国通报

柬埔寨向26国通报

澎湃新闻
2026-02-21 02:12:47
98年我在南京和一女同事搭伙了5年,20年后回去发现她一直没嫁人

98年我在南京和一女同事搭伙了5年,20年后回去发现她一直没嫁人

千秋历史
2026-02-11 22:06:51
50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

一盅情怀
2026-02-19 18:38:36
队内赛季报销第三人,记者:国王德安德烈-亨特将接受眼部手术

队内赛季报销第三人,记者:国王德安德烈-亨特将接受眼部手术

懂球帝
2026-02-21 08:14:06
10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

查尔菲的笔记
2026-01-03 21:27:19
高市挑衅再敲警钟!中国史上最大误判之一就是:总习惯性低估日本

高市挑衅再敲警钟!中国史上最大误判之一就是:总习惯性低估日本

不似少年游
2026-02-20 07:22:48
荒唐!美媒抹黑中国:刘美贤遭监视FBI出动 刘爸:美国是人间天堂

荒唐!美媒抹黑中国:刘美贤遭监视FBI出动 刘爸:美国是人间天堂

念洲
2026-02-20 12:35:33
一个代孕华裔女孩,争议中成长为奥运冠军

一个代孕华裔女孩,争议中成长为奥运冠军

家传编辑部
2026-02-20 19:57:21
80年代起,从仇视到大规模"援华"背后,日本人究竟有什么图谋?

80年代起,从仇视到大规模"援华"背后,日本人究竟有什么图谋?

棠棣说史
2026-02-20 07:20:03
主场首秀38分!快船新援一战封神,2换5交易,快船真的不亏啊

主场首秀38分!快船新援一战封神,2换5交易,快船真的不亏啊

球童无忌
2026-02-20 23:32:49
统治百年却同化失败?俄远东多地加速汉化,为何非华夏文明不可!

统治百年却同化失败?俄远东多地加速汉化,为何非华夏文明不可!

残梦重生来
2026-02-19 07:57:05
2026-02-21 09:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14560文章数 66632关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

被问征收的约1750亿美元关税是否需要退还 特朗普表态

头条要闻

被问征收的约1750亿美元关税是否需要退还 特朗普表态

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

教育
本地
家居
旅游
亲子

教育要闻

为什么说要学好英语

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

家居要闻

本真栖居 爱暖伴流年

旅游要闻

中使馆:再次提醒来俄中国游客务必高度重视旅行期间安全问题

亲子要闻

那些你不知道的育儿小知识!网友:不要随便把孩子的东西送人!

无障碍浏览 进入关怀版