网易首页 > 网易号 > 正文 申请入驻

字节跳动破解AI智能体难题:让机器像人一样从经验中明智学习

0
分享至


这项由字节跳动种子团队的王家伟、刘家才、付雨千、李映如、王鑫涛、林远、岳宇、张霖、王杨和王可等研究人员完成的突破性研究,于2025年9月发表在arXiv预印本平台上。有兴趣深入了解的读者可以通过项目主页 https://empgseed-seed.github.io/ 访问完整内容和相关材料。

在人工智能的世界里,让机器像人类一样学习一直是个巨大挑战,特别是当机器需要完成那些需要多个步骤才能达到目标的复杂任务时。就像教一个孩子学会做饭,你不能只在他最后端上一道菜时才说"做得好"或"做得不好",而是需要在他每一个操作步骤中给予适当的指导。但现实情况是,大多数AI系统只能在任务完成后才知道结果的好坏,这就像让学生做完整张试卷后才知道最终分数,却不知道每道题的对错。

字节跳动的研究团队发现,当前的大语言模型智能体在处理需要多步骤完成的长期任务时面临着一个根本性问题:稀疏奖励信号让系统难以判断中间步骤的价值。这个问题就好比一个厨师在做一道复杂菜品时,只有在客人品尝后才知道菜品好坏,却不知道在准备食材、调味、烹饪的各个环节中哪些步骤做对了,哪些需要改进。

更深层的问题在于,研究团队通过数学分析发现,传统的策略梯度方法存在一个内在缺陷:模型的学习更新幅度与其预测不确定性紧密相关。简单来说,当模型对某个步骤很有信心时,即使这个步骤是正确的重要决策,它得到的学习强化也很小;相反,当模型对某个步骤毫无把握时,这种不确定性反而会产生很大的学习波动,可能让整个学习过程变得不稳定。这种现象就像一个新手司机,在熟悉的路段开车时即使表现很好也不会有太多提升,而在完全陌生的路段却因为紧张而操作失误,反而养成了坏习惯。

一、突破传统框架的全新学习策略

针对这些问题,研究团队提出了一个革命性的解决方案:熵调制策略梯度(EMPG)。这个方法的核心思想是重新校准学习信号,让AI系统能够根据每个步骤的不确定性程度来调整学习强度,同时鼓励系统寻找那些能导向更明确未来状态的行动路径。

EMPG的工作原理可以用学习驾驶来类比。传统方法就像一个驾驶教练,无论学员在哪种情况下的表现,都给予同样强度的反馈。而EMPG更像一位经验丰富的教练,他会根据不同情况采用不同的教学策略:当学员在简单路段表现出色时,教练会给予强烈的正面强化,让学员牢牢记住这些正确操作;当学员犯了明显错误但表现得很自信时,教练会给予严厉批评,防止错误固化;而当学员在复杂路段表现不确定时,教练则会温和地指导,避免因为过度批评而打击学员信心。

这套方法包含两个核心组件。第一个是"自校准梯度缩放"机制,它会动态调整每个步骤的学习信号强度。当AI系统对某个正确步骤很有信心时,这个机制会放大学习信号,让系统更深刻地记住这种正确做法;当系统犯了错误但表现得很自信时(这种情况被称为"幻觉性自信"),系统会受到更强的纠正;而当系统在某个步骤表现得不确定时,学习信号会被适当减弱,避免不稳定的更新影响整体学习。

第二个组件是"未来清晰度奖励",这是一个内在激励机制,鼓励AI系统选择那些能够导向更明确、更可预测状态的行动。就像下棋时优秀棋手会偏向选择那些让棋局变得更加明朗的走法,EMPG也会引导AI系统朝着能够减少未来不确定性的方向发展。这种设计帮助系统找到更加稳健和可预测的解决路径,而不是陷入混乱或不可预测的状态中。

二、严谨的理论基础与数学证明

研究团队并不满足于仅仅提出一个实用的方法,他们深入挖掘了问题的数学本质。通过严格的理论分析,他们证明了在标准的softmax策略下,评分函数的期望平方范数与策略熵之间存在单调关系。这个看似抽象的数学结论实际上揭示了一个重要现象:高熵(不确定)的行动天然会产生较大的梯度,而低熵(确定)的行动则产生较小的梯度。

这种内在的数学特性创造了一个学习上的矛盾。一方面,那些模型表现得很有信心且正确的步骤应该得到强化,但由于它们的低熵特性,实际得到的学习信号却很微弱,就像表现优异的学生却得不到足够的表扬一样。另一方面,那些充满不确定性的探索性步骤会产生很大的学习波动,这些噪声可能会干扰整个学习过程的稳定性,就像课堂上总有一些捣乱的学生会影响整体学习氛围。

EMPG的理论贡献在于提供了一个原则性的解决方案来重新平衡这种不对称性。通过引入熵调制机制,系统能够在数学上正确地重新分配学习信号,确保每种类型的步骤都能得到适当的处理。研究团队进一步从信息论角度论证了未来清晰度奖励的合理性,将其与信息增益和权能框架联系起来,为这种内在激励提供了坚实的理论支撑。

三、全面的实验验证与卓越表现

为了验证EMPG的有效性,研究团队在三个极具挑战性的长期任务基准上进行了全面测试:WebShop(网络购物导航任务)、ALFWorld(文本环境中的指令跟随任务)和Deep Search(多步信息检索与综合任务)。这些任务都有一个共同特点:需要AI系统执行多个步骤才能达到最终目标,而且只有在任务结束时才能获得成功或失败的二元反馈。

在WebShop任务中,AI需要像真实用户一样在网站上搜索商品、浏览页面、比较选项并做出购买决定。实验结果显示,当EMPG应用到不同规模的Qwen2.5模型上时,都带来了显著的性能提升。在1.5B参数的模型上,EMPG让GRPO基线方法的成功率提高了8.1个百分点,让DAPO基线提高了7.3个百分点。这种改进在更大的7B模型上同样明显,DAPO结合EMPG后在WebShop上达到了82.7%的成功率。

ALFWorld任务要求AI在文本描述的环境中完成各种家务任务,如"把热土豆放进冰箱"这样的复杂指令。这个任务特别考验AI的常识推理能力和多步规划能力。实验结果同样令人印象深刻,EMPG在各种模型规模和基线算法上都表现出了稳定的改进效果。

最具挑战性的是Deep Search任务,这要求AI进行多轮网络搜索、阅读和分析多个信息源,最终合成答案。研究团队使用了32B参数的强大模型来处理这个复杂任务。结果显示,EMPG将强基线DAPO的平均得分从62.0提升到65.3,获得了3.3个百分点的显著改进。更重要的是,EMPG在域外泛化任务上的表现尤为突出,提升了3.9个百分点,显示出该方法不仅能在训练数据上表现良好,还能有效处理新颖的未见过的任务。

四、深入分析揭示的学习机制

研究团队通过详细的消融研究发现了EMPG两个组件的不同作用机制。未来清晰度奖励主要作为训练期间的强大利用信号,通过强化已知的高质量决策序列来帮助模型掌握域内分布,在域内任务上带来了2.6个百分点的显著提升。相比之下,自校准梯度缩放更像是一个强大的正则化机制,它教会模型在面临不确定性时如何恰当地行为。通过减弱高熵步骤的更新,这个机制产生了一个本质上更加鲁棒、不易出错的最终策略。

这种学习到的鲁棒性在测试阶段面对新颖输入时表现得尤为明显。当模型遇到引发高不确定性的域外任务时,由于在训练中学会了不在这种情况下过度反应,它展现出了优越的泛化能力,在域外任务上获得了3.9个百分点的鲁棒提升。这证明EMPG不仅仅是在过度拟合训练数据,而是通过学习如何处理不确定性这一基本技能,获得了更有弹性的问题解决方法。

研究团队还深入分析了学习动态过程,发现了一个重要现象:传统基线方法在所有实验中都会一致地达到明显的性能平台期,学习停滞,成功率不再提高。相比之下,EMPG增强的智能体能够果断突破这个性能上限。通过提供更丰富和更有效的学习信号,EMPG使智能体能够维持学习动力,推进到基线方法的峰值之外,最终收敛到显著更高的最终成功率。

五、训练稳定性的显著改善

除了性能提升,EMPG还显著增强了训练过程的稳定性和鲁棒性。在线强化学习微调中的一个常见失败模式是"策略崩溃",即智能体的策略在训练后期发散,导致性能灾难性下降。研究团队通过追踪训练过程中的KL损失发现,DAPO基线智能体最初学习有效,但在大约240个训练步骤后KL损失变得高度不稳定,表明严重的不稳定性。

相比之下,EMPG增强的智能体在整个训练过程中保持了低且稳定的KL损失。这表明EMPG的机制,特别是自校准梯度缩放,有效地调节了策略更新,防止了可能导致发散的过度激进变化,确保了更可靠地收敛到高性能策略。这种稳定性对于实际应用至关重要,因为它意味着研究人员和工程师可以更可靠地训练高性能的AI智能体,而不用担心训练过程中的意外崩溃。

研究团队还探索了为什么步骤级别的熵分析对于他们的方法至关重要。他们发现,与先前在令牌级别的分析不同,即使是初始熵很低的步骤仍然会经历实质性的平均熵变化。这一关键发现强调了他们以步骤为中心的方法的重要性,并证明了EMPG设计用于在整个置信度谱上调制更新的合理性。

六、实际应用价值与未来影响

EMPG的意义远不止是一个技术改进,它代表了AI系统学习方式的根本性转变。传统方法主要依赖外部奖励信号,就像只能通过考试成绩来判断学生学习效果的教育系统。而EMPG开创了一个新范式,让AI系统能够利用自身的内在不确定性作为额外的学习信号,就像优秀的学生能够通过自我反思来改进学习方法。

这种方法的实际应用潜力巨大。在网页导航、软件工程和深度搜索等现实任务中,反馈往往只在完成整个任务后才提供,EMPG提供了一个可扩展的替代方案来替代昂贵的过程奖励模型。它能够从最少的外部反馈中锻造出密集、信息丰富的学习信号,这对于那些难以获得详细中间反馈的复杂任务特别有价值。

研究团队表示,未来计划将EMPG应用到其他长期任务中,如具身AI和多智能体协作。他们相信这项工作为开发更高效、更鲁棒和更能自我纠正的自主智能体奠定了基础性基石。随着AI系统在现实世界中承担越来越复杂的任务,像EMPG这样能够从内在信号中学习的方法将变得越来越重要。

说到底,字节跳动这项研究解决的是AI领域的一个基本问题:如何让机器从稀疏的外部反馈中高效学习。通过巧妙地利用模型自身的不确定性作为额外的学习信号,EMPG不仅提高了性能,还增强了训练的稳定性和泛化能力。这种方法让AI系统变得更像人类学习者,能够通过自我反思和对不确定性的敏感度来指导自己的学习过程。对于那些希望开发能够在复杂现实环境中可靠工作的AI系统的研究者和工程师来说,这项研究提供了一个强大且实用的新工具。

Q&A

Q1:什么是熵调制策略梯度EMPG?它解决什么问题?

A:EMPG是字节跳动开发的一种新型AI学习方法,专门解决长期复杂任务中的学习难题。传统AI只能在任务结束后知道好坏,就像学生只能通过期末考试了解学习效果。EMPG则让AI根据每步操作的确定性程度调整学习强度,同时鼓励选择导向明确结果的行动路径,就像经验丰富的教练会根据不同情况给学员差异化指导。

Q2:EMPG在实际测试中表现如何?

A:在三个挑战性任务中,EMPG都带来显著提升。在网购导航任务中,成功率提高了7-8个百分点;在Deep Search复杂检索任务中,平均得分从62.0提升到65.3。更重要的是,EMPG在处理未见过的新任务时表现尤为出色,域外任务提升了3.9个百分点,显示出强大的泛化能力和鲁棒性。

Q3:EMPG为什么比传统方法更稳定?

A:传统方法容易出现"策略崩溃",即训练后期性能突然大幅下降。EMPG通过自校准梯度缩放机制,在模型不确定时减弱学习更新,在确定且正确时加强学习,就像温和而有针对性的教学方式。实验显示EMPG在整个训练过程中保持稳定的KL损失,避免了传统方法在240步后出现的严重不稳定现象。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄循财写汉字送祝福,说新年是他们的遗产,他有华裔血液却不认祖

黄循财写汉字送祝福,说新年是他们的遗产,他有华裔血液却不认祖

刺头体育
2026-02-16 22:41:57
冬奥首场斗殴:2位2米大汉近身肉搏,摁地上狂捶,把2裁判忙坏了

冬奥首场斗殴:2位2米大汉近身肉搏,摁地上狂捶,把2裁判忙坏了

风过乡
2026-02-16 09:19:22
中国空军从俄乌冲突中吸取经验:歼20决不能再打火箭弹了!

中国空军从俄乌冲突中吸取经验:歼20决不能再打火箭弹了!

掉了颗大白兔糖
2026-02-15 15:00:15
入籍美国传闻真相大白七年后,57岁高晓松近况曝光,一点也不意外

入籍美国传闻真相大白七年后,57岁高晓松近况曝光,一点也不意外

梦史
2026-01-22 10:13:12
国际乒联主席提条件:樊振东可以参加2028奥运会,但有个前提

国际乒联主席提条件:樊振东可以参加2028奥运会,但有个前提

三十年莱斯特城球迷
2025-12-16 23:09:38
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
美国老兵回忆朝鲜战场:志愿军拼刺刀并非不惧死亡,而是决意与敌同归于尽

美国老兵回忆朝鲜战场:志愿军拼刺刀并非不惧死亡,而是决意与敌同归于尽

今日养生之道
2026-02-16 21:40:29
悲催!妻子和丈夫回老家过年,埋怨公婆没有打扫房间,转身回娘家

悲催!妻子和丈夫回老家过年,埋怨公婆没有打扫房间,转身回娘家

火山詩话
2026-02-14 05:41:43
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

张柏芝大儿子终于“长开”了!穿西装比谢霆锋还帅,网友:像爷爷

木子爱娱乐大号
2026-01-07 21:47:13
就是为对付白边的?麦基的到来,戳穿了本赛季联赛最强球队名字

就是为对付白边的?麦基的到来,戳穿了本赛季联赛最强球队名字

逗比演员说体育
2026-02-15 22:07:32
很多人已经进入过年式破产!

很多人已经进入过年式破产!

黯泉
2026-02-13 22:56:04
就在今日!2月16日,NBA传来了杨瀚森和克里斯·保罗的最新消息

就在今日!2月16日,NBA传来了杨瀚森和克里斯·保罗的最新消息

皮皮观天下
2026-02-16 14:20:57
机器人又成今年春晚最亮眼的崽!4个节目4种机器人展现十八般武艺

机器人又成今年春晚最亮眼的崽!4个节目4种机器人展现十八般武艺

火山詩话
2026-02-16 22:10:52
为什么富人也会惨遭收割?

为什么富人也会惨遭收割?

流苏晚晴
2025-11-22 19:04:54
痛心!10岁男童吃猪脚卡喉身亡,母亲:为何一口肉要了他的命

痛心!10岁男童吃猪脚卡喉身亡,母亲:为何一口肉要了他的命

环球网资讯
2026-02-15 11:31:16
20岁大学生寒假为妈妈店铺当中老年服装模特,撞脸明星20天涨粉31万,当事人:受到关注很意外,学的就是模特专业,不会签约MCN,开学后将返校读书

20岁大学生寒假为妈妈店铺当中老年服装模特,撞脸明星20天涨粉31万,当事人:受到关注很意外,学的就是模特专业,不会签约MCN,开学后将返校读书

极目新闻
2026-02-15 22:30:02
1940-1965年出生的退休人,得到一个“特殊评价”!

1940-1965年出生的退休人,得到一个“特殊评价”!

华人星光
2026-02-04 11:41:42
北京冬奥会9枚金牌,米兰冬奥会到目前为止0枚,中国队怎么了?

北京冬奥会9枚金牌,米兰冬奥会到目前为止0枚,中国队怎么了?

田先生篮球
2026-02-15 21:47:51
我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

我在芬兰见雇主家暖气不热,顺手修了,第5天小镇的人都赶过来了

三农老历
2026-01-30 11:25:43
2026-02-16 23:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7288文章数 550关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

全明星正赛美国星辰队夺冠 爱德华兹MVP

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

游戏
教育
房产
数码
公开课

CDPR为中国玩家送上春节祝福!新春贺图送上

教育要闻

国家急需20万“造芯人”!高中生选对这5个专业,毕业即抢手

房产要闻

三亚新机场,又传出新消息!

数码要闻

B站上架AIPIAIPI洛天依甜甜圈蓝牙耳机礼盒,129元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版