字节跳动破解AI智能体难题：让机器像人一样从经验中明智学习|算法|实验|鲁棒性|知名企业|ai智能体|深度思考模型

分享至

这项由字节跳动种子团队的王家伟、刘家才、付雨千、李映如、王鑫涛、林远、岳宇、张霖、王杨和王可等研究人员完成的突破性研究，于2025年9月发表在arXiv预印本平台上。有兴趣深入了解的读者可以通过项目主页 https://empgseed-seed.github.io/ 访问完整内容和相关材料。

在人工智能的世界里，让机器像人类一样学习一直是个巨大挑战，特别是当机器需要完成那些需要多个步骤才能达到目标的复杂任务时。就像教一个孩子学会做饭，你不能只在他最后端上一道菜时才说"做得好"或"做得不好"，而是需要在他每一个操作步骤中给予适当的指导。但现实情况是，大多数AI系统只能在任务完成后才知道结果的好坏，这就像让学生做完整张试卷后才知道最终分数，却不知道每道题的对错。

字节跳动的研究团队发现，当前的大语言模型智能体在处理需要多步骤完成的长期任务时面临着一个根本性问题：稀疏奖励信号让系统难以判断中间步骤的价值。这个问题就好比一个厨师在做一道复杂菜品时，只有在客人品尝后才知道菜品好坏，却不知道在准备食材、调味、烹饪的各个环节中哪些步骤做对了，哪些需要改进。

更深层的问题在于，研究团队通过数学分析发现，传统的策略梯度方法存在一个内在缺陷：模型的学习更新幅度与其预测不确定性紧密相关。简单来说，当模型对某个步骤很有信心时，即使这个步骤是正确的重要决策，它得到的学习强化也很小；相反，当模型对某个步骤毫无把握时，这种不确定性反而会产生很大的学习波动，可能让整个学习过程变得不稳定。这种现象就像一个新手司机，在熟悉的路段开车时即使表现很好也不会有太多提升，而在完全陌生的路段却因为紧张而操作失误，反而养成了坏习惯。

一、突破传统框架的全新学习策略

针对这些问题，研究团队提出了一个革命性的解决方案：熵调制策略梯度（EMPG）。这个方法的核心思想是重新校准学习信号，让AI系统能够根据每个步骤的不确定性程度来调整学习强度，同时鼓励系统寻找那些能导向更明确未来状态的行动路径。

EMPG的工作原理可以用学习驾驶来类比。传统方法就像一个驾驶教练，无论学员在哪种情况下的表现，都给予同样强度的反馈。而EMPG更像一位经验丰富的教练，他会根据不同情况采用不同的教学策略：当学员在简单路段表现出色时，教练会给予强烈的正面强化，让学员牢牢记住这些正确操作；当学员犯了明显错误但表现得很自信时，教练会给予严厉批评，防止错误固化；而当学员在复杂路段表现不确定时，教练则会温和地指导，避免因为过度批评而打击学员信心。

这套方法包含两个核心组件。第一个是"自校准梯度缩放"机制，它会动态调整每个步骤的学习信号强度。当AI系统对某个正确步骤很有信心时，这个机制会放大学习信号，让系统更深刻地记住这种正确做法；当系统犯了错误但表现得很自信时（这种情况被称为"幻觉性自信"），系统会受到更强的纠正；而当系统在某个步骤表现得不确定时，学习信号会被适当减弱，避免不稳定的更新影响整体学习。

第二个组件是"未来清晰度奖励"，这是一个内在激励机制，鼓励AI系统选择那些能够导向更明确、更可预测状态的行动。就像下棋时优秀棋手会偏向选择那些让棋局变得更加明朗的走法，EMPG也会引导AI系统朝着能够减少未来不确定性的方向发展。这种设计帮助系统找到更加稳健和可预测的解决路径，而不是陷入混乱或不可预测的状态中。

二、严谨的理论基础与数学证明

研究团队并不满足于仅仅提出一个实用的方法，他们深入挖掘了问题的数学本质。通过严格的理论分析，他们证明了在标准的softmax策略下，评分函数的期望平方范数与策略熵之间存在单调关系。这个看似抽象的数学结论实际上揭示了一个重要现象：高熵（不确定）的行动天然会产生较大的梯度，而低熵（确定）的行动则产生较小的梯度。

这种内在的数学特性创造了一个学习上的矛盾。一方面，那些模型表现得很有信心且正确的步骤应该得到强化，但由于它们的低熵特性，实际得到的学习信号却很微弱，就像表现优异的学生却得不到足够的表扬一样。另一方面，那些充满不确定性的探索性步骤会产生很大的学习波动，这些噪声可能会干扰整个学习过程的稳定性，就像课堂上总有一些捣乱的学生会影响整体学习氛围。

EMPG的理论贡献在于提供了一个原则性的解决方案来重新平衡这种不对称性。通过引入熵调制机制，系统能够在数学上正确地重新分配学习信号，确保每种类型的步骤都能得到适当的处理。研究团队进一步从信息论角度论证了未来清晰度奖励的合理性，将其与信息增益和权能框架联系起来，为这种内在激励提供了坚实的理论支撑。

三、全面的实验验证与卓越表现

为了验证EMPG的有效性，研究团队在三个极具挑战性的长期任务基准上进行了全面测试：WebShop（网络购物导航任务）、ALFWorld（文本环境中的指令跟随任务）和Deep Search（多步信息检索与综合任务）。这些任务都有一个共同特点：需要AI系统执行多个步骤才能达到最终目标，而且只有在任务结束时才能获得成功或失败的二元反馈。

在WebShop任务中，AI需要像真实用户一样在网站上搜索商品、浏览页面、比较选项并做出购买决定。实验结果显示，当EMPG应用到不同规模的Qwen2.5模型上时，都带来了显著的性能提升。在1.5B参数的模型上，EMPG让GRPO基线方法的成功率提高了8.1个百分点，让DAPO基线提高了7.3个百分点。这种改进在更大的7B模型上同样明显，DAPO结合EMPG后在WebShop上达到了82.7%的成功率。

ALFWorld任务要求AI在文本描述的环境中完成各种家务任务，如"把热土豆放进冰箱"这样的复杂指令。这个任务特别考验AI的常识推理能力和多步规划能力。实验结果同样令人印象深刻，EMPG在各种模型规模和基线算法上都表现出了稳定的改进效果。

最具挑战性的是Deep Search任务，这要求AI进行多轮网络搜索、阅读和分析多个信息源，最终合成答案。研究团队使用了32B参数的强大模型来处理这个复杂任务。结果显示，EMPG将强基线DAPO的平均得分从62.0提升到65.3，获得了3.3个百分点的显著改进。更重要的是，EMPG在域外泛化任务上的表现尤为突出，提升了3.9个百分点，显示出该方法不仅能在训练数据上表现良好，还能有效处理新颖的未见过的任务。

四、深入分析揭示的学习机制

研究团队通过详细的消融研究发现了EMPG两个组件的不同作用机制。未来清晰度奖励主要作为训练期间的强大利用信号，通过强化已知的高质量决策序列来帮助模型掌握域内分布，在域内任务上带来了2.6个百分点的显著提升。相比之下，自校准梯度缩放更像是一个强大的正则化机制，它教会模型在面临不确定性时如何恰当地行为。通过减弱高熵步骤的更新，这个机制产生了一个本质上更加鲁棒、不易出错的最终策略。

这种学习到的鲁棒性在测试阶段面对新颖输入时表现得尤为明显。当模型遇到引发高不确定性的域外任务时，由于在训练中学会了不在这种情况下过度反应，它展现出了优越的泛化能力，在域外任务上获得了3.9个百分点的鲁棒提升。这证明EMPG不仅仅是在过度拟合训练数据，而是通过学习如何处理不确定性这一基本技能，获得了更有弹性的问题解决方法。

研究团队还深入分析了学习动态过程，发现了一个重要现象：传统基线方法在所有实验中都会一致地达到明显的性能平台期，学习停滞，成功率不再提高。相比之下，EMPG增强的智能体能够果断突破这个性能上限。通过提供更丰富和更有效的学习信号，EMPG使智能体能够维持学习动力，推进到基线方法的峰值之外，最终收敛到显著更高的最终成功率。

五、训练稳定性的显著改善

除了性能提升，EMPG还显著增强了训练过程的稳定性和鲁棒性。在线强化学习微调中的一个常见失败模式是"策略崩溃"，即智能体的策略在训练后期发散，导致性能灾难性下降。研究团队通过追踪训练过程中的KL损失发现，DAPO基线智能体最初学习有效，但在大约240个训练步骤后KL损失变得高度不稳定，表明严重的不稳定性。

相比之下，EMPG增强的智能体在整个训练过程中保持了低且稳定的KL损失。这表明EMPG的机制，特别是自校准梯度缩放，有效地调节了策略更新，防止了可能导致发散的过度激进变化，确保了更可靠地收敛到高性能策略。这种稳定性对于实际应用至关重要，因为它意味着研究人员和工程师可以更可靠地训练高性能的AI智能体，而不用担心训练过程中的意外崩溃。

研究团队还探索了为什么步骤级别的熵分析对于他们的方法至关重要。他们发现，与先前在令牌级别的分析不同，即使是初始熵很低的步骤仍然会经历实质性的平均熵变化。这一关键发现强调了他们以步骤为中心的方法的重要性，并证明了EMPG设计用于在整个置信度谱上调制更新的合理性。

六、实际应用价值与未来影响

EMPG的意义远不止是一个技术改进，它代表了AI系统学习方式的根本性转变。传统方法主要依赖外部奖励信号，就像只能通过考试成绩来判断学生学习效果的教育系统。而EMPG开创了一个新范式，让AI系统能够利用自身的内在不确定性作为额外的学习信号，就像优秀的学生能够通过自我反思来改进学习方法。

这种方法的实际应用潜力巨大。在网页导航、软件工程和深度搜索等现实任务中，反馈往往只在完成整个任务后才提供，EMPG提供了一个可扩展的替代方案来替代昂贵的过程奖励模型。它能够从最少的外部反馈中锻造出密集、信息丰富的学习信号，这对于那些难以获得详细中间反馈的复杂任务特别有价值。

研究团队表示，未来计划将EMPG应用到其他长期任务中，如具身AI和多智能体协作。他们相信这项工作为开发更高效、更鲁棒和更能自我纠正的自主智能体奠定了基础性基石。随着AI系统在现实世界中承担越来越复杂的任务，像EMPG这样能够从内在信号中学习的方法将变得越来越重要。

说到底，字节跳动这项研究解决的是AI领域的一个基本问题：如何让机器从稀疏的外部反馈中高效学习。通过巧妙地利用模型自身的不确定性作为额外的学习信号，EMPG不仅提高了性能，还增强了训练的稳定性和泛化能力。这种方法让AI系统变得更像人类学习者，能够通过自我反思和对不确定性的敏感度来指导自己的学习过程。对于那些希望开发能够在复杂现实环境中可靠工作的AI系统的研究者和工程师来说，这项研究提供了一个强大且实用的新工具。

Q&A

Q1：什么是熵调制策略梯度EMPG？它解决什么问题？

A：EMPG是字节跳动开发的一种新型AI学习方法，专门解决长期复杂任务中的学习难题。传统AI只能在任务结束后知道好坏，就像学生只能通过期末考试了解学习效果。EMPG则让AI根据每步操作的确定性程度调整学习强度，同时鼓励选择导向明确结果的行动路径，就像经验丰富的教练会根据不同情况给学员差异化指导。

Q2：EMPG在实际测试中表现如何？

A：在三个挑战性任务中，EMPG都带来显著提升。在网购导航任务中，成功率提高了7-8个百分点；在Deep Search复杂检索任务中，平均得分从62.0提升到65.3。更重要的是，EMPG在处理未见过的新任务时表现尤为出色，域外任务提升了3.9个百分点，显示出强大的泛化能力和鲁棒性。

Q3：EMPG为什么比传统方法更稳定？

A：传统方法容易出现"策略崩溃"，即训练后期性能突然大幅下降。EMPG通过自校准梯度缩放机制，在模型不确定时减弱学习更新，在确定且正确时加强学习，就像温和而有针对性的教学方式。实验显示EMPG在整个训练过程中保持稳定的KL损失，避免了传统方法在240步后出现的严重不稳定现象。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.