强化学习定制多轮对话AI智能体的新方法|算法|实验|用例|大模型

强化学习定制多轮对话AI智能体的新方法

2026-01-22 22:10:15　来源: 至顶头条

北京举报

分享至

在当今快速发展的人工智能环境中，组织机构越来越需要在特定领域和业务环境中表现出色的AI智能体。尽管通用人工智能系统在广泛任务中展现出令人印象深刻的能力，但当它们部署在需要深度理解特定工作流程、工具和组织需求的专业环境中时，往往表现不佳。

在最新研究中，亚马逊网络服务AI实验室的科学家们一直在研究如何在不需要机器学习广泛专业知识或过高计算资源的情况下，有效地将通用智能体适配到特定领域。通过在两个不同用例——个人助理智能体和智能体增强检索生成（RAG）——中进行系统实验，我们证明了基于强化学习的定制可以显著提高不同用例的任务成功率，即使使用相对较少的训练数据。

智能体定制的挑战

考虑一个客户服务智能体，需要导航复杂的内部系统，理解公司特定政策，并在数千次交互中保持一致的品牌声音。或者想象一个编码助手，必须适应特定组织的编码标准、架构模式和开发工作流程。这些场景需要的不仅仅是现成的AI解决方案：它们需要能够系统地定制和优化以适应其预期环境的智能体。我们的工作探索了使用强化学习来定制此类智能体。

为了为我们的实验建立实用基础，我们做了几个简化假设。我们主要专注于异步多轮智能体，这些智能体可以使用工具自主完成任务，结果可以根据基准真值进行验证。这种方法减少了我们对模拟用户的依赖，同时保持了适用于许多场景的框架。

此外，我们利用了来自公共基准数据集和智能体的现有环境和工具模拟器，使我们能够专注于核心强化学习方法，而不是从头开始构建模拟基础设施。对于奖励信号，我们依赖直接从环境中获得的可验证反馈，如任务完成率、代码执行成功率或信息检索准确性。这些约束为开始我们的实验提供了最少的条件，同时保持场景的现实性。

实验设置和方法

对于涉及个人助理智能体的实验，我们使用了AppWorld基准，该基准涉及通过手机应用程序交互完成日常活动。对于智能体RAG实验，我们实施了用于智能信息检索和合成的DeepSearch智能体，使用了两个不同的数据集。对于奖励函数，我们依赖基于环境的可验证反馈进行AppWorld，以及RAG任务的精确匹配和语义准确性。

我们的强化学习训练框架有两个主要组件：在线模拟器和在线强化学习训练器。在线模拟器接收一批任务并产生一批轨迹展开——智能体与其环境之间的交互序列，通常涉及数十个API调用。它还通过对基准真值进行检查为每个轨迹产生奖励。

在线强化学习训练器接收轨迹展开和来自在线模拟器的奖励来更新演员策略。在内部，在线强化学习训练器具有演员、评论家（用于近似策略优化，它近似任何一个训练示例在策略更新期间应该被给予的最优权重）和参考模型等组件。在在线强化学习训练器中更新演员策略后，演员模型的权重与在线模拟器中的智能体同步。

强化学习流水线详解

让我们更仔细地看看强化学习流水线，以AppWorld实验为例。首先，模拟器基于提供的任务ID并行模拟智能体和AppWorld环境之间的交互，并产生一批轨迹展开。我们将考虑其中一个轨迹，它展示了智能体如何系统地将高级指令——"为文件添加日期前缀并将非当前年份文件移动到回收站"——分解为跨多个应用程序和推理步骤的32个离散API调用序列。

智能体首先使用主管提供的凭据对文件系统进行身份验证，然后通过内省调用有条理地探索可用API。每个步骤都涉及对下一个行动的明确推理，当API不符合预期时的错误处理（如智能体发现没有"rename_file"函数并适应，改为使用"move_file"），以及在多个文件操作中维护状态。

该轨迹展示了智能体处理日期和时间复杂解析、迭代文件集合以及在不同目录结构间协调操作同时维护数据完整性的能力。关键是，环境提供关于任务执行是否成功的可验证信息，使强化学习框架能够通过具体、可测量的结果进行学习，而不是在每一步都需要人工评估。此外，奖励仅在最后一轮收集，这种稀疏奖励收集相对于类似方法提供了显著的性能优势。

实验结果与发现

以下综合表格显示，强化学习可以显著提升智能体在不同用例中的性能，即使将相对较小的训练数据集应用于相对较小的模型。

用例：个人助理智能体，数据集：AppWorld，基础模型：Qwen2.5-32B-Instruct，基础模型性能：39.20%，强化学习训练后性能：72%（相比Sonnet 3.7/4.0约69%），指标：任务目标完成率

用例：智能体RAG，数据集：NQ，基础模型：Qwen2.5-3b-Base，基础模型性能：0.106，强化学习训练后性能：0.406，指标：精确匹配

用例：智能体RAG，数据集：Musique，基础模型：Llama-3.2-3B-inst，基础模型性能：0.04，强化学习训练后性能：0.1，指标：精确匹配

以下是我们的一些实验发现：

更大的基础模型在绝对性能上从强化学习训练中获得更大收益。这可能源于它们在训练期间生成更高质量的轨迹展开，创造了增强强化学习过程的正反馈循环。

将在线强化学习定制应用于能力日益增强的基础模型可能会解锁超越当前专有模型建立的基准的性能，这些专有模型通常比基础模型大几倍或复杂几倍。

以1%到2%的成本通过小规模强化学习训练（AppWorld中72个示例）实现接近专有模型的性能，展示了模型定制经济学的根本转变。在某些情况下，在线强化学习从第一个训练步骤就显示出直接有效性，在30步内快速进展到竞争性性能。

强化学习训练还诱导了可能有用的特定行为改进，例如在编写代码之前总是检查API文档，这导致代码错误的减少。模型还在提示变化中维护稳健的语义理解，即使精确匹配分数下降，也表明了真正的理解而不是模式匹配。

在我们的实验中，较小的模型面临基本推理限制（无法识别无法回答的问题或从相关上下文中提取答案），仅靠强化学习无法克服。对于受限模型，从更有能力的模型进行有针对性的蒸馏可能比扩展强化学习训练更有效。

基于这些发现，我们建议投资在线强化学习作为智能体定制的方法，适用于助理智能体和其他用例，如编码智能体。然而，在部署中出现了几个值得仔细关注的关键因素：数据质量和格式正确性在流水线的每个阶段都被证明是必要的；更大的基础模型从强化学习训练中展示了不成比例的好处；战略任务选择——在训练期间优先考虑更难的问题——通过对简单任务的不对称转移实现了更高效的学习。

展望未来，我们的研究路线图专注于两个主要方向。第一个是通过合成数据生成和自适应数据过滤来扩展我们方法的适用性，以提高训练效率。第二个是通过跨模型家族的更彻底比较、超越基于结果指标的奖励信号探索和流水线优化来加深我们对强化学习算法的理解。这些研究旨在使基于强化学习的智能体定制对寻求部署在特定操作环境中真正出色的AI智能体的组织更加可访问、高效和有效。

我们最新的研究论文——"SALT：通过轨迹图为长期智能体进行步骤级优势分配"和"通过技能库自我改进智能体的强化学习"——展示了智能体强化学习算法的进一步进展，通过细粒度优势分配和智能体技能学习的奖励塑造，进一步证明了该领域的巨大潜力。

Q&A

Q1：什么是基于强化学习的AI智能体定制？

A：基于强化学习的AI智能体定制是一种将通用AI系统适配到特定业务领域和环境的方法。通过强化学习训练，智能体能够学会特定组织的工作流程、工具使用和业务需求，从而在专业环境中表现更出色。

Q2：这种方法相比传统AI系统有什么优势？

A：该方法可以显著提升任务成功率，在AppWorld实验中从39.20%提升到72%。同时，以1%到2%的成本就能实现接近专有大模型的性能，大大降低了模型定制的经济门槛，并能快速适应特定业务场景。

Q3：强化学习训练需要多少数据才能见效？

A：研究表明，即使使用相对较少的训练数据也能取得显著效果。在AppWorld实验中，仅用72个训练示例就实现了大幅性能提升。在某些情况下，在线强化学习从第一个训练步骤就显示出效果，在30步内就能达到竞争性性能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.