网易首页 > 网易号 > 正文 申请入驻

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增

0
分享至

PettingLLMs团队 投稿
量子位 | 公众号 QbitAI

大语言模型智能体的强化学习框架, 首次实现了通用的多智能体的“群体强化”。

在大语言模型(LLM)智能体的各种任务中,已有大量研究表明在各领域下的多智能体工作流在未经训练的情况下就能相对单智能体有显著提升。

但是现有的LLM智能体训练框架都是针对单智能体的,多智能体的“群体强化”仍是一个亟须解决的问题。

为了解决这一领域的研究痛点,来自UCSD和英特尔的研究人员,提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。



研究背景

大语言模型驱动的多智能体系统在医疗、编程、科研、具身智能等多个领域均能大幅度提升任务表现。

为训练大模型智能体,Group Relative Policy Optimization (GRPO) 已被验证为通用的有效强化学习算法。然而,当前所有针对LLM的强化学习训练框架,包括GRPO算法本身,都局限于单智能体训练的范畴。多智能体间的协作优化,即“群体强化”的学习机制,仍然是一个亟待填补的空白。

GRPO算法的核心机制是,针对同一个输入(prompt),通过多次采样生成一组候选回答。随后,算法在组内对这些回答进行评估(例如,通过一个奖励模型),并计算它们之间的相对优势。

这种优势计算的有效性与公平性依赖于一个关键假设——组内所有用于比较的候选回答,都必须基于一个完全相同的上下文(即prompt)生成。

然而,将GRPO直接应用于多智能体(multi-agent)多轮(multi-turn)环境中存在一个核心困难。

在多智能体场景下,即使是针对同一个初始问题,不同智能体在不同轮次接收到的prompt差异显著。

例如(如图所示),一个负责编程的智能体,其在第二轮的prompt不仅包含原始问题,还可能融合了第一轮中自己生成的代码以及其他智能体生成的单元测试。



因此,如果在MA环境中仍然简单地将同一个初始问题产生的所有(跨轮次、跨智能体的)回答视为一个“group”来进行优势计算,这就直接违反了GRPO所要求的“共同prompt”的核心假设。

这导致组内的优势计算基准不统一,使得计算结果不再公平或有效。

所以核心问题就是,如何既保证每个组内有一定批次量的回答,又能保证优势计算的公平。

方法概述

作者提出了一种greedy-search的树状采样方法。

每轮次每个agent形成一个节点进行K个分支,在分支以后选择此时reward最高的agent进行下一次分支。这样能够让多智能体训练能平衡好探索(exploration)与利用(exploitation)。

每一个agent的奖励函数都考虑自身角色的奖励和全局任务的奖励来保证角色专属能力和合作能力的进化。



对于多智能体的强化学习进化的另一个面临一个核心的策略问题:在何种任务下,让模型进化成不同角色的“专属模型”(specialized models)?又在何种任务下,让所有智能体共享一个“通用模型”(shared model)会更优?

为了实现两种不同的训练模式,作者搭建了如图所示的异步分发训练系统。



系统中的路由模块负责收集多智能体系统在环境中交互产生的轨迹数据。

专属模型模式下,系统可以配置多个独立的模型资源池(如图中的池i和池j)。路由模块会将智能体i的数据批次仅发送给池i的更新单元,专门更新模型i;同时将智能体j的数据批次发送给池j的更新单元,独立更新模型j。

而在共享模型模式中,相对地,路由模块也可以将所有智能体的轨迹数据合并,并全部发送给同一个模型资源池的更新单元,以集中更新一个共享模型。

通用的多智能体强化学习框架:PettingLLMs

基于该项研究,作者开源了通用的多智能体强化学习框架,使得多智能体强化学习训练开发变得敏捷、简洁、优雅。

  • 在作者现有的系统上搭建环境开发只需要任务特有的agent的交互和奖励函数。同时,作者也给环境开发设计建立了详细的环境开发教程。
  • 已有的环境也已经包括了主流的agent任务比如数学、code、游戏等。
  • 该框架支持不同模型和agent之间的任意映射。也支持每个agent适配不同的lora的方式。

实验效果

在推箱子这种长规划任务中,通过AT-GRPO训练,两个agent都得到了强化,任务性能从14%提升至96%。



作者在Qwen3-1.7B与Qwen3-8B两个规模上开展了大规模实验,覆盖规划(Sokoban、Plan-Path)、代码(LiveCodeBench、APPS、CodeContests)与数学(AIME24/25、OlympiadBench)三大类任务。



实验结果表明:

  • 规划类任务中,Sokoban从14%提升至96%,Plan-Path从47%提升至99.5%;
  • 代码生成任务中,LiveCodeBench提升+6.1%,APPS+4.2%,CodeContests+7.0%;
  • 数学推理中,AIME 24提升+9.0%,AIME 25提升+17.9%。



消融实验进一步验证了关键设计——

只在单智能体(SA)里训练,收益有限:把规划/工具等子角色各自放在 SA 环境里训练,单看各自指标会从 5.0% 提到11.0%/14.5%,但放回MAS联合作业仅到16.0%。

互换角色策略会“崩盘”:把已经学成的两个角色策略对调,准确率从96.0%→6.0%,说明两位“队友”学到的是互补但不可替代的能力。

协同越来越顺、回合越来越少:训练过程中两位代理的学习回报同步上升,任务所需平均回合数持续下降——体现出更紧密的对齐与分工协作。



PettingLLMs通过支持通用的多智能体强化学习算法,让多智能体一起学习一起进化,实现了跨任务、跨规模的通用强化学习算法。

论文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳女子公开寻亲:只要当年我不是被父母遗弃的,有多套房已为他们准备好…

深圳女子公开寻亲:只要当年我不是被父母遗弃的,有多套房已为他们准备好…

广东活动
2025-11-11 12:13:02
骤降!江苏气象发布:0℃以下!

骤降!江苏气象发布:0℃以下!

江苏警方
2025-11-11 20:35:25
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
广州地标建筑“铜钱大厦”挂拍15天无人报名,曾被网友评为“最丑建筑”,管理人回应

广州地标建筑“铜钱大厦”挂拍15天无人报名,曾被网友评为“最丑建筑”,管理人回应

极目新闻
2025-11-11 16:37:20
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

翰飞观事
2025-11-10 19:47:08
美发现:歼-36非战斗机而是战轰机,第三岛链告急

美发现:歼-36非战斗机而是战轰机,第三岛链告急

阿鄖田间生活
2025-11-10 17:34:46
向太曝光刘德华夫妇隐私!晒出与朱丽倩聊天记录,刘德华爱称曝光

向太曝光刘德华夫妇隐私!晒出与朱丽倩聊天记录,刘德华爱称曝光

八星人
2025-11-10 15:32:29
从三件事看俄乌战争胜负天平的倾斜

从三件事看俄乌战争胜负天平的倾斜

刘耘博士
2025-11-10 08:00:16
你们闻过最臭的东西是什么?网友:妇科病的味道吧

你们闻过最臭的东西是什么?网友:妇科病的味道吧

带你感受人间冷暖
2025-09-28 00:15:07
湖南人民医院祖曾艳照门时间中的三十六计

湖南人民医院祖曾艳照门时间中的三十六计

留美教师的教育及健康译介
2025-11-10 10:20:56
刘强东入局换电:京东5万开卖“网约车神车”,88秒补能500km

刘强东入局换电:京东5万开卖“网约车神车”,88秒补能500km

智能车参考
2025-11-10 20:49:37
只要4.99万!京东“国民好车”上市

只要4.99万!京东“国民好车”上市

汽车工程师
2025-11-10 11:30:28
统一有望?台出现三个情况信号不一般,专家:这是要“一国一制”

统一有望?台出现三个情况信号不一般,专家:这是要“一国一制”

历来纵横
2025-11-09 20:07:09
颠覆认知!最新研究发现:喝咖啡反让房颤复发风险暴跌39%!

颠覆认知!最新研究发现:喝咖啡反让房颤复发风险暴跌39%!

徐德文科学频道
2025-11-10 22:39:20
全运男篮:李弘权丢绝平上海惜败北京 王少杰27+6翟晓川17+15

全运男篮:李弘权丢绝平上海惜败北京 王少杰27+6翟晓川17+15

醉卧浮生
2025-11-11 15:12:17
为什么总感觉北京怪怪的

为什么总感觉北京怪怪的

霹雳炮
2025-07-31 21:13:30
佟丽娅新男友露面,对方高又帅还年轻,被赞比董璇眼光好太多

佟丽娅新男友露面,对方高又帅还年轻,被赞比董璇眼光好太多

柠檬有娱乐
2025-11-11 09:45:19
俄罗斯必须直面现实:归还领土100万,换取中国的全力支持

俄罗斯必须直面现实:归还领土100万,换取中国的全力支持

科技虎虎
2025-06-16 17:40:21
东莞往事:93年在虎门,出租屋里的大嫂,竟然成了我的人生导师

东莞往事:93年在虎门,出租屋里的大嫂,竟然成了我的人生导师

农村情感故事
2024-11-10 22:35:06
《水浒传》骗了我们几百年:宋江征方腊?他连给人家提鞋都不配

《水浒传》骗了我们几百年:宋江征方腊?他连给人家提鞋都不配

长风文史
2025-11-10 14:38:16
2025-11-11 22:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

美方代表拒绝出席第四轮国别人权审议 中方回应

头条要闻

美方代表拒绝出席第四轮国别人权审议 中方回应

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

游戏
数码
本地
公开课
军事航空

当一款“小众”游戏,被中国玩家们盘活

数码要闻

塞进RTX 5090的迷你机,配置搭载酷睿Ultra 9 CPU

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版