网易首页 > 网易号 > 正文 申请入驻

清华大学提出新方案,提升大模型多智能体推理能力!

0
分享至



近日,清华大学等机构的研究团队提出了MARSHAL框架。该框架利用强化学习,让大模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水平,更将其推理能力有效泛化到了通用的多智能体系统:在如数学竞赛和专家级问答等一般推理任务中,显著提升了多智能体系统的整体表现。



  • 论文标题:MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs
  • 论文链接:https://arxiv.org/abs/2510.15414
  • 项目主页:https://thu-nics.github.io/MARSHAL/
  • 代码开源:https://github.com/thu-nics/MARSHAL
  • 模型仓库:https://huggingface.co/collections/nics-efc/marshal

一、 背景与挑战

尽管 DeepSeek-R1 等大模型已在数学、问答等单轮、单智能体场景中,验证了可验证奖励强化学习(RLVR)对提升推理能力的巨大价值;但在多智能体系统(MAS)复杂的多轮、多智能体交互场景中,这一方法的应用仍处于探索阶段。具体而言,将 RLVR 拓展至多智能体领域面临着两大核心技术挑战:

  • 多轮交互的信用分配:现有的单轮 RLVR 方法难以精准地将最终结果回溯并分配给每一个具体的轮次或动作,进而影响了模型的有效学习。
  • 多智能体的优势估计:不同智能体通常具有高度的异构性,其在优势估计(advantage estimation)中的优势基准(baseline)存在显著差异,导致多智能体联合训练难以收敛,策略表现波动剧烈。

为了解决上述问题,为多智能体系统训练更强的推理模型,清华大学研究团队提出了MARSHAL(Multi-Agent Reasoning through Self-play witH strAtegic LLMs)框架,通过策略游戏中的多智能体自博弈和端到端强化学习,激发大模型的在通用多智能体系统中的推理决策能力。



图 1 MARSHAL 在策略游戏的表现及通用推理基准泛化性能

核心实验结果:

  • 策略游戏:多智能体博弈决策表现显著提升,测试游戏胜率提升高达28.7%。
  • 泛化表现:将模型集成至通用多智能体系统中时,在一般推理任务中展现出显著泛化性 ——AIME 准确率提升10.0%(AutoGen 框架 [1]);GPQA-Diamond 准确率提升7.6%(MAD 框架 [2]);所有基准测试平均提升3.5%。

二、MARSHAL 方法介绍



图 2 MARSHAL 框架概览

面向策略游戏自博弈中多轮次、多智能体训练的挑战,MARSHAL 基于 Group-Relative Policy Optimization (GRPO) 架构,提出了两项关键算法改进:

  • 轮次级优势估计器 (Turn-level Advantage Estimator):针对多轮交互中的信用分配问题,MARSHAL 摒弃了经典单轮 GRPO 粗糙的轨迹级评估,引入精细的轮次级(Turn-level)奖励机制,并设计了 “先求累计和再归一化(Sum-then-Normalize)” 的方法进行稳定的优势计算。
  • 分角色的优势归一化 (Agent-specific Advantage Normalization):针对角色异构性导致的回报分布差异,MARSHAL 实施了严格区分角色的归一化策略:在计算优势时,系统不再将所有智能体混为一谈,而是根据角色的不同(例如 “玩家 1” 与 “玩家 2”)将数据分组。

为了培养全面的多智能体推理能力,研究团队精心挑选了六款策略游戏(其中三款用于训练,另外三款用于测试),涵盖了从简单到复杂、从竞争到合作的多种博弈类型。



图 3 MARSHAL 使用的游戏集合

三、核心实验

研究团队以 Qwen3-4B 为基线模型,在三款训练游戏(Tic-Tac-Toe、Kuhn Poker、Mini Hanabi)中训练了两种类型的智能体:

  • 专家智能体 (Specialist):仅在单一游戏上训练。
  • 通用智能体 (Generalist):在所有三款游戏上混合训练。

游戏策略能力的泛化

MARSHAL 训练出的专家智能体在各自的同类型游戏中展现出出色的泛化性;通用智能体则在所有游戏类型中的综合表现最佳,在测试游戏中取得了高达28.7%的胜率提升。这些结果表明,模型并非仅仅记住了特定游戏的规则,而是真正掌握了通用的博弈逻辑(如 “先手优势利用”、“信息推断” 等),并能将其灵活泛化到全新的游戏环境中。



图 4 MARSHAL 专家智能体在各类策略游戏中的胜率对比

通用推理能力的泛化

这是本研究最核心的实验,研究团队将 MARSHAL 模型作为基座集成到主流的多智能体框架(MAD 和 AutoGen)中,测试其在7种数学和问答基准测试上的成绩,最终得到两个关键结论:

  • 在策略游戏中习得的多智能体博弈能力,能够跨域泛化到通用的多智能体系统中,提升系统在一般推理任务中的表现。综合表现最强的 MARSHAL 通用智能体在数学测试 AIME 和问答测试 GPQA 中分别取得高达10.0%和7.6%的提升;在所有测试中的平均提升高达3.5%。
  • 能力泛化领域高度对齐:在竞争性多智能体系统 MAD 中,竞争性游戏(Tic-Tac-Toe)训练的模型表现更优;而在合作性多智能体系统 AutoGen 中,合作性游戏(Hanabi)训练的模型表现更优。



图 5 MARSHAL 智能体在数学和问答推理测试中的泛化表现

以上实验结果强有力地证明了自博弈是提升多智能体系统推理能力的磨刀石。此外,在扩展到 8B 模型的实验中,MARSHAL 依然保持了强劲的增长势头,验证了该方法良好的可扩展性(Scalability)。

四、推理模式分析:模型学到了什么?

为了探究 MARSHAL 成功泛化的原因,研究团队从定性和定量两个维度进行了深入分析。

  • 定性分析:通过对思维链(Chain-of-Thought)的深入解读,研究发现游戏训练激发了模型两项关键的涌现能力:1)角色意识(Role-Awareness),根据自身角色调整决策策略;2)意图识别(Intent Recognition),在不确定信息场景中根据其他智能体的决策动作判断其意图。



图 6 推理模型定性分析

  • 定量分析(Quantitative Analysis):为了进一步量化 MARSHAL 带来的多智能体推理能力的提升,研究团队对多智能体系统进行了失败模式分析。结果显示,MARSHAL 将智能体间未对齐(Inter-Agent Misalignment)的情况减少了 11.5%,显著提升了模型在跨智能体的沟通效率和理解能力。



图 7 失败模式定量分析

五、消融实验

自博弈 vs 固定对手

与固定专家对手进行训练相比,自博弈展现出了不可替代的优势。实验发现,针对固定对手训练的模型容易对训练环境过拟合,在测试游戏中性能急剧下降。



图 8 MARSHAL 自博弈和固定对手训练方式在策略游戏中的对比

优势估计算法设计

研究团队通过逐步移除核心算法组件,验证了 MARSHAL 算法设计的必要性:1)轮次级优势估计的精细信用分配是处理长序列决策的关键;2)分角色归一化在角色回报差异大的竞争性游戏中(如 Tic-Tac-Toe)影响巨大,而在角色回报分布相似的合作游戏(如 Hanabi)中影响则相对较小。



图 9 MARSHAL 算法设计的消融实验



图 10 角色回报分布的差异性分析

六、总结

该项研究工作提出了MARSHAL框架,通过在策略游戏中进行自博弈,成功增强了大语言模型在多智能体系统中的推理能力,提高了其在一般推理任务中的表现。核心结论如下:

  • 验证了策略游戏自博弈的泛化性:在简单的策略游戏中通过自博弈习得的博弈技巧(如角色意识、意图识别)能够泛化到通用多智能体系统,在一般的推理任务中取得显著的效果提升。
  • 提出了有效的技术方案:通过轮次级优势估计和分角色的归一化等算法设计,为多轮、多智能体强化学习中的稳定训练提供了有效方案。

尽管目前主要聚焦于双人博弈,但 MARSHAL 为未来通向更复杂的 “社会沙盒”(如多智能体协作编程、搜索、科研等)指明了潜在方向:自博弈不仅是 AlphaGo 战胜人类的法宝,也能成为大模型迈向更高阶群体智能的关键引擎。

参考文献

[1] Wu, Qingyun, et al. "Autogen: Enabling next-gen llm applications via multi-agent conversation." COLM 2024.

[2] Liang, Tian, et al. "Encouraging divergent thinking in large language models through multi-agent debate." EMNLP 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
陈伟霆儿子满月照曝光!全身发紫胳膊上有包,长相公开更像父亲

陈伟霆儿子满月照曝光!全身发紫胳膊上有包,长相公开更像父亲

陈意小可爱
2026-01-12 07:02:56
果然“换帅如换刀”。郑永刚带领深圳马可波罗爆冷战胜上海久事。

果然“换帅如换刀”。郑永刚带领深圳马可波罗爆冷战胜上海久事。

史樍
2026-01-14 12:30:44
2-3爆冷!9-0惨案!疯狂一夜,罗马出局,马赛狂胜,曼城掀翻纽卡

2-3爆冷!9-0惨案!疯狂一夜,罗马出局,马赛狂胜,曼城掀翻纽卡

足球狗说
2026-01-14 06:40:08
曝35岁徐冬冬已怀孕!50岁尹子维紧张护肚,两人将在2月举办婚礼

曝35岁徐冬冬已怀孕!50岁尹子维紧张护肚,两人将在2月举办婚礼

叶公子
2026-01-13 17:31:57
“贵妃出浴”雕像袒露上身,没那么容易败坏社会风气|新京报快评

“贵妃出浴”雕像袒露上身,没那么容易败坏社会风气|新京报快评

新京报
2026-01-14 13:29:14
弗拉格19岁创79年NBA空前纪录,已锁定顶薪合同

弗拉格19岁创79年NBA空前纪录,已锁定顶薪合同

心也简单
2026-01-13 14:50:36
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

瓜汁橘长Dr
2025-12-29 11:29:56
老公一说晚点到家,保姆就悄悄出门,第2天我给保姆涨了2千工资

老公一说晚点到家,保姆就悄悄出门,第2天我给保姆涨了2千工资

秀秀情感课堂
2025-12-11 16:15:08
36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

桃烟读史
2025-12-31 21:38:26
国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

国籍争议不到1年,人民日报公开点名谷爱凌,邓亚萍的话有人信了

阅微札记
2025-12-22 14:28:33
刘强东和章泽天刚领证那会,刘强东41岁,章泽天还差一个月满22岁

刘强东和章泽天刚领证那会,刘强东41岁,章泽天还差一个月满22岁

沉思默想的人
2026-01-14 07:24:08
以色列宣布退出多家联合国 机构 称存在“反以偏见 ”

以色列宣布退出多家联合国 机构 称存在“反以偏见 ”

每日经济新闻
2026-01-14 07:39:08
张本智和被打的哑火了!林诗栋终于觉醒了,王励勤看的热血沸腾

张本智和被打的哑火了!林诗栋终于觉醒了,王励勤看的热血沸腾

林子说事
2026-01-14 08:57:17
董璇没想到,央剧《小城大事》播出仅3天,张维伊竟实现口碑逆转

董璇没想到,央剧《小城大事》播出仅3天,张维伊竟实现口碑逆转

素衣读史
2026-01-13 16:01:44
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

阿器谈史
2025-12-26 15:26:05
叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

清风鉴史
2025-12-24 15:02:13
A股:散户听我一句劝,3万亿反包刷新高,下午要出现更大级别行情?

A股:散户听我一句劝,3万亿反包刷新高,下午要出现更大级别行情?

股市皆大事
2026-01-14 11:44:54
雪上加霜,闫学晶帐户被禁止关注,多家公司被曝,王丽云说得没错

雪上加霜,闫学晶帐户被禁止关注,多家公司被曝,王丽云说得没错

徐帮阳
2026-01-13 17:55:03
一锤在锤!檀健次恋情升级,女方再放猛料,这次恐凉凉了

一锤在锤!檀健次恋情升级,女方再放猛料,这次恐凉凉了

洲洲影视娱评
2026-01-11 14:59:31
2026-01-14 14:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12112文章数 142536关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

沪深北交易所提高融资保证金比例

汽车要闻

曝Model Y或降到20万以内!

态度原创

本地
时尚
艺术
公开课
军事航空

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

【年度爱用】她们2025年买得最值的,是这些

艺术要闻

八大山人『山水花鸟册』

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版