网易首页 > 网易号 > 正文 申请入驻

IJCAI 2024 | 多智能体强化学习新范式:个性化训练与蒸馏执行

0
分享至

大家好,这里和大家分享一篇我们在多智能体强化学习(MARL)领域关于新的训练范式的文章(Accepted by IJCAI 2024)。

这篇文章展示了如何通过个性化的集中式训练得到一个强大的集中式执行算法,然后通过知识蒸馏的方式使得智能体决策既受益于全局信息同时又能实现分散式执行,从而提升多智能体系统的协作性能。

论文标题: PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning 论文链接: https://arxiv.org/pdf/2210.08872 代码链接: https://github.com/AntNLP/nope_head_scale

一、研究背景与挑战

在现实世界的许多任务中,如多机器人导航、避障、无人机路径规划等,都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。

最常见的范式是集中式训练分散式执行(Centralized Training with Decentralized Execution, CTDE),这种范式在训练时利用全局信息促进各个智能体实现协作行为,在执行时只使用局部信息,是观测信息受限情况下的一种很好的训练 & 执行范式。

但如何在满足 CTDE 范式的前提下,还能在分散式决策过程中充分受益于全局信息,进而提升多智能体的协作表现呢?本文提出了一种新颖的范式(Personalized Training with Distilled Execution, PTDE)来实现这一目标。

二、PTDE的核心思想

PTDE 范式符合 CTDE 的要求,但与传统 CTDE 不同的是 PTDE 强调为每个智能体提供个性化的全局信息,并通过知识蒸馏将这些个性化的全局信息通过智能体的局部信息预测得到。这种方法不仅大大提升了智能体集中式执行的性能,而且转变为分散式执行时的性能下降也是在可接受范围内的。

三、研究方法

PTDE 包含两个训练阶段。

第一阶段,通过全局信息个性化(GIP)模块为每个智能体提供个性化的全局信息 。(Figure 2)

全局信息个性化(GIP)模块

第二阶段,使用知识蒸馏技术,将个性化的全局信息 蒸馏到仅依赖于智能体局部信息的学生网络中,即学生网络根据局部信息生成个性化全局信息的替代品 。(Figure 4)

特定化的知识蒸馏

经过两阶段的训练后,在执行阶段用 替代 ,就可以实现完全分散式的执行并且受益于特定化的全局信息。

两阶段训练&分散式执行

四、实验结果

我们在 StarCraft II、Google Research Football 和搜索排序(LTR)等不同的测试平台上进行了广泛的实验。

实验结果表明:

  • unified 的全局信息对多智能体的协作不一定起到积极作用。

  • 个性化的全局信息相比于 unified 的全局信息来说,一般更有利于多智能体的协作。

  • 知识蒸馏后,由集中式执行转变为分散式执行的性能下降是在可接受范围内的。

  • 基于 PTDE 范式的算法可以在不同类型的环境 & 任务中取得不错的性能。

  • PTDE 范式可以很好地适配现有的 MARL 算法,如基于值分解的 QMIX、VDN,以及基于 Actor-Critic 架构的 MAPPO 等。

以下是本文实验部分的一些基本数据,分别是在 StarCraft II、Google Research Football 和搜索排序(LTR)多个任务上的结果:

星际争霸实验结果

谷歌足球实验结果

搜索排序实验结果

文章的实验部分展示了更多充分且详细的实验曲线&结果分析,具体可进一步参考原文( http://arxiv.org/pdf/2210.08872 )。

五、结论与展望

PTDE 作为一种新的多智能体强化学习范式,通过个性化的全局信息和知识蒸馏技术,有效地提升了多智能体系统的协作决策能力。

以上就是对 PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning(http://arxiv.org/pdf/2210.08872)这篇文章的分享,如果感兴趣的话推荐阅读原文(http://arxiv.org/pdf/2210.08872)。如果想要讨论任何问题或者有任何建议,欢迎交流!

此外,还要宣传一下我们将 MARL 应用于搜索结果多样性排序(Search Result Diversification, SRD)的文章,探索 MARL 在更多场景应用的可能性:

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification https://arxiv.org/pdf/2403.17421.pdf

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卫冕失败!斯瓦泰克0-2爆冷遭伊埃拉横扫无缘16强 终结温网9连胜

卫冕失败!斯瓦泰克0-2爆冷遭伊埃拉横扫无缘16强 终结温网9连胜

醉卧浮生
2026-07-04 22:52:29
撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

撕破脸了!郭德纲曝儿子猛料仅24小时,杨议怒骂,郭汾阳成赢家

胡一舸南游y
2026-07-04 18:09:56
2020年佛得角废除了体育总局,然后……

2020年佛得角废除了体育总局,然后……

熊太行
2026-07-04 11:01:14
86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

86名员工薪资花掉1285万!韩红基金会的钱,到底是怎么来的?

垛垛糖
2026-07-04 13:36:20
船都绕着走,“再不治理迟早出大事”

船都绕着走,“再不治理迟早出大事”

中国新闻周刊
2026-07-04 19:46:11
英媒:佛得角打进淘汰赛获1100万美元奖金,相当于该国GDP的0.3%

英媒:佛得角打进淘汰赛获1100万美元奖金,相当于该国GDP的0.3%

懂球帝
2026-07-04 17:45:09
韩红基金会被曝猛料,比6年的“贪污上亿”还夸张,央视也下场了

韩红基金会被曝猛料,比6年的“贪污上亿”还夸张,央视也下场了

笑饮孤鸿非
2026-07-04 21:38:41
最新报告:全国每100户家庭中 就有一户净资产超600万!

最新报告:全国每100户家庭中 就有一户净资产超600万!

叶初七
2026-07-04 09:44:35
58中33!自由市场第一前锋!勇士最快速度签约

58中33!自由市场第一前锋!勇士最快速度签约

篮球实战宝典
2026-07-04 21:46:46
情侣住酒店亲密时遭窗外男子偷窥,法院:偷拍者赔7000元,酒店承担20%补充责任,两方出具书面道歉

情侣住酒店亲密时遭窗外男子偷窥,法院:偷拍者赔7000元,酒店承担20%补充责任,两方出具书面道歉

台州交通广播
2026-07-04 06:52:20
公务员们悄悄在用的电脑操作系统,体制外再馋也没用

公务员们悄悄在用的电脑操作系统,体制外再馋也没用

基本常识
2026-07-04 01:42:17
世卫组织宣布:疫情结束

世卫组织宣布:疫情结束

闪电新闻
2026-07-03 15:28:28
苹果6款新品上架,真的有点猛啊

苹果6款新品上架,真的有点猛啊

科技堡垒
2026-07-03 10:48:54
“高考估分715查分299 女孩称试卷不是自己的”?四川绵阳市教体局核查:纯属谣言 查无此人

“高考估分715查分299 女孩称试卷不是自己的”?四川绵阳市教体局核查:纯属谣言 查无此人

闪电新闻
2026-07-02 12:26:25
人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

人伦大乱正在毁掉无数中国家庭:3种乱象就在日常,拖垮一家人

阿凯销售场
2026-07-04 15:35:28
张雪称负债将近1亿!这个月就不是亿万“负”翁了,股份卖给顶级资本,“再也不欠钱了”,“努力干,它会变成10个亿”

张雪称负债将近1亿!这个月就不是亿万“负”翁了,股份卖给顶级资本,“再也不欠钱了”,“努力干,它会变成10个亿”

每日经济新闻
2026-07-05 00:02:35
给泰山安装刀片刺网,在古代要被砍头

给泰山安装刀片刺网,在古代要被砍头

黔有虎
2026-07-03 16:49:25
香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

香港网红向郭富城、方媛道歉,承认发活动照片时只P了自己,没有“修饰”郭富城夫妇;否认恶意丑化他人,称他俩状态非常出色

鲁中晨报
2026-07-04 09:30:04
LV批量起诉惹争议,网友:你敢起诉人民币吗?

LV批量起诉惹争议,网友:你敢起诉人民币吗?

映射生活的身影
2026-07-04 20:06:13
库兹马炮轰NBA工资帽:下个CBA是球员生死时刻

库兹马炮轰NBA工资帽:下个CBA是球员生死时刻

绿茵狂热者
2026-07-05 01:24:00
2026-07-05 01:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
本地
数码
家居
公开课

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版