网易首页 > 网易号 > 正文 申请入驻

ICLR 2022 | 基于心智理论的多智能体通信与合作

0
分享至

本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。

该论文由北京大学王亦洲课题组完成。文章提出了一种基于心智理论的多智能体通信与合作方法。每个智能体基于对他人心理状态的推测独立地选择通信对象和个体行动,进而实现分布式的合作。实验表明该方法提高了多智能体合作的成功率,大幅降低了通信代价,并且具有良好的泛化性能。

图文 | 王远非

Computer Vision and Digital Art (CVDA)

论文链接:https://arxiv.org/abs/2111.09189

1

研究背景

多智能体合作是多智能体系统中的一个重要问题。我们希望每个智能体能够基于有限的局部观察独立地进行决策,但在整体上又和其余智能体一起构成团队完成共同任务。为了更好地实现合作,我们一般需要允许智能体之间通信交流重要信息以避免冲突。此前多智能体合作的相关工作大多数依赖集中训练分布执行(CTDE)框架隐式地指导智能体学习适应他人的行为模式,泛化性较差。而多智能体通信的相关工作则大都无法避免引入一个广播信道,通信代价较高。

为了解决多智能体合作问题,我们可以借鉴人类合作的机制。认知学的相关研究表明人类在合作的过程中相当依赖一种能力——“心智理论”(Theory of Mind)。具体而言,人类能够通过观察他人来推测他人的心理状态,包括意图、信念、欲望等等。基于这些推测,人类能更好地调整自身的行动以配合他人。在这篇论文中,我们将这种能力赋予智能体,使其在自身决策之前先对其他智能体的意图和观察做出推断,然后基于这些推断点对点选择通信对象,最后综合观察、推测和收到的信息做出决策。

2

方 法

在本文中,我们主要关注 Target-oriented Multi-agent Cooperation (ToMAC) 这一类合作问题。这类问题中环境存在复数个目标,智能体需要合作地调整他们与目标之间的关系来完成任务。例如多个智能体需要合作收集环境中的多个物体,或者分别导航至多个目的地。对此我们提出了基于心智理论的多智能体通信与合作框架 ToM2C(图1)。

每个智能体首先从环境中获取局部观察,然后使用 ToM 网络推测其余智能体的观察内容以及它们下一步将要选择的目标。此后,每个智能体将局部观察和推断得到的信息编码为图神经网络中的结点和边特征,通过采样得到通信连接。通信的内容是推测的接收方将要选择的目标。最后,每个智能体结合自己的观察,推断的他人目标以及接受到的信息,选择自己下一步的目标。

模型的训练大致分为两部分:ToM 网络的训练和其余部分的训练。ToM 网络训练采取监督学习的方式,使用他人实际选择的目标和实际的观察作为标签。其余部分的训练通过多智能体强化学习端到端的完成。为了防止ToM网络和策略网络在训练时之间互相影响导致难以收敛,我们将二者的训练分开,在训练其中一部分时冻结另一部分的参数。

为了进一步提高通信效率,我们还提出了一种 Communication Reduction 方法。具体而言,如果某一时刻一个智能体接收通信与否不影响最后的决策,那么我们就把所有通往这个智能体的通信连接标记为冗余,然后使用监督学习对 message sender 网络进行调整。

图1. ToM2C框架

3

实验

我们在两个环境中分别进行了实验。Cooperative Navigation (CN) 中 N 个智能体需要合作分别去往 N 个目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 个传感器需要合作覆盖M个移动的目标(图2)。

图2. 两种实验环境

实验表明,ToM2C 不仅使合作更为成功(图3),同时通信代价远低于其他 SOTA 方法(图4)。我们还进一步测试了 ToM2C 的泛化性能。在 MSMTC 环境中,我们分别使用 ToM2C 和 HiT-MAC (baseline) 在4传感器5目标的设定下训练模型,然后将它们 zero-shot transfer 到不同数量的情况(2~10个传感器/2~10个目标)。结果表明 ToM2C 具有优秀的泛化性能(图5)。

图3. 在MSMTC环境中的学习曲线和消融实验

图4. CN(左)和MSMTC(右)环境中各模型的通信带宽

图5. MSMTC环境中ToM2C和HiT-MAC的泛化性能对比,颜色越均匀则泛化性越好

4

总 结

在这篇论文中我们基于心智理论设计了一种新颖的多智能体通信与合作的机制 ToM2C。智能体通过推测他人的观察和目标来辅助通信选择和个体决策。此外,一种减少冗余通信的方法也被用于进一步提高通信效率。实验表明这一机制能够促进合作,降低通信代价并且具有良好的泛化性。

About CVDA

The Computer Vision and Digital Art (CVDA) research group was founded in 2007 within the Institute of Digital Media at Peking University led be Prof. Yizhou Wang. The group focuses on developing computational theories and models to solve challenging computer vision problems in light of biologically plausible evidences of visual perception and cognition. The primary goal of CVDA is to establish a mathematical foundation of understanding the computational aspect of the robust and efficient mechanisms of human visual perception, cognition, learning and even more. We also believe that the marriage of science and art will stimulate exciting inspirations on producing creative expressions of visual patterns.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新加坡到底在害怕什么?

新加坡到底在害怕什么?

智先生
2026-05-25 21:59:53
荷兰大使:已知晓中国自研光刻机,不会对ASML造成影响,留有后手

荷兰大使:已知晓中国自研光刻机,不会对ASML造成影响,留有后手

泠泠说史
2026-05-27 17:10:02
24小时内,杜兰特创造NBA八十年史无前例纪录,获签九千万肥约

24小时内,杜兰特创造NBA八十年史无前例纪录,获签九千万肥约

法老不说教
2026-05-27 13:03:30
事实证明,已经“消失”7年的周立波,早已走上一条不归路

事实证明,已经“消失”7年的周立波,早已走上一条不归路

素衣读史
2026-04-16 19:41:20
深圳首例 40多年老楼“原拆原建”开工

深圳首例 40多年老楼“原拆原建”开工

南方都市报
2026-05-28 07:07:13
法国总统马克龙49岁,塞尔维亚总统武契奇56岁

法国总统马克龙49岁,塞尔维亚总统武契奇56岁

扶苏聊历史
2026-05-28 18:31:33
《主角》结局:封潇潇和楚嘉禾结婚,才知易青娥的贵人是跛腿的他

《主角》结局:封潇潇和楚嘉禾结婚,才知易青娥的贵人是跛腿的他

慢半拍sir
2026-05-28 00:25:12
涉嫌严重违纪违法,金世哲被查

涉嫌严重违纪违法,金世哲被查

都市快报橙柿互动
2026-05-27 23:33:29
肖铁军任湖北省公安厅厅长,此前在江西省工作

肖铁军任湖北省公安厅厅长,此前在江西省工作

澎湃新闻
2026-05-28 16:52:26
《主角》大结局魔改原著:封潇潇成演员,米兰入狱,周玉芝最意外

《主角》大结局魔改原著:封潇潇成演员,米兰入狱,周玉芝最意外

好贤观史记
2026-05-28 11:25:16
板桥水库溃坝:24万人一夜消逝,尘封28年,真相远比天灾残酷

板桥水库溃坝:24万人一夜消逝,尘封28年,真相远比天灾残酷

小玡说故事
2026-05-15 20:07:35
1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

手工制作阿歼
2026-05-27 00:05:04
央视曝光升级版杀猪盘

央视曝光升级版杀猪盘

环球网资讯
2026-05-28 10:09:54
中央5台直播乒乓时间表:5月28日CCTV5+转播国乒!乒超传来新消息

中央5台直播乒乓时间表:5月28日CCTV5+转播国乒!乒超传来新消息

古史青云啊
2026-05-28 11:38:08
8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

易玄
2026-05-26 11:23:01
深圳隔音墙熊熊大火,是否使用阻燃材料?全封闭隔音屏障是否存在安全隐患?

深圳隔音墙熊熊大火,是否使用阻燃材料?全封闭隔音屏障是否存在安全隐患?

可达鸭面面观
2026-05-28 10:47:40
河南高速客车追尾致13死3伤,多方回应:事故车辆系客运车,该路段已正常通行

河南高速客车追尾致13死3伤,多方回应:事故车辆系客运车,该路段已正常通行

潇湘晨报
2026-05-28 11:01:14
皮尔洛:现在的足球不再容许球星特权;巴黎欧冠获胜概率60%

皮尔洛:现在的足球不再容许球星特权;巴黎欧冠获胜概率60%

懂球帝
2026-05-28 18:37:22
没想到,马斯克离开中国才一天,78岁母亲随口一句话让网友破防

没想到,马斯克离开中国才一天,78岁母亲随口一句话让网友破防

LULU生活家
2026-05-28 14:34:54
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

荷兰豆爱健康
2026-05-28 16:44:05
2026-05-28 19:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7312文章数 20754关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

头条要闻

黑车高速追尾半挂车致13死 河南车主在湖北上的牌照

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

新款吉利星愿6.18万起售 一镜到底寻找爆款密码

态度原创

健康
时尚
家居
手机
房产

专家教你辨认“正规外泌体”!

穿真丝的女人,挺时髦!

家居要闻

蜂鸟餐椅 线面交错

手机要闻

2026年3000-4000元高颜值轻薄手机推荐:这几款网红机型不容错过

房产要闻

突发重磅!三亚新机场公司正式成立!

无障碍浏览 进入关怀版