网易首页 > 网易号 > 正文 申请入驻

ICLR 2022 | 基于心智理论的多智能体通信与合作

0
分享至

本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。

该论文由北京大学王亦洲课题组完成。文章提出了一种基于心智理论的多智能体通信与合作方法。每个智能体基于对他人心理状态的推测独立地选择通信对象和个体行动,进而实现分布式的合作。实验表明该方法提高了多智能体合作的成功率,大幅降低了通信代价,并且具有良好的泛化性能。

图文 | 王远非

Computer Vision and Digital Art (CVDA)

论文链接:https://arxiv.org/abs/2111.09189

1

研究背景

多智能体合作是多智能体系统中的一个重要问题。我们希望每个智能体能够基于有限的局部观察独立地进行决策,但在整体上又和其余智能体一起构成团队完成共同任务。为了更好地实现合作,我们一般需要允许智能体之间通信交流重要信息以避免冲突。此前多智能体合作的相关工作大多数依赖集中训练分布执行(CTDE)框架隐式地指导智能体学习适应他人的行为模式,泛化性较差。而多智能体通信的相关工作则大都无法避免引入一个广播信道,通信代价较高。

为了解决多智能体合作问题,我们可以借鉴人类合作的机制。认知学的相关研究表明人类在合作的过程中相当依赖一种能力——“心智理论”(Theory of Mind)。具体而言,人类能够通过观察他人来推测他人的心理状态,包括意图、信念、欲望等等。基于这些推测,人类能更好地调整自身的行动以配合他人。在这篇论文中,我们将这种能力赋予智能体,使其在自身决策之前先对其他智能体的意图和观察做出推断,然后基于这些推断点对点选择通信对象,最后综合观察、推测和收到的信息做出决策。

2

方 法

在本文中,我们主要关注 Target-oriented Multi-agent Cooperation (ToMAC) 这一类合作问题。这类问题中环境存在复数个目标,智能体需要合作地调整他们与目标之间的关系来完成任务。例如多个智能体需要合作收集环境中的多个物体,或者分别导航至多个目的地。对此我们提出了基于心智理论的多智能体通信与合作框架 ToM2C(图1)。

每个智能体首先从环境中获取局部观察,然后使用 ToM 网络推测其余智能体的观察内容以及它们下一步将要选择的目标。此后,每个智能体将局部观察和推断得到的信息编码为图神经网络中的结点和边特征,通过采样得到通信连接。通信的内容是推测的接收方将要选择的目标。最后,每个智能体结合自己的观察,推断的他人目标以及接受到的信息,选择自己下一步的目标。

模型的训练大致分为两部分:ToM 网络的训练和其余部分的训练。ToM 网络训练采取监督学习的方式,使用他人实际选择的目标和实际的观察作为标签。其余部分的训练通过多智能体强化学习端到端的完成。为了防止ToM网络和策略网络在训练时之间互相影响导致难以收敛,我们将二者的训练分开,在训练其中一部分时冻结另一部分的参数。

为了进一步提高通信效率,我们还提出了一种 Communication Reduction 方法。具体而言,如果某一时刻一个智能体接收通信与否不影响最后的决策,那么我们就把所有通往这个智能体的通信连接标记为冗余,然后使用监督学习对 message sender 网络进行调整。

图1. ToM2C框架

3

实验

我们在两个环境中分别进行了实验。Cooperative Navigation (CN) 中 N 个智能体需要合作分别去往 N 个目的地。Multi-Sensor Multi-Target Coverage (MSMTC) 中 N 个传感器需要合作覆盖M个移动的目标(图2)。

图2. 两种实验环境

实验表明,ToM2C 不仅使合作更为成功(图3),同时通信代价远低于其他 SOTA 方法(图4)。我们还进一步测试了 ToM2C 的泛化性能。在 MSMTC 环境中,我们分别使用 ToM2C 和 HiT-MAC (baseline) 在4传感器5目标的设定下训练模型,然后将它们 zero-shot transfer 到不同数量的情况(2~10个传感器/2~10个目标)。结果表明 ToM2C 具有优秀的泛化性能(图5)。

图3. 在MSMTC环境中的学习曲线和消融实验

图4. CN(左)和MSMTC(右)环境中各模型的通信带宽

图5. MSMTC环境中ToM2C和HiT-MAC的泛化性能对比,颜色越均匀则泛化性越好

4

总 结

在这篇论文中我们基于心智理论设计了一种新颖的多智能体通信与合作的机制 ToM2C。智能体通过推测他人的观察和目标来辅助通信选择和个体决策。此外,一种减少冗余通信的方法也被用于进一步提高通信效率。实验表明这一机制能够促进合作,降低通信代价并且具有良好的泛化性。

About CVDA

The Computer Vision and Digital Art (CVDA) research group was founded in 2007 within the Institute of Digital Media at Peking University led be Prof. Yizhou Wang. The group focuses on developing computational theories and models to solve challenging computer vision problems in light of biologically plausible evidences of visual perception and cognition. The primary goal of CVDA is to establish a mathematical foundation of understanding the computational aspect of the robust and efficient mechanisms of human visual perception, cognition, learning and even more. We also believe that the marriage of science and art will stimulate exciting inspirations on producing creative expressions of visual patterns.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
头对头击败司美格鲁肽!《柳叶刀》重磅:3期临床证实,新型口服药降糖、减重效果优于司美

头对头击败司美格鲁肽!《柳叶刀》重磅:3期临床证实,新型口服药降糖、减重效果优于司美

医诺维
2026-02-27 17:08:46
向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

谈史论天地
2026-02-10 08:16:24
原来不是AI!郭士强场边抢断富永启生视频曝光,球迷都看乐了!

原来不是AI!郭士强场边抢断富永启生视频曝光,球迷都看乐了!

篮球资讯达人
2026-02-27 11:57:39
刚刚!黄金、白银、石油直线暴涨!

刚刚!黄金、白银、石油直线暴涨!

中国基金报
2026-02-27 22:26:02
依法从严治军:多名军队人大代表被罢免,原因清晰明确

依法从严治军:多名军队人大代表被罢免,原因清晰明确

雪中风车
2026-02-26 23:14:11
昆凌知三当三,周杰伦绿了田馥甄!?

昆凌知三当三,周杰伦绿了田馥甄!?

八卦疯叔
2026-02-27 10:35:17
2026年春晚,释放了3个信号,普通人要清醒

2026年春晚,释放了3个信号,普通人要清醒

老特有话说
2026-02-25 22:03:08
教育部发布会答封面新闻:北京市破除唯分数论导向,减轻学生应试负担和焦虑

教育部发布会答封面新闻:北京市破除唯分数论导向,减轻学生应试负担和焦虑

封面新闻
2026-02-27 17:49:29
“儿子下肢已坏了,你还让他跳绳!”低认知的残忍,只有自我感动

“儿子下肢已坏了,你还让他跳绳!”低认知的残忍,只有自我感动

蝴蝶花雨话教育
2026-02-24 15:29:04
一文梳理!巴基斯坦和阿富汗“冲突烈度超过以往”,都发生了什么?

一文梳理!巴基斯坦和阿富汗“冲突烈度超过以往”,都发生了什么?

环球网资讯
2026-02-27 20:00:36
安踏给谷爱凌做的这身龙袍,直接把耐克、阿迪的团队看傻了!

安踏给谷爱凌做的这身龙袍,直接把耐克、阿迪的团队看傻了!

达文西看世界
2026-02-26 19:41:39
疯狂的“电子茅台”:价格暴涨10倍,有商家称“年入百万”

疯狂的“电子茅台”:价格暴涨10倍,有商家称“年入百万”

天下网商
2026-02-27 10:20:53
惨烈的仗,要打到2030年?

惨烈的仗,要打到2030年?

中国新闻周刊
2026-02-26 22:44:14
东北人的宿命:离开东北

东北人的宿命:离开东北

快刀财经
2026-02-25 22:13:17
围炉煮茶,为啥凉了?

围炉煮茶,为啥凉了?

放牛娃的遐想
2026-02-25 08:14:29
据悉日内瓦谈判上午时段伊朗所告知内容令美方“失望”

据悉日内瓦谈判上午时段伊朗所告知内容令美方“失望”

财联社
2026-02-27 02:59:08
曼城若遭重罚恐致英超天翻地覆:或扣60分直接垫底降级

曼城若遭重罚恐致英超天翻地覆:或扣60分直接垫底降级

星耀国际足坛
2026-02-27 23:18:17
郭晶晶随霍启刚现身香港艺术节,夫唱妇随温柔得体,尽显恩爱幸福

郭晶晶随霍启刚现身香港艺术节,夫唱妇随温柔得体,尽显恩爱幸福

李橑在北漂
2026-02-27 20:51:49
“沪七条”政策落地显效:中介带看量环比翻倍,有买家新政当天看房下定

“沪七条”政策落地显效:中介带看量环比翻倍,有买家新政当天看房下定

澎湃新闻
2026-02-27 19:02:26
垮塌大桥21份合同里竟有18份违法分包,莫让“草台班子”毁了安全根基

垮塌大桥21份合同里竟有18份违法分包,莫让“草台班子”毁了安全根基

极目新闻
2026-02-27 17:14:40
2026-02-28 01:03:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7095文章数 20732关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

艺术
家居
教育
健康
房产

艺术要闻

紫气东来,好运一整年!

家居要闻

素色肌理 品意式格调

教育要闻

扩招+报考降温!考研历年报录比趋势分析

转头就晕的耳石症,能开车上班吗?

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

无障碍浏览 进入关怀版