网易首页 > 网易号 > 正文 申请入驻

AdaSociety:智能体的“动态社交演练场”

0
分享至

复杂动态环境是孕育和检测智能的关键。环境的复杂性可以被划分为物理复杂性与社会复杂性。在AI世界中物理复杂性已被广泛研究。智能体在虚拟环境中自由探索和环境中的物体交互,而社会复杂性同样不可或缺。当智能体融入社会要面对复杂的社交关系与社会规范,只有同时应对好物理复杂性与社会复杂性,AI 才能真正迈向通用场景。

基于此北京通用人工智能研究院推出创新成果AdaSociety,它构建了一个多智能体决策环境,支持开放式物理任务和自适应社交结构,填补AI研究重要空白。AdaSociety 不只有物理任务,更是充满社会复杂性的智能体决策场。在这里智能体要学会处理开放式任务,还要学会与其他智能体建立关系、协商合作,甚至创建以自己为核心的社会组织。

复杂动态环境孕育、检测智能。在现有的经典环境中,虽然如我的世界(Minecraft)[1] 和多关节接触物理引擎(Mujoco)[2] 等平台能够模拟复杂的物理场景,却往往缺乏多智能体之间的互动;而如胡闹厨房(Overcooked)[3] 和 AI经济学家(AI Economist) [4] 等环境虽然聚焦于智能体之间的交互行为,但其物理任务的复杂性较为单一。

事实上,环境的复杂性来源于两个重要维度:物理复杂性与社会复杂性,缺少任意一方面都会导致智能体能力的局限性,使其无法在真实世界中表现出完整的适应能力。然而,目前兼具这两种复杂性的环境仍然是一个空白。

为了解决这一问题,通研院研究团队提出了一个全新的多智能体环境——AdaSociety。该环境高度可定制,融合了不断扩展的物理空间与自适应的社交结构。

在这个环境中,智能体不仅要在复杂的地图中探索资源、完成任务,还要与其他智能体建立并维护各种社交关系,共同应对挑战。这种设计使得AdaSociety能够生成大量且多样化的任务,为智能体的学习和决策提供无限可能。

二、动态物理环境

在AdaSociety中,智能体在环境中移动,通过采集资源与合成资源获取收益。有些资源是自然资源,可以从环境中直接采集;另一些资源是人造资源,需要在环境中特定的事件格上消耗手中的资源来制造。

随着智能体的采集,新的资源和事件会不断出现,发现/生产出不同的资源就可能看到并生产新的资源,任务空间随之不断扩展,为智能体提供持续的学习和探索空间。这就像人类社会在发展中不断产生前所未见的发明与发现。

在环境中,研究人员默认设置了15种资源与8种事件,他们之间的合成关系构成了一个复杂的“合成树”。此外,智能体也具有异质性,智能体可能对资源有不同的价值偏好,他们的背包能够承载的各资源容量也可以不一致。

图 AdaSociety中包含各种各样的资源与不同的事件。在事件区域可以进行资源合成形成新的资源,合成关系形成了上图中的“合成树”。

三、显式社会结构

智能体在AdaSociety中可以建立各种社交关系,这些关系会直接影响它们的决策和信息获取。在人类社会中,人们会分享利益来寻求合作共赢,也会分享所见所闻来开阔视野。在AdaSociety中,智能体也是如此。它们自主选择合作伙伴,协商利益分配,甚至创建自己的团队或组织。

AdaSociety的社交结构通过一个多层次有向图来表示,基底层的节点表示智能体个体,而高层的节点表示组织。每个智能体可以与其他节点建立不同属性的连接,也可以断开已有的连接。

不同属性社会连接可能具有不同效果。比如他们可以形成点对点之间的社交关系以共享视野,也可以通过与共同高层节点连接来形成利益共同体,共享所得收益。智能体之间、智能体与组织之间错综的连接形成复杂社交网络。

图 AdaSociety的社交结构——多层有向图。第0层的节点表示智能体个体,更高层的节点表示组织,有向边表示节点间的关系,每个节点可以与同层或相邻层的节点建立不同属性的联系。

四、任务设置

AdaSociety中内置了三个社交复杂度递进的任务。在任务Social Structure中,智能体会在给定的社交关系与给定的利益分配函数下进行行动。在任务Contract中,智能体在一开始可以选择自己的利益共同体组织,在同组织成员共享收益的条件下进行行动。在任务Negotiation中,智能体之间会先进行谈判,确定合作对象,并谈判利益分配方式,在谈判达成共识下进行行动。

图 AdaSociety内置的三个任务,对于社交关系和利益分配函数的可操作程度不同

AdaSociety提供了丰富的接口和定制选项,允许研究者根据自己的需求调整环境参数,轻松创建各式各样的任务。除了使用环境提供的内置内容以外,用户还可以通过JSON配置文件轻松定制自己的资源、事件、社会联系属性、智能体的资源偏好、背包容量以及环境初始条件等。研究人员也提供了多个API允许用户对智能体和环境进行更复杂的更改。

五、基线测试

AdaSociety支持基于神经网络的、基于语言模型的和基于规则等多类型智能体。研究团队在代码中给出了一些应用示例。研究人员测试了多个经典的决策算法,以及基于大语言模型规划器+启发式控制器的决策方法,并用多种性能评估指标,如个体奖励、公平性得分、完成率以及社交网络的平均度数和最大度数等,全面评估智能体的性能。

结果表明:当前方法均未能十分有效利用AdaSociety提供的可变的社会结构来形成合作,不过先验知识的引入对于提升算法性能有很大的作用。比如,当研究人员给算法设计由易到难的课程进行学习时,算法能够更好地学习出形成团体并合作,在给大语言模型配上带有环境先验知识的启发式控制器后,它的效果也会比PPO等不具有先验知识的算法更好。

总体而言,AdaSociety对于现有的决策方法具有合理的复杂水平。

图 在任务Social Structure中,给定不同的社会结构,PPO算法的单轮收益情况(图左1);在社交结构会在固定时间变化的环境Social Structure-Dynamic中,各基线算法的单轮收益情况(图中);在Social Structure-Dynamic中,各基线算法的训练曲线(图右)。可见社会结构会显著影响算法收益与训练。带有先验知识的课程学习方法会比纯RL方法有更大优势。

图 在任务Contract(上排)与Negotiation(下排)中,各基线算法的公平性(第一列)、合成资源量(第二列)、形成组织的最大人数(第三列)、形成组织的平均人数(第四列)。课程学习方法有助于合成更多的高级资源并形成规模较大的组织。

图 LLM规划器+基于规则的控制器在各任务上的表现。可以合成较多的高级资源,但是在最困难的Negotiation任务上没有形成大型的组织,没有达到最优的效果。

六、结语

AdaSociety是一个富有挑战性的“动态社交演练场”,有助于深入探索智能体在复杂动态环境中的决策机制、合作策略以及社交动态。我们期望通过这一平台,测试智能体同时应对物理复杂性与社会复杂性的能力。

随着人工社会智能不断发展,AdaSociety将会成为更多研究者探索通用智能体的重要平台,为多智能体系统设计和优化提供了试验田。

参考文献

[1] Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, and Anima Anandkumar. Minedojo: Building open-ended embodied agents with internet-scale knowledge. Advances in Neural Information Processing Systems, 35:18343–18362, 2022.

[2] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In 2012 IEEE/RSJ international conference on intelligent robots and systems, pages

5026–5033. IEEE, 2012.

[3] Micah Carroll, Rohin Shah, Mark K Ho, Tom Griffiths, Sanjit Seshia, Pieter Abbeel, and Anca Dragan. On the utility of learning about humans for human-ai coordination. Advances in neural information processing systems, 32, 2019.

[4] Stephan Zheng, Alexander Trott, Sunil Srinivasa, David C Parkes, and Richard Socher. The ai economist: Taxation policy design via two-level deep multiagent reinforcement learning. Science advances, 8(18):eabk2607, 2022.


来源:公众号【北京通用人工智能研究院】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浅析:白宫记者晚宴枪击事件 手持MP7冲锋枪的特工到底来自哪里?

浅析:白宫记者晚宴枪击事件 手持MP7冲锋枪的特工到底来自哪里?

hawk26讲武堂
2026-04-28 11:52:52
美军以违反对伊封锁为由在阿拉伯海拦查一艘商船

美军以违反对伊封锁为由在阿拉伯海拦查一艘商船

财联社
2026-04-29 03:50:09
一个时代终结?中美博弈再升级,美媒:中国将禁止科技公司接美资

一个时代终结?中美博弈再升级,美媒:中国将禁止科技公司接美资

大卫聊科技
2026-04-28 12:50:00
男子称被违规取保候审10余年 撤案后记录仍在怕影响孩子 当地警方:收到申诉

男子称被违规取保候审10余年 撤案后记录仍在怕影响孩子 当地警方:收到申诉

红星新闻
2026-04-28 17:18:35
网红白冰偷税911万被查,偷税手法进化三代揭秘

网红白冰偷税911万被查,偷税手法进化三代揭秘

米师傅安装
2026-04-29 00:27:09
A股:不出意外的话!明天(4月29日)的市场会这样走

A股:不出意外的话!明天(4月29日)的市场会这样走

风风顺
2026-04-29 02:05:03
1990 年,90 岁孙立人离世,他永远不知,四个子女有多厉害

1990 年,90 岁孙立人离世,他永远不知,四个子女有多厉害

历史人文2
2026-04-28 07:00:03
俄罗斯专家:特朗普还不起39万亿美元,准备弄死第一大“债主”

俄罗斯专家:特朗普还不起39万亿美元,准备弄死第一大“债主”

时分秒说
2026-04-28 14:37:46
对郑钦文的评价,其实国内国外都一样,有正有负,有尊崇,也有傲慢与偏见

对郑钦文的评价,其实国内国外都一样,有正有负,有尊崇,也有傲慢与偏见

顺静自然
2026-04-28 11:31:01
部分区域居民注意储水!广州自来水最新提醒

部分区域居民注意储水!广州自来水最新提醒

环球网资讯
2026-04-28 19:54:41
黎巴嫩真主党领导人:坚决拒绝与以色列进行直接谈判

黎巴嫩真主党领导人:坚决拒绝与以色列进行直接谈判

新京报
2026-04-27 16:51:07
瓜岛战役日军为何会惨败?美国军医:他们人均排便量是美军1.5倍

瓜岛战役日军为何会惨败?美国军医:他们人均排便量是美军1.5倍

小莜读史
2026-04-28 07:14:32
镜报:卡塞米罗将拒绝沙特高薪,决定加盟迈阿密国际

镜报:卡塞米罗将拒绝沙特高薪,决定加盟迈阿密国际

懂球帝
2026-04-29 00:11:25
先与基恩明争,后跟希勒暗斗,还看不上小贝,前英格兰队长太自我

先与基恩明争,后跟希勒暗斗,还看不上小贝,前英格兰队长太自我

足篮大世界
2026-04-28 17:09:16
40球,巴黎创队史单赛季欧冠进球数新高

40球,巴黎创队史单赛季欧冠进球数新高

懂球帝
2026-04-29 03:41:16
纳斯达克中国金龙指数跌超0.5%,金山云跌6.27%

纳斯达克中国金龙指数跌超0.5%,金山云跌6.27%

每日经济新闻
2026-04-28 21:33:37
禁止所有中国外交官入境,不让两岸统一,这个国家比美国还嚣张?

禁止所有中国外交官入境,不让两岸统一,这个国家比美国还嚣张?

梦史
2026-04-29 02:12:37
50岁男子肌肉溶解离世,医生痛心提醒:长期吃降脂药犯了5个错误

50岁男子肌肉溶解离世,医生痛心提醒:长期吃降脂药犯了5个错误

垚垚分享健康
2026-04-28 11:15:14
普京真正接班人出现了,俄罗斯唯一能打败北约的人:谁不服都不行

普京真正接班人出现了,俄罗斯唯一能打败北约的人:谁不服都不行

春序娱乐
2026-04-28 02:20:34
26场0球!曼城太子疑似失去瓜帅信任 灵气全无或无缘世界杯

26场0球!曼城太子疑似失去瓜帅信任 灵气全无或无缘世界杯

雪狼侃体育
2026-04-28 11:06:32
2026-04-29 04:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2360文章数 596关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

教育
时尚
手机
旅游
军事航空

教育要闻

教育部通知,今年9月份开始,上学的规则全变了

普通女性春天穿什么好看?这些穿搭值得借鉴,自然舒适

手机要闻

三星裸眼3D屏来了,广告牌能“跳”出来

旅游要闻

莫让内卷式竞争削弱旅游消费信心

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版