网易首页 > 网易号 > 正文 申请入驻

科学家提出具身协同方法,实现大模型多智能体高效协作

0
分享至

中国电信 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的主要研究方向为具身智能、大模型、临地安防等领域。

TeleAI 致力于构建兼容单智能体、多智能体的通用、高效、可泛化的具身大模型体系。

近期,TeleAI 联合上海人工智能实验室、清华大学、西北工业大学的研究人员,提出一种大模型驱动的具身智能体协同方法。

在多智能体强化学习框架下,实现了高效的多智能体信度分配和反馈纠错,极大提升了大模型驱动的多智能体沟通和协作能力。

日前,相关论文以《实现大模型驱动的具身多智能体高效协作》(Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration)为题发表在预印本网站 arXiv 上[1]。

图 | 相关论文(来源:arXiv)

此前,大语言模型在具身智能中主要用于解决单智能体的任务规划问题。然而,由于大模型知识和特定的具身环境不对齐,大模型产生的规划往往难以在环境中执行。

举例来说,在打扫房间的任务中,大模型给出的规划可能是首先找到吸尘器。然而,环境中可能没有吸尘器,只能通过扫帚能完成该任务。

此时,大模型需要通过和环境的多轮交互和反馈来使其适应于具身环境,因而具有高昂的交互代价。

在多智能体环境中,每个智能体都使用大模型进行控制。在多个智能体协同完成任务时,除了会遇到类似单智能体的环境不适配问题,还存在多智能体如何高效沟通和协作的难题。

如果直接通过多智能体对话协商,来进行协作的方法是低效的。一方面,很难完全通过对话得出有效的协同策略;另一方面,无法衡量单个智能体对总体任务目标的贡献(即信度分配),难以驱动每个智能体改进策略来提升总体收益。

为了解决以上问题,李学龙教授团队提出了一种通过多智能体强化学习的大模型反馈方式,大大提升了群体沟通和环境反馈的效率。

图 | 李学龙(来源:李学龙)

受人类社会协同机制的启发,研究人员开始了该项研究。

具体来说,人类团队在合力完成任务时,往往需要一个“评价者”的角色,来衡量每个人对团队总体目标作出的贡献,从而指导个体的努力方向,保证整体目标的顺利完成。

研究人员解释说道:“如果缺乏‘评价者’而完全依靠个体沟通来进行协同,每个人往往很难把握自身工作对团队总体目标是否有益。”

基于此,该研究在大模型协同中引入了“优势函数”作为类似的“评价者”的角色,并根据多智能体强化学习为群体策略提升提供了理论基础。

首先,研究人员通过采集大模型驱动的多智能体和环境的交互历史,使用蒙特卡洛估计法学习群体动作的优势函数。

随后,根据多智能体优势函数分解理论,总体优势函数被分解成单个智能体的优势函数,这让精确度量智能体个体行为对总体的贡献成为可能。

研究人员表示:“优势函数分解体现了总体回报对个体行为的信度分配,实现了隐式的智能体沟通协调,替代了低效的对话式沟通方式。”

如下图所示,在每个智能体提示引入优势函数,大模型能够从动作和优势函数的关系中,进行推理并产生优势函数大的动作,从而提升群体收益。

(来源:arXiv)

上述过程利用大模型作为优化器,通过推理最大化个体的优势函数,来提升群体收益。

此外,该研究还设计了一套反馈优化的流程。当大模型产生非正向优势函数的动作时进行反馈调整,在理论上保证了群体收益的单调提升。

(来源:arXiv)

在该研究中,研究人员将重点放在构建高效的大模型驱动的多智能体协同机制,使用仿真的多机器人协作平台 RoCoBench 和 Overcooked-AI 进行验证。这些任务都需要智能体具有高度的协同能力,来完成诸如扫地、做早餐、叠方块等任务。

举例来说,在做早餐任务中(如下图所示),两个机器人需要高度的协同,将不同的食材进行搭配来完成。

(来源:arXiv)

该方法在工业机器人协作、自动驾驶和物流运输以及开放领域的无人协同等领域,具有广泛的应用前景。

  • 工业机器人协作。

在工业场景中,完成一项任务往往需要驱动多个机器人进行协作。通过大模型对智能体控制,能够使多智能体在任务执行中进行高效沟通和协同,并具备从失败中进行恢复的泛化能力,在和环境交互中不断提升能力。

  • 自动驾驶和物流运输。

考虑多个自动驾驶或物流运输单元进行协同,目标是最大化总体运输效率。通过该研究的优势函数分解理论能够实现大模型驱动的个体信度分配,每个运输单元通过决策中提升群体的收益,提升总体运输效率。

  • 开放领域的无人协同。

通过大模型驱动无人集群对完成任务时,通过高效的协调机制使每个智能体承担不同的角色,并采取合适的动作保证总体目标的完成。大模型具备很强的泛化和推理能力,能在不断变化的开放领域中发挥重要作用。

据介绍,在后续的研究中,研究人员计划在两方面开展工作:

其一,进一步提升在多智能体系统扩展至包含数十个甚至上百个单元时的多协同,此时对强化学习优势函数的拟合将会存在困难,需要更加高效的多智能体价值分解方法,或采取分组和编队的方式实现大规模群体的协同。

其二,大模型在实际应用中采用边缘计算单元时存在计算瓶颈,难以实现高频决策和快速推理。因此,还将尝试将大模型的推理能力通过蒸馏的方法维持在一个较小的模型中,并通过人类反馈的方式对齐大小模型的能力。

参考资料:

1.https://arxiv.org/abs/2405.14314

2.https://read-llm.github.io/

运营/排版:何晨龙

01/ 连续工作11天吸附性能仍为100%,科学家成功研发带电吸附剂,已着手开发空气直接碳捕集系统

02/ 科学家制备仿钻石超结构,兼具光物理性能和光催化性能,可用于构建纳米尺度的电子器件

03/ 科学家发现氢气制备新机制,并重新评估水氧化催化剂设计原理,为研究铱基材料带来新见解

04/ 触碰科技边界,探索改变世界的无限可能!近80位科技领袖与青年人才一周后星耀上海

05/ 科学家揭示全新微生物代谢方式,硝酸盐去除率均接近100%,为废水反硝化提供新范式

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

恩爱剧本不演了?奚梦瑶提离婚,何猷君掀桌子私生子传闻真相大白

秋姐居
2026-04-04 22:23:29
数艘美国军舰通过霍尔木兹海峡

数艘美国军舰通过霍尔木兹海峡

每日经济新闻
2026-04-11 21:23:28
嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

揽星河的笔记
2026-04-10 18:42:07
互射对方球门!北京10岁孩子集体踢假球原因曝光:不想赢球当头名

互射对方球门!北京10岁孩子集体踢假球原因曝光:不想赢球当头名

念洲
2026-04-11 07:46:32
蔡正元真会给自己找事!进监狱都不闲着,开起了“蔡正元讲堂”!

蔡正元真会给自己找事!进监狱都不闲着,开起了“蔡正元讲堂”!

达文西看世界
2026-04-06 16:34:17
胴体,不要再读tóng tǐ了,丢不起那个人!

胴体,不要再读tóng tǐ了,丢不起那个人!

未央看点
2026-04-12 00:02:08
出生一个月后,她被陈丽华收养,如今是集团董事,享有同等继承权

出生一个月后,她被陈丽华收养,如今是集团董事,享有同等继承权

云景侃记
2026-04-09 19:48:26
孙杨:与张豆豆已有孩子

孙杨:与张豆豆已有孩子

南方都市报
2026-04-09 19:55:35
2万7买块"砖头"听歌,这圈子我属实看不懂了

2万7买块"砖头"听歌,这圈子我属实看不懂了

固件更新中
2026-04-11 09:26:09
8次击败日本赛犬,霍思燕带狗又拿国际冠军!是真厉害

8次击败日本赛犬,霍思燕带狗又拿国际冠军!是真厉害

草莓信箱
2026-04-11 09:21:02
国羽4胜2负收官包揽金银,韩国锁定1金

国羽4胜2负收官包揽金银,韩国锁定1金

铿锵格斗
2026-04-11 21:53:37
又打起来了,以色列发起斩首行动,伊朗轰炸六国,特朗普恼羞成怒

又打起来了,以色列发起斩首行动,伊朗轰炸六国,特朗普恼羞成怒

甜心猫独宠
2026-04-11 22:59:05
房企官宣,楼市最难时刻已过

房企官宣,楼市最难时刻已过

谢晖说房
2026-04-11 21:56:55
台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

史记云烟
2026-04-09 19:00:07
董路发文回击黄健翔,称对阵英格兰二队还被摁在禁区,他们到头了

董路发文回击黄健翔,称对阵英格兰二队还被摁在禁区,他们到头了

体坛风之子
2026-04-11 07:00:09
郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

阅微札记
2026-04-10 19:55:07
约会时刺激女人荷尔蒙的方法,“摸”女人4个地方,99%会动情

约会时刺激女人荷尔蒙的方法,“摸”女人4个地方,99%会动情

热心市民小黄
2026-04-11 19:25:39
李金羽:球队今天踢得非常好,但遗憾有太多机会没有把握住

李金羽:球队今天踢得非常好,但遗憾有太多机会没有把握住

懂球帝
2026-04-11 23:15:23
乌度卡透露最终战轮休主力!无缘前4因三分命门 火记提前展望夏天

乌度卡透露最终战轮休主力!无缘前4因三分命门 火记提前展望夏天

颜小白的篮球梦
2026-04-11 13:12:32
哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

健康之光
2026-01-05 14:22:46
2026-04-12 00:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16567文章数 514863关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
游戏
时尚
健康
军事航空

教育要闻

留学为什么不香了?

排面拉满!《影之刃零》入选国家级艺术杂志

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

干细胞抗衰4大误区,90%的人都中招

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版