网易首页 > 网易号 > 正文 申请入驻

科学家提出具身协同方法,实现大模型多智能体高效协作

0
分享至

中国电信 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的主要研究方向为具身智能、大模型、临地安防等领域。

TeleAI 致力于构建兼容单智能体、多智能体的通用、高效、可泛化的具身大模型体系。

近期,TeleAI 联合上海人工智能实验室、清华大学、西北工业大学的研究人员,提出一种大模型驱动的具身智能体协同方法。

在多智能体强化学习框架下,实现了高效的多智能体信度分配和反馈纠错,极大提升了大模型驱动的多智能体沟通和协作能力。

日前,相关论文以《实现大模型驱动的具身多智能体高效协作》(Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration)为题发表在预印本网站 arXiv 上[1]。

图 | 相关论文(来源:arXiv)

此前,大语言模型在具身智能中主要用于解决单智能体的任务规划问题。然而,由于大模型知识和特定的具身环境不对齐,大模型产生的规划往往难以在环境中执行。

举例来说,在打扫房间的任务中,大模型给出的规划可能是首先找到吸尘器。然而,环境中可能没有吸尘器,只能通过扫帚能完成该任务。

此时,大模型需要通过和环境的多轮交互和反馈来使其适应于具身环境,因而具有高昂的交互代价。

在多智能体环境中,每个智能体都使用大模型进行控制。在多个智能体协同完成任务时,除了会遇到类似单智能体的环境不适配问题,还存在多智能体如何高效沟通和协作的难题。

如果直接通过多智能体对话协商,来进行协作的方法是低效的。一方面,很难完全通过对话得出有效的协同策略;另一方面,无法衡量单个智能体对总体任务目标的贡献(即信度分配),难以驱动每个智能体改进策略来提升总体收益。

为了解决以上问题,李学龙教授团队提出了一种通过多智能体强化学习的大模型反馈方式,大大提升了群体沟通和环境反馈的效率。

图 | 李学龙(来源:李学龙)

受人类社会协同机制的启发,研究人员开始了该项研究。

具体来说,人类团队在合力完成任务时,往往需要一个“评价者”的角色,来衡量每个人对团队总体目标作出的贡献,从而指导个体的努力方向,保证整体目标的顺利完成。

研究人员解释说道:“如果缺乏‘评价者’而完全依靠个体沟通来进行协同,每个人往往很难把握自身工作对团队总体目标是否有益。”

基于此,该研究在大模型协同中引入了“优势函数”作为类似的“评价者”的角色,并根据多智能体强化学习为群体策略提升提供了理论基础。

首先,研究人员通过采集大模型驱动的多智能体和环境的交互历史,使用蒙特卡洛估计法学习群体动作的优势函数。

随后,根据多智能体优势函数分解理论,总体优势函数被分解成单个智能体的优势函数,这让精确度量智能体个体行为对总体的贡献成为可能。

研究人员表示:“优势函数分解体现了总体回报对个体行为的信度分配,实现了隐式的智能体沟通协调,替代了低效的对话式沟通方式。”

如下图所示,在每个智能体提示引入优势函数,大模型能够从动作和优势函数的关系中,进行推理并产生优势函数大的动作,从而提升群体收益。

(来源:arXiv)

上述过程利用大模型作为优化器,通过推理最大化个体的优势函数,来提升群体收益。

此外,该研究还设计了一套反馈优化的流程。当大模型产生非正向优势函数的动作时进行反馈调整,在理论上保证了群体收益的单调提升。

(来源:arXiv)

在该研究中,研究人员将重点放在构建高效的大模型驱动的多智能体协同机制,使用仿真的多机器人协作平台 RoCoBench 和 Overcooked-AI 进行验证。这些任务都需要智能体具有高度的协同能力,来完成诸如扫地、做早餐、叠方块等任务。

举例来说,在做早餐任务中(如下图所示),两个机器人需要高度的协同,将不同的食材进行搭配来完成。

(来源:arXiv)

该方法在工业机器人协作、自动驾驶和物流运输以及开放领域的无人协同等领域,具有广泛的应用前景。

  • 工业机器人协作。

在工业场景中,完成一项任务往往需要驱动多个机器人进行协作。通过大模型对智能体控制,能够使多智能体在任务执行中进行高效沟通和协同,并具备从失败中进行恢复的泛化能力,在和环境交互中不断提升能力。

  • 自动驾驶和物流运输。

考虑多个自动驾驶或物流运输单元进行协同,目标是最大化总体运输效率。通过该研究的优势函数分解理论能够实现大模型驱动的个体信度分配,每个运输单元通过决策中提升群体的收益,提升总体运输效率。

  • 开放领域的无人协同。

通过大模型驱动无人集群对完成任务时,通过高效的协调机制使每个智能体承担不同的角色,并采取合适的动作保证总体目标的完成。大模型具备很强的泛化和推理能力,能在不断变化的开放领域中发挥重要作用。

据介绍,在后续的研究中,研究人员计划在两方面开展工作:

其一,进一步提升在多智能体系统扩展至包含数十个甚至上百个单元时的多协同,此时对强化学习优势函数的拟合将会存在困难,需要更加高效的多智能体价值分解方法,或采取分组和编队的方式实现大规模群体的协同。

其二,大模型在实际应用中采用边缘计算单元时存在计算瓶颈,难以实现高频决策和快速推理。因此,还将尝试将大模型的推理能力通过蒸馏的方法维持在一个较小的模型中,并通过人类反馈的方式对齐大小模型的能力。

参考资料:

1.https://arxiv.org/abs/2405.14314

2.https://read-llm.github.io/

运营/排版:何晨龙

01/ 连续工作11天吸附性能仍为100%,科学家成功研发带电吸附剂,已着手开发空气直接碳捕集系统

02/ 科学家制备仿钻石超结构,兼具光物理性能和光催化性能,可用于构建纳米尺度的电子器件

03/ 科学家发现氢气制备新机制,并重新评估水氧化催化剂设计原理,为研究铱基材料带来新见解

04/ 触碰科技边界,探索改变世界的无限可能!近80位科技领袖与青年人才一周后星耀上海

05/ 科学家揭示全新微生物代谢方式,硝酸盐去除率均接近100%,为废水反硝化提供新范式

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯在库页岛发现汉字石碑,我国专家赶到后,碑上内容让人尴尬

俄罗斯在库页岛发现汉字石碑,我国专家赶到后,碑上内容让人尴尬

疯狂的小历史
2026-01-16 11:35:56
600亿抄底!美财长的学生竟然收购了中国万达,难怪王健林会输!

600亿抄底!美财长的学生竟然收购了中国万达,难怪王健林会输!

蜉蝣说
2026-01-11 17:51:23
上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

上甘岭战役,美军为何不用喷火器?志愿军的办法,让美军头疼不已

墨说古今
2026-01-05 16:37:54
45岁仍拍三级片,败光两任亿万家产,62岁坦言后悔嫁给钟镇涛

45岁仍拍三级片,败光两任亿万家产,62岁坦言后悔嫁给钟镇涛

无人倾听无人倾听
2026-01-17 15:17:25
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
女子连续五天向出轨丈夫公开“道歉” 律师:声明内容须经法院审核

女子连续五天向出轨丈夫公开“道歉” 律师:声明内容须经法院审核

封面新闻
2026-01-17 13:33:30
王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

王者回归!全红婵重返国家队,陈若琳押对了,能冲洛杉矶奥运吗

卿子书
2026-01-17 11:22:03
吴彦祖稍微倒腾一下,还是一骑绝尘。如果他再植发,还要年轻20岁

吴彦祖稍微倒腾一下,还是一骑绝尘。如果他再植发,还要年轻20岁

付老师种植技术团队
2026-01-04 15:30:22
恭喜!中国美女高尔夫球手官宣订婚,未婚夫为泰国著名F1车手

恭喜!中国美女高尔夫球手官宣订婚,未婚夫为泰国著名F1车手

全景体育V
2026-01-17 07:48:47
26+6!威少暴揍老东家,舒服~

26+6!威少暴揍老东家,舒服~

柚子说球
2026-01-17 19:13:30
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

壹知眠羊
2026-01-17 16:29:52
成都警方通报一起金店被盗案:已抓获5名嫌疑人,赃物全部追回

成都警方通报一起金店被盗案:已抓获5名嫌疑人,赃物全部追回

澎湃新闻
2026-01-16 22:15:03
深圳一公交广告惹争议,网友:为了孩子怎样都值

深圳一公交广告惹争议,网友:为了孩子怎样都值

映射生活的身影
2026-01-15 13:50:18
楼上大爷偷我快递不认,我换地址把寄去公司,几天后物业打来电话

楼上大爷偷我快递不认,我换地址把寄去公司,几天后物业打来电话

秋风专栏
2025-10-06 11:43:21
医生问“自费还是医保”,千万记住这3句话,能省好几千!

医生问“自费还是医保”,千万记住这3句话,能省好几千!

据说说娱乐
2026-01-16 12:20:31
三次婚姻两度丧子!59岁无子女的张卫健,王晶为何称毫无悲惨

三次婚姻两度丧子!59岁无子女的张卫健,王晶为何称毫无悲惨

胡一舸南游y
2026-01-17 13:40:05
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
嫁法国老头真相大白5个月,41岁李宇春近况曝光,一点也不意外

嫁法国老头真相大白5个月,41岁李宇春近况曝光,一点也不意外

小熊侃史
2026-01-17 07:50:11
敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

刘哥谈体育
2026-01-17 10:41:47
2026-01-17 19:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16137文章数 514493关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

头条要闻

美交通部长:进口4.9万辆中国电动汽车 加拿大要后悔

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
亲子
房产
艺术
数码

家居要闻

岁月柔情 现代品质轻奢

亲子要闻

2026宝宝奶粉解析:皇家美素佳儿好不好

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

张旭偷传颜真卿的“书法秘诀”!把这12条看懂,保你少走10年弯路

数码要闻

消息称苹果2026 - 2028年为5款产品升级OLED屏幕

无障碍浏览 进入关怀版