网易首页 > 网易号 > 正文 申请入驻

AlphaGo作者领衔,DeepMind新作登Science子刊

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

一群机械臂手忙脚乱地自己干活,彼此配合、互不碰撞。

科幻大片场景真的走入现实了。优雅,实在是优雅。

△视频中为4个机械臂,在仿真环境下4个安装在桌子上,另外4个安装在天花板上。

这就是发表在Science子刊Science Robotics上,由DeepMind、Intrinsic AI和UCL等研究机构共同提出的最新成果——RoboBallet(机器芭蕾)。

RoboBallet创新性地将图神经网络(GNN)用于强化学习,作为其策略网络和状态-动作价值估计,以解决多机器人(机械臂)协作运动规划中的复杂问题。

这一方法最多可以同时控制8个机械臂,协调多达56个自由度的配置空间,并处理多达40个共享任务, 每一步规划仅需0.3毫秒,且任务分配和调度完全不受约束。

值得一提的是,这篇论文的通讯作者——Matthew Lai,可谓是谷歌DeepMind的资深研究员。自2016年加入谷歌DeepMind以来,他曾参与过AlphaGoAlphaZero等明星项目。

利用图神经网络与强化学习

总的来说,RoboBallet的核心是把图神经网络与强化学习结合起来,采用图神经网络(GNN)作为策略网络和状态-动作价值估计,解决了大规模多机器人任务分配、调度和运动规划的联合问题,实现了在计算上高效、可扩展且能零样本泛化的高质量轨迹规划

具体来说,在现代自动化制造中,核心挑战在于如何让多个机器人在共享的、充满障碍物的空间中无碰撞地高效协作,以完成大量任务(如焊接、装配等)。

这涉及到三个高度复杂的子问题:

  • 任务分配(Task Allocation):决定哪个机器人执行哪个任务,以最小化总执行时间。
  • 任务调度(Task Scheduling):决定任务的执行顺序。
  • 运动规划(Motion Planning):在关节空间中寻找一条无碰撞路径,使机器人末端执行器移动到目标姿态。

这三个子问题一组合,复杂度急剧增加,传统算法在真实场景中往往难以计算可行解,工业界目前主要依赖耗时且劳动密集的人工规划。

因此,为了应对这种高维复杂性,RoboBallet就被用来在随机生成的环境中进行任务和运动规划,其能够为与训练期间所见环境不同的环境(具有任意障碍物几何形状、任务姿态和机器人位置)规划多臂抓取轨迹。

为了实现这一点,RoboBallet在数据表示层面,创新性地将整个场景建模为图结构

其中,图中的节点代表场景中的核心实体,包括机器人、任务和障碍物,而边(Edge)则表示这些实体之间的关系(例如,相对姿态)。

机器人节点之间存在双向边,以支持相互协调和避碰。而任务节点和障碍物节点到机器人节点则存在单向边,用于向机器人传递规划所需的环境信息(如图c)

接下来,RoboBallet使用图神经网络(GNN)作为策略网络,通过权重共享来处理不断变化的图大小。其以观测图作为输入,并在每个时间步为所有机器人生成指令关节速度。这使得机械臂能够在只接收原始状态作为输入的情况下,进行关系和组合推理。

而在具体的策略学习和评估阶段,RoboBallet通过微调TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法来训练策略网络,使模型能够生成多机械臂轨迹,同时解决任务分配、调度和运动规划等子问题,使得昂贵的在线计算转移到了离线训练阶段。

(注:在此任务中,机械臂因成功解决任务和避免碰撞而获得奖励)

同时,为了解决稀疏奖励的问题,RoboBallet还采用了Hindsight Experience Replay方法,使模型能够在没有人工设计的奖励函数的情况下高效学习。

在具体的部署方面,RoboBallet使用Franka Panda七自由度机械臂、在随机障碍物和任务的模拟环境进行训练。

为了验证性能,研究团队在一个包含4(8)个机器人、40个任务和30个障碍物的模拟工作单元中进行测试,并与RRT-Connect方法进行比较。值得一提的是,这一切都只需在一块 GPU(图形处理单元)上完成,无论是真实的还是模拟的多臂工作单元。

实验表明,RoboBallet在多个关键指标上表现出色:

在训练时间的扩展性方面,即使任务数量增加四倍,RoboBallet收敛所需的训练步数也只是略有增加。

在规划速度方面。实验表明,在推理阶段,即便是包含8个机器人和40个任务的最大场景,每个规划步在NVIDIA A100上只需约0.3毫秒,能够实现10 Hz时间步下超过300倍的实时规划速度

在单个Intel Cascade Lake CPU核心上,每个步长大约需要30毫秒,在10Hz时间步下仍比实时快约3倍。每个规划步骤包括对整个场景进行一次推理和一次碰撞检测。

在多智能体协同方面,随着机器人数量从4个增加到8个 ,平均执行时间减少了约60%

而在泛化性方面,模型在随机生成的环境中训练后,无需额外训练即可零样本迁移(zero-shot)到具有不同机器人位置、障碍物几何形状和任务姿态的新环境中。

最后,RoboBallet 的高速和可扩展性使其能够应用于工作单元布局优化(将任务执行时间缩短了33%)、容错规划和基于在线感知的重新规划等新能力。

[1]https://x.com/GoogleDeepMind/status/1965040645103407572

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

事情闹大了?日本内阁连发公告,中国态度 告诉了世界一个铁的事实

呼呼历史论
2026-03-26 14:28:13
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

暖心萌阿菇凉
2026-03-25 22:01:09
抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

抗日战争的转折点是什么?为何这场大战后,日本高层面如死灰

诺言卿史录
2026-03-21 09:32:10
手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

手握5个CBA冠军,曾获吉尼斯世界纪录,37岁不退役,仍在赛场拼搏

泠泠说史
2026-03-25 21:46:54
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

A股市场全线收绿,沪指低开低走下跌40点,五日均线再次失守

投资观
2026-03-26 14:59:17
韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

韦世豪有牌面,登上FIFA海报!国足vs库拉索首发浮现,打平踢点球

球场没跑道
2026-03-26 12:12:22
比亚迪官宣,3月29日,新车预售发布

比亚迪官宣,3月29日,新车预售发布

沙雕小琳琳
2026-03-26 14:24:53
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

陈羽凡现状:低调生活,50岁胖到认不出,17岁儿子1米8长得像妈

三公子娱乐丫
2025-05-17 17:59:45
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

奥字侃剧
2026-03-25 08:29:10
中疾控发布提示:我国面临较大疫情输入风险

中疾控发布提示:我国面临较大疫情输入风险

随州派
2026-03-24 11:44:16
14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

14年过去了,再看“癞蛤蟆吃到天鹅肉”的王大治,如今怎么样了?

以茶带书
2026-03-12 18:13:51
这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

这才是大国重器!中国正式摊牌,目标800万亿宝藏,美欧噩梦成真

说宇宙
2026-03-25 14:36:48
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

55年授衔,当主席看到名单中有个熟悉的名字,大笔一挥:他不是少将

睡前讲故事
2025-12-12 13:58:11
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

内塔尼亚胡称“继续全力”空袭伊朗 美媒称以方担心特朗普突然停战

环球网资讯
2026-03-26 06:26:07
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
2026-03-26 15:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12347文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
游戏
数码
家居
军事航空

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

家居要闻

傍海而居 静观蝴蝶海

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版