网易首页 > 网易号 > 正文 申请入驻

NeurIPS | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

对于人类而言,一旦掌握了 “打开瓶盖” 的动作,面对 “拧紧螺丝” 这样的任务通常也能游刃有余,因为这两者依赖于相似的手部动作。然而,对于机器人来说,即使是这样看似简单的任务转换依然充满挑战。例如,换成另一种类型的瓶盖,机器人可能无法成功打开。这表明,目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑,而只是单纯的依赖于数据拟合。

针对该问题,来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型,借助 VLMs 作为机器人的大脑,理解任务之间的动作关联性,并通过 “世界模型” 获取对未来动作的表征,从而更好地帮助机器人学习和决策。该方法显著提升了机器人的学习能力,并保持良好的泛化性。

  • 论文地址:https://arxiv.org/abs/2410.10394
  • 项目主页:https://abliao.github.io/PIVOT-R/

研究动机

当前,现有机器人操作任务有两个关键问题:

  1. 机器人模型在开放世界中表现差且不稳定:许多机器人操作模型虽然能够处理复杂任务,但往往直接将用户指令和视觉感知映射到低层次的可执行动作上,而忽略了操作任务中关键状态(路径点)的建模。这种方式容易使模型记住表面数据模式,导致模型在开放环境中表现脆弱。模型缺乏对关键路径点的预测,使得每个动作的随机性可能逐步放大,降低了任务的执行成功率。
  2. 计算效率低:随着模型的增大(例如 RT-2, RT-H),运行速率随之降低,无法满足机器人任务实时性的需求。

为了解决上述问题,研究团队提出了 PIVOT-R,一种原语驱动的路径点感知世界模型。如上图所示,对比左图现有的方法,右图展示了 PIVOT-R 通过关注与任务相关的路径点预测,提升机器人操作的准确性,并设计了一个异步分层执行器,降低计算冗余,提升模型的执行效率。

这样做有几个好处:

  1. 它使得模型可以更好的学习任务与动作之间的内在关联性,减少其他干扰因素的影响,并更好地捕捉不同任务之间的相似性(例如,拧瓶盖和拧螺丝的动作是相似的,拿杯子和搭积木都有一个抓住物体的过程),从而使得模型可以在多任务数据下学习到可迁移的知识。
  2. 通过世界模型建模的方式获得对未来关键动作的表征,避免了文本语言带来的模糊性、不确定性。
  3. 通过异步执行的方式,确保各模块独立运行、互不阻塞,从而有效避免了大模型导致的低速率问题。

研究方法

原语动作解析

PIVOT-R 的第一个核心步骤是原语动作解析,这一步通过预训练的视觉 - 语言模型(VLM)来解析用户的语言指令。VLM 可以将复杂的自然语言指令转换为一组简单的原语动作,例如 “靠近”、“抓取”、“移动” 等。这些原语动作为机器人提供了操作任务的粗略路径。

具体流程如下:

  1. 用户输入的语言指令(例如 “请给我那个杯子”)首先被输入到 VLM 中,VLM 会将其解析为与任务相关的原语动作(如 “靠近杯子”、“抓取杯子”)。
  2. 原语动作作为提示,指导机器人在接下来的步骤中专注于特定的操作轨迹点。这种方式确保机器人不会被复杂的环境因素干扰,而是明确知道每个动作的目的。

路径点预测

在原语动作解析后,PIVOT-R 的下一步是路径点预测。路径点代表了机器人操控过程中一些关键的中间状态,例如靠近物体、抓取物体、移动物体等。通过预测路径点,PIVOT-R 能够在机器人执行任务时提供明确的操作指导。具体来说,通过一个 Transformer 架构的模型,预测路径点对应的视觉特征,为后续的动作预测模块提供指引。

动作预测模块

动作预测模块负责根据预测的路径点生成具体的低层次机器人动作。它以路径点为提示,结合机器人历史状态(如位置、姿态等),计算下一步应该执行的动作。该模块使用轻量级的 Transformer 架构进行动作预测,确保计算效率和性能的平衡。这一模块的设计重点在于低延迟和高精度执行操控任务。

异步分层执行器

此外,PIVOT-R 还引入了一个关键的执行机制,即异步分层执行器。与以往的机器人模型不同,PIVOT-R 并不对所有模块在每一步都进行同步更新,而是为不同模块设置了不同的执行频率,以多线程的方式进行异步更新,从而提升执行速度。

实验

作者在具有复杂指令的 SeaWave 仿真环境和真实环境下进行实验。

如 Table 1 和 Table 2 所示,PIVOT-R 在仿真环境和真实环境都取得了最优的效果,同时,模型的速度和 RT-1 等方法速度相近,没有因为使用大模型而导致速度变慢。

作者也在 SeaWave 上做了泛化性测试,在三种泛化性测试场景下,PIVOT-R 仍保持远高于其他模型的成功率。

研究总结

PIVOT-R 通过引入原语动作驱动的路径点感知,显著提升了机器人在复杂操控任务中的性能。该模型不仅在执行效率上具备优势,还能够更好地应对复杂、多变的环境。该方法在仿真环境和真实环境操纵下表现优异,为机器人学习提供了一个新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西湖大学打了谁的脸?外籍学生学费35万一年,国内学生仅6千元

西湖大学打了谁的脸?外籍学生学费35万一年,国内学生仅6千元

妍妍教育日记
2026-02-24 18:35:18
“DeepSeek打破惯例,不让英伟达先用了”

“DeepSeek打破惯例,不让英伟达先用了”

观察者网
2026-02-26 09:44:08
好消息:2026年起70岁以上老人可享优待,农民也不例外

好消息:2026年起70岁以上老人可享优待,农民也不例外

风雨与阳光
2026-02-25 22:03:05
希望我国出手相助?计划在中国建厂,还承诺将整条生产线搬来我国

希望我国出手相助?计划在中国建厂,还承诺将整条生产线搬来我国

古事寻踪记
2026-01-18 07:06:23
白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

网络易不易
2026-01-20 10:17:46
特朗普苦等4天,被中方“泼了冷水”,来不了北京?中国话里有话

特朗普苦等4天,被中方“泼了冷水”,来不了北京?中国话里有话

嫹笔牂牂
2026-02-25 14:26:29
送他走吧!湖人109-110惜败魔术,詹姆斯砍21+6+4,东契奇22+9+15

送他走吧!湖人109-110惜败魔术,詹姆斯砍21+6+4,东契奇22+9+15

星Xin辰大海
2026-02-25 15:10:22
特朗普突放大招,稀有金属要变天?

特朗普突放大招,稀有金属要变天?

每日经济新闻
2026-02-25 15:52:23
我为什么那么厌恶高市早苗

我为什么那么厌恶高市早苗

天真无牙
2026-02-23 11:06:20
50岁重回单身!加拿大前第一夫人苏菲谈离婚后生活:当特鲁多与水果姐出双入对,她活出了另一种美...

50岁重回单身!加拿大前第一夫人苏菲谈离婚后生活:当特鲁多与水果姐出双入对,她活出了另一种美...

二胎妈妈圈
2026-02-25 21:46:23
北京庙会离谱谢幕:京味儿消亡史,一场关于"智商税"的集体记忆

北京庙会离谱谢幕:京味儿消亡史,一场关于"智商税"的集体记忆

据说说娱乐
2026-02-25 15:41:39
从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

从左权之妻到改嫁左权秘书,再到山西夺权,刘志兰究竟经历了什么

旧书卷里的长安
2026-02-22 00:08:58
上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

大铁猫娱乐
2026-02-08 00:10:03
美军不想打仗,跑到航母最底层甲板的厕所,往马桶里丢垃圾

美军不想打仗,跑到航母最底层甲板的厕所,往马桶里丢垃圾

安安说
2026-02-26 10:29:39
特朗普突然发文昭告全球,包括中国俄罗斯在内,这次一个都跑不掉

特朗普突然发文昭告全球,包括中国俄罗斯在内,这次一个都跑不掉

华史谈
2026-02-26 09:04:22
除夕前一天,李书福的好搭档病逝,享年61岁

除夕前一天,李书福的好搭档病逝,享年61岁

龚进辉
2026-02-25 15:07:57
“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

“体坛败类”马俊仁,强迫队员集体切阑尾,亲自为女队员打禁药

米果说识
2026-02-22 11:29:00
小学阶段的大实话:小学差的,那是真的差,基本没有逆袭的可能

小学阶段的大实话:小学差的,那是真的差,基本没有逆袭的可能

好爸育儿
2026-02-25 19:22:49
四川26岁男子离世:初三去奶奶坟前,遗体距家不远,手机留着遗言

四川26岁男子离世:初三去奶奶坟前,遗体距家不远,手机留着遗言

墨印斋
2026-02-26 04:11:04
库尔图瓦:16强大概率会抽到曼城,但还是希望这次能换个对手

库尔图瓦:16强大概率会抽到曼城,但还是希望这次能换个对手

懂球帝
2026-02-26 07:48:09
2026-02-26 11:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12362文章数 142569关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

"花坛白骨案"2名凶手因4万元杀人埋尸 受害人儿子发声

头条要闻

"花坛白骨案"2名凶手因4万元杀人埋尸 受害人儿子发声

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

雷克萨斯ES双色特别版上市 售30.79万元起

态度原创

艺术
本地
数码
游戏
公开课

艺术要闻

谁能认出这幅14字草书的真正作者?

本地新闻

津南好·四时总相宜

数码要闻

华硕骁龙X2-E94-100版Zenbook A16笔记本定价近34万日元

剧情设定已有爆料!《德军总部》新作真要来了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版