网易首页 > 网易号 > 正文 申请入驻

谷歌发布RT-2,实体机器人版ChatGPT来了!

0
分享至

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!

7月29日,谷歌旗下的AI研究机构DeepMind发布了RT-2,这是一种新的视觉语言动作模型(VLA)。(地址:https://blog.google/technology/ai/google-deepmind-rt2-robotics-vla-model/)

据悉,RT-2可以从互联网和机器人数据中自动学习,并将这些知识转化为机器人控制的通用指令实现一系列操作动作,同时在思维推理链加持下,RT-2 可执行深度语义推理。例如,让RT-2找出哪些适合砸石头的锤子,哪些能提神的饮料,哪些水果适合减肥的人群等

根据DeepMind的示例展示,RT-2模型的主要应用场景是集成在实体机器人,使其可以像人类那样思考、推理去执行各种动作任务,就像实体机器人版ChatGPT。RT-2在物流、制造、安保等领域有非常宽广的应用空间。

RT-2简单介绍

RT-2是在RT-1基础之上研发的,而RT-1是基于Transformer模型,所以,RT-2在技术基因上与ChatGPT有很强的联系,也是能执行高级推理任务的原因之一。(RT-1介绍地址:https://robotics-transformer1.github.io/)

技术原理,RT-2以VLM(高容量视觉语言模型)为基础,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标记。此类 VLM 已接受网络大规模数据的训练,以执行视觉问答、图像字幕或对象识别等任务。

为了更好地控制机器人,必须训练其输出动作。DeepMind通过将操作表示为模型输出中的标记(类似于语言标记)来解决这一挑战,并将操作描述为可以由标准自然语言标记器处理的字符串。

这种字符串的示例,可以是机器人动作标记编号的序列,例如“1 128 91 241 5 101 127 217”。

RT-2 训练中使用的动作字符串的表示形式

该字符串以一个标志开头,指示是继续或终止当前动作,而不执行后续命令。然后更改末端执行器的位置和旋转以及机器人夹具所需延伸的命令。

DeepMind在RT-2使用与 RT-1 中相同的机器人动作离散版本,并表明将其转换为字符串表示,使得可以在机器人数据上训练 VLM 模型,所以此类模型的输入和输出空间不需要改变。

DeepMind针对机器人和网络数据共同微调预先训练的 VLM 模型,生成的模型接收机器人摄像头图像,并直接预测机器人接下来要执行的动作。

RT-2训练数据

每项任务都需要理解视觉语义概念以及执行机器人控制,以掌控操作这些动作的能力,例如,捡起从桌子上掉下来的袋子,将绿色的可乐瓶子与同色物体放在一起的命令等。

从而要求机器人对数据集中,从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的实体动作。

RT-2 保留了机器人数据中看到的原始任务的能力,并提高了机器人在以前未见过的场景中的性能,从RT-1的32%提高到了62%,显示了大规模预训练的巨大优势。

此外,DeepMind受LLMs(大语言模型)思维链提示方法的启发,将机器人控制与思维链推理相结合,可在单个模型中学习长期规划和低级技能。尤其是,DeepMind对 RT-2 的变体进行了几百个梯度步骤的微调,提高其联合使用语言和动作的能力,具备理解自然语言的能力。

RT-2实例展示

DeepMind将RT-2集成在实体机器人中,在推理思维链、符号理解和人类识别加持下,展示了多种拟人化的操作能力。

1,将香蕉拿到水瓶旁边,将香蕉拿到数字3上,将足球拿到篮球旁边等。

2,从塑料瓶(2个)、可乐瓶(2个)、袋装零食(1)中,找出不属于同类的物品。

3,将蓝色方块,推向芥末瓶子。

本文素材来源谷歌DeepMind官网,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宾馆初夜,我和男友的第一次!

宾馆初夜,我和男友的第一次!

那年秋天
2026-05-22 09:30:17
辞去央视铁饭碗携子嫁张译,二十年后方显明智

辞去央视铁饭碗携子嫁张译,二十年后方显明智

悠悠说世界
2026-05-25 04:34:59
54岁袁立住院,已做手术!颈外静脉穿刺疑似患重病,余生不再演戏

54岁袁立住院,已做手术!颈外静脉穿刺疑似患重病,余生不再演戏

一盅情怀
2026-05-24 15:44:39
高铁一年轻女子裸足放座位上引争议!网友:只要漂亮,我极力支持

高铁一年轻女子裸足放座位上引争议!网友:只要漂亮,我极力支持

火山詩话
2026-05-24 08:12:05
时刻绷紧安全生产这根弦(今日谈)

时刻绷紧安全生产这根弦(今日谈)

海外网
2026-05-24 08:16:32
杜新枝熊磊大获全胜,笑的是真灿烂呐!

杜新枝熊磊大获全胜,笑的是真灿烂呐!

阿振观点
2026-04-18 06:35:18
赛季最佳爆冷!C罗无缘沙特联赛大奖,昔日切尔西失意球星登顶

赛季最佳爆冷!C罗无缘沙特联赛大奖,昔日切尔西失意球星登顶

夜白侃球
2026-05-24 10:18:13
总决赛打浙江广厦,上海男篮的硬仗才开始

总决赛打浙江广厦,上海男篮的硬仗才开始

新民晚报
2026-05-24 17:44:40
泡沫,要破了

泡沫,要破了

价值罗盘
2026-05-22 21:26:50
“沉重打击”,美国通知日本:大幅延期

“沉重打击”,美国通知日本:大幅延期

观察者网
2026-05-24 18:17:24
北航杨昀要“社死”了?入学清华前的履历空白,她会不会是董小姐

北航杨昀要“社死”了?入学清华前的履历空白,她会不会是董小姐

汉史趣闻
2026-05-23 15:17:08
俄罗斯的报复?7小时大空袭!俄军高超音速导弹疑似末端崩解

俄罗斯的报复?7小时大空袭!俄军高超音速导弹疑似末端崩解

鹰眼Defence
2026-05-24 16:36:08
莎拉在南海突然放狠话?别急,杜特尔特女儿只是在演保命戏

莎拉在南海突然放狠话?别急,杜特尔特女儿只是在演保命戏

一口娱乐
2026-05-25 03:15:11
一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一月八万不够花,李双江“赖”学校不退休,儿子改名出国后再作妖

一盅情怀
2026-05-16 20:12:47
暴雨红色预警!武汉:停止集会、停课、停业

暴雨红色预警!武汉:停止集会、停课、停业

齐鲁壹点
2026-05-24 12:17:48
塞尔维亚或迎巨变,数万民众涌上首都街头,武契奇十年统治恐终结

塞尔维亚或迎巨变,数万民众涌上首都街头,武契奇十年统治恐终结

近史博览
2026-05-25 01:28:35
欧盟外长会间隙,立陶宛女总理对着一众记者大吐苦水。语气激动

欧盟外长会间隙,立陶宛女总理对着一众记者大吐苦水。语气激动

叮当当科技
2026-05-24 09:05:25
现在的女主播在直播间卖货,真的太辣眼睛了…

现在的女主播在直播间卖货,真的太辣眼睛了…

微微热评
2026-05-25 00:56:05
汶川地震中,丢了学生逃跑的老师“范跑跑”,18年后竟成了大赢家

汶川地震中,丢了学生逃跑的老师“范跑跑”,18年后竟成了大赢家

芳芳历史烩
2026-05-24 01:06:29
有事苏提达,无事欧拉弄!泰王和欧拉弄在私宅待客,穿情侣拖鞋

有事苏提达,无事欧拉弄!泰王和欧拉弄在私宅待客,穿情侣拖鞋

毒舌小红帽
2026-05-24 20:17:47
2026-05-25 05:35:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4762文章数 37465关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

健康
家居
时尚
游戏
房产

外泌体 ≠ 生长因子!它们之间究竟有何区别?

家居要闻

低调传承 温润沉静

《低智商犯罪》一半惊喜,一半可惜

《霍格沃茨之遗》续作或将公布?知名爆料人暗示

房产要闻

疯狂周末,海口楼市突然爆了!

无障碍浏览 进入关怀版