网易首页 > 网易号 > 正文 申请入驻

谷歌掏出自家最强机器人大脑,一句话完成垃圾分类,关键技术解析来了

0
分享至



谷歌最强VLA、VLM模型发布。

作者 |陈骏达

编辑 |云鹏

机器人前瞻9月26日报道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型,通过思维链机制和模型协作,进一步提升机器人的自主性,使其能够感知、计划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。谷歌将其称之为把AI agents带入物理世界的重要一步。

谷歌DeepMind本次发布的两款模型分别为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA(视觉-语言-动作)模型,能将视觉信息和文本指令转化为机器人的控制命令,主要充当机器人的小脑。这一模型在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。

Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型),能对物理世界进行推理,更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划,进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能,具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。


搭载上述两款新模型的机器人,也因此解锁了完成复杂长链路任务的能力。比如,你可以让机器人查询当地垃圾分类要求,将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求,并驱动机器人完成任务。


开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。

技术报告:

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

模型链接:

https://deepmind.google/models/gemini-robotics/gemini-robotics/

01.

基于Gemini基础模型打造

训练数据来自3款机器人

对机器人而言,大多数日常任务都需要上下文信息和多个步骤才能完成,这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务,谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。

具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策,也具有先进的空间理解能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判,并且可以调用谷歌搜索等工具来查找信息,或使用任何第三方用户定义的函数。

Gemini Robotics-ER 1.5为每个步骤提供自然语言指令,而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思维过程,使其决策更加透明。


这两个模型都建立在Gemini系列模型之上,这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后,两款模型使用不同的数据集进行了微调,以专注于各自的角色。当它们结合起来时,可以提高机器人泛化到长任务和多样化的环境的能力。

Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成:图像、文本,以及机器人传感器与动作数据。

训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控,到双臂协作,再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台,包括ALOHA、Bi-arm Franka和Apollo人形机器人。


▲Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务

除了机器人专属数据集,训练数据中还包括来自互联网的公开文本、图像和视频数据集,使得模型不仅具备机器人相关技能,还能借助大规模世界知识提升泛化能力。

为了确保训练的高质量与安全性,所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选,确保数据遵循相关政策,去除低质量样本与不符合规范的内容。

数据集中每张图像都配备了原始描述与合成描述,这些合成描述由Gemini和FlexCap模型生成,帮助模型捕捉图像中的细节与上下文语义。

训练过程中使用了最新一代硬件,包括TPU v4、v5p与v6e,并结合JAX与ML Pathways框架,以实现高效并行训练与跨平台扩展。

02.

靠动作迁移机制实现跨本体

让机器人学会“三思而后行”

作为一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标,研究者在训练中引入了一个关键机制——动作迁移(Motion Transfer, MT)。

MT的作用是打破不同机器人之间的“壁垒”。在传统方法中,如果一个机器人学会了某项技能,往往需要额外训练才能迁移到另一个机器人。

而在MT的加持下,Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移(Zero-shot Transfer)。也就是说,即便模型只在ALOHA机器人平台上学过“打开抽屉”,它也能在Apollo人形机器人上完成同样的任务。

这一能力来自于MT机制对动作与物理的统一建模,它能对齐不同平台的数据并提取其中的共性。

除此之外,Gemini Robotics 1.5还具备了具身思考(Embodied Thinking)的能力。它在执行动作之前,会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。

例如,当接到“帮我收拾桌子”的指令时,模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。这种方式不仅降低了从语言到动作的直接映射难度,也让模型在执行过程中更具鲁棒性。

如果杯子在移动过程中掉落,它会立刻调整思考轨迹,改为“重新拾起杯子”,而不是简单判定任务失败。

与Gemini Robotics 1.5不同,Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作,而是专注于具身推理(Embodied Reasoning),负责高层次的任务规划与决策。

在训练中,Gemini Robotics-ER 1.5针对机器人任务所需的关键能力进行了特别优化。首先,它能够完成复杂的任务规划,把长远目标拆解成一系列合理的子任务。

其次,它具备较强的空间推理能力,可以结合视觉与时间信息,理解物体的相对位置与运动轨迹。最后,它还能够进行任务进度估计,实时判断任务是否成功、完成度如何,并据此调整后续动作。


▲Gemini Robotics-ER 1.5能完成的部分任务

Gemini Robotics-ER 1.5在15个学术具身推理基准测试中实现了最高的综合性能,超过Gemini Robotics-ER 1.0和GPT-5等模型。


它能够将语言描述准确地映射到视觉目标上,比如“指向桌子左下角的蓝色杯子”,或是基于多视角信息实时判断机器人动作是否达成目标,这对长序列任务的稳定执行至关重要。

在整个体系中,Gemini Robotics-ER 1.5的定位是编排器(Orchestrator)。它接收人类指令与环境反馈,制定总体计划,再将这些计划转化为Gemini Robotics 1.5能执行的具体动作指令。它还具备调用外部工具(如网络搜索)的能力,确保机器人在面对复杂场景时依旧能够灵活应对。

不过,具备更高自主性和执行能力的机器人,也可能带来安全风险。为此,谷歌DeepMind已经开发了新型的安全和对齐方法,包括顶层的安全判断机制和更为底层的安全子系统(如用于避免碰撞的系统)。

谷歌DeepMind还发布了机器人安全基准测试ASIMOV的升级版,这是一个用于评估和改进语义安全性的综合数据集,具有更好的边缘场景覆盖率、改进的注释、新的安全问题类型和新的视频模式。

在ASIMOV基准测试中,Gemini Robotics-ER 1.5显示出最先进的性能,其思维能力极大地有助于提高对语义安全的理解,更好地遵守物理安全约束。

03.

结语:

机器人模型

跨本体化共识逐渐形成

与传统依赖单一数据和特定平台的训练方式不同,Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制,以及具身思考与推理范式,让机器人能够跨平台迁移技能,并在复杂环境中展现出类似人类的适应能力,扩展了机器人模型的通用性。

而这也成为不少厂商打造机器人模型的目标之一。日前,宇树开源的机器人世界大模型UnifoLM-WMA-0,虽采取了不同的架构,但也同样具备适配多种机器人本体的能力。跨本体化,或许已经逐渐成为行业的共识与新赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣到队!超级外援正式加盟广东宏远,朱芳雨千挑万选

官宣到队!超级外援正式加盟广东宏远,朱芳雨千挑万选

篮球大陆
2025-11-19 18:05:33
萧克镇上将?这个说法并不准确,至少有三位上将他“镇不住”

萧克镇上将?这个说法并不准确,至少有三位上将他“镇不住”

史韵流转
2025-11-20 09:41:38
律师行业崩了,近七成同行活得像行尸走肉

律师行业崩了,近七成同行活得像行尸走肉

麦小柒
2025-10-31 20:53:15
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

上海约饭局
2025-10-31 15:32:01
害死吴石的谷正文,晚年性情大变?1990年他扬言:杀李登辉很容易

害死吴石的谷正文,晚年性情大变?1990年他扬言:杀李登辉很容易

文史达观
2025-11-05 17:36:09
谢天华时隔13年回TVB!与30位小花跳唱《学警狙击》主题曲!

谢天华时隔13年回TVB!与30位小花跳唱《学警狙击》主题曲!

TVB的四小花
2025-11-20 08:11:59
阿莫林揭秘曼联复苏转折点!欲请坎通纳激励更衣室,小贝也在名单

阿莫林揭秘曼联复苏转折点!欲请坎通纳激励更衣室,小贝也在名单

罗米的曼联博客
2025-11-20 09:48:04
日本内阁官房长官:警惕日元单向剧烈波动

日本内阁官房长官:警惕日元单向剧烈波动

界面新闻
2025-11-20 14:58:51
狗咬人命案中申倩才是高手,她一个决定让9人闯宅者追悔莫及,讽刺

狗咬人命案中申倩才是高手,她一个决定让9人闯宅者追悔莫及,讽刺

七月生活情感驿站
2025-11-17 14:09:02
湖南一女子因长得太漂亮,直到55岁没上过一天班,三婚三离,颜值曝光后网友唏嘘.....

湖南一女子因长得太漂亮,直到55岁没上过一天班,三婚三离,颜值曝光后网友唏嘘.....

脆皮先生
2025-10-29 20:37:04
年轻人为什么不爱爱了?

年轻人为什么不爱爱了?

虎嗅APP
2025-11-20 05:45:17
日本显然没有意识到:中国可以合法打击日本!麻烦高市早苗死硬到底

日本显然没有意识到:中国可以合法打击日本!麻烦高市早苗死硬到底

星辰大海路上的种花家
2025-11-19 13:09:58
排面!40岁C罗与特朗普散步热聊+咧嘴大笑 白宫官方认证:2位GOAT

排面!40岁C罗与特朗普散步热聊+咧嘴大笑 白宫官方认证:2位GOAT

我爱英超
2025-11-19 22:57:34
午评:创业板指半日跌0.52% 中国银行、工商银行双双创历史新高

午评:创业板指半日跌0.52% 中国银行、工商银行双双创历史新高

财联社
2025-11-20 11:32:05
建议中年男人:冲锋衣尽量别穿“始祖鸟、骆驼”,3种国货更高级

建议中年男人:冲锋衣尽量别穿“始祖鸟、骆驼”,3种国货更高级

时尚搭配师Nicole
2025-10-27 00:01:58
章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

章泽天婚变传闻仅10天,31岁高调官宣喜讯,喜结良缘终成真

何嗀爱捕渔
2025-11-18 19:00:17
93年两个山西老汉组建私人“军队”,中央军委得知,最终结局如何

93年两个山西老汉组建私人“军队”,中央军委得知,最终结局如何

南书房
2025-11-18 18:20:03
特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

时时有聊
2025-11-19 16:51:16
特朗普不去,普京也不去,中方通知日本,不会在G20见高市早苗

特朗普不去,普京也不去,中方通知日本,不会在G20见高市早苗

头条爆料007
2025-11-19 08:06:47
日本通告全球,扬言驱逐中方驻日大使,话音刚落,中方官宣新武器

日本通告全球,扬言驱逐中方驻日大使,话音刚落,中方官宣新武器

青橘罐头
2025-11-16 09:20:22
2025-11-20 15:36:49
机器人前瞻
机器人前瞻
专注于机器人报道的媒体
219文章数 4关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

艺术
本地
手机
公开课
军事航空

艺术要闻

陈洪绶:花鸟册二十开

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

手机要闻

华为Mate 80系列首发户外探索模式 14天极限续航 关键时刻能救命

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日本称已向美国出口爱国者导弹

无障碍浏览 进入关怀版