网易首页 > 网易号 > 正文 申请入驻

谷歌掏出自家最强机器人大脑,一句话完成垃圾分类,关键技术解析来了

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西9月26日报道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型,通过思维链机制和模型协作,进一步提升机器人的自主性,使其能够感知、计划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。谷歌将其称之为把AI agents带入物理世界的重要一步。

谷歌DeepMind本次发布的两款模型分别为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA(视觉-语言-动作)模型,能将视觉信息和文本指令转化为机器人的控制命令,主要充当机器人的小脑。这一模型在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。

Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型),能对物理世界进行推理,更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划,进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能,具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。


搭载上述两款新模型的机器人,也因此解锁了完成复杂长链路任务的能力。比如,你可以让机器人查询当地垃圾分类要求,将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求,并驱动机器人完成任务。


开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。

技术报告:

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

模型链接:

https://deepmind.google/models/gemini-robotics/gemini-robotics/

一、基于Gemini基础模型打造,训练数据来自3款机器人

对机器人而言,大多数日常任务都需要上下文信息和多个步骤才能完成,这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务,谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。

具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策,也具有先进的空间理解能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判,并且可以调用谷歌搜索等工具来查找信息,或使用任何第三方用户定义的函数。

Gemini Robotics-ER 1.5为每个步骤提供自然语言指令,而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思维过程,使其决策更加透明。


这两个模型都建立在Gemini系列模型之上,这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后,两款模型使用不同的数据集进行了微调,以专注于各自的角色。当它们结合起来时,可以提高机器人泛化到长任务和多样化的环境的能力。

Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成:图像、文本,以及机器人传感器与动作数据。

训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控,到双臂协作,再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台,包括ALOHA、Bi-arm Franka和Apollo人形机器人。


▲Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务

除了机器人专属数据集,训练数据中还包括来自互联网的公开文本、图像和视频数据集,使得模型不仅具备机器人相关技能,还能借助大规模世界知识提升泛化能力。

为了确保训练的高质量与安全性,所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选,确保数据遵循相关政策,去除低质量样本与不符合规范的内容。

数据集中每张图像都配备了原始描述与合成描述,这些合成描述由Gemini和FlexCap模型生成,帮助模型捕捉图像中的细节与上下文语义。

训练过程中使用了最新一代硬件,包括TPU v4、v5p与v6e,并结合JAX与ML Pathways框架,以实现高效并行训练与跨平台扩展。

二、靠动作迁移机制实现跨本体,让机器人学会“三思而后行”

作为一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标,研究者在训练中引入了一个关键机制——动作迁移(Motion Transfer, MT)。

MT的作用是打破不同机器人之间的“壁垒”。在传统方法中,如果一个机器人学会了某项技能,往往需要额外训练才能迁移到另一个机器人。

而在MT的加持下,Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移(Zero-shot Transfer)。也就是说,即便模型只在ALOHA机器人平台上学过“打开抽屉”,它也能在Apollo人形机器人上完成同样的任务。

这一能力来自于MT机制对动作与物理的统一建模,它能对齐不同平台的数据并提取其中的共性。

除此之外,Gemini Robotics 1.5还具备了具身思考(Embodied Thinking)的能力。它在执行动作之前,会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。

例如,当接到“帮我收拾桌子”的指令时,模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。这种方式不仅降低了从语言到动作的直接映射难度,也让模型在执行过程中更具鲁棒性。

如果杯子在移动过程中掉落,它会立刻调整思考轨迹,改为“重新拾起杯子”,而不是简单判定任务失败。

与Gemini Robotics 1.5不同,Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作,而是专注于具身推理(Embodied Reasoning),负责高层次的任务规划与决策。

在训练中,Gemini Robotics-ER 1.5针对机器人任务所需的关键能力进行了特别优化。首先,它能够完成复杂的任务规划,把长远目标拆解成一系列合理的子任务。

其次,它具备较强的空间推理能力,可以结合视觉与时间信息,理解物体的相对位置与运动轨迹。最后,它还能够进行任务进度估计,实时判断任务是否成功、完成度如何,并据此调整后续动作。


▲Gemini Robotics-ER 1.5能完成的部分任务

Gemini Robotics-ER 1.5在15个学术具身推理基准测试中实现了最高的综合性能,超过Gemini Robotics-ER 1.0和GPT-5等模型。


它能够将语言描述准确地映射到视觉目标上,比如“指向桌子左下角的蓝色杯子”,或是基于多视角信息实时判断机器人动作是否达成目标,这对长序列任务的稳定执行至关重要。

在整个体系中,Gemini Robotics-ER 1.5的定位是编排器(Orchestrator)。它接收人类指令与环境反馈,制定总体计划,再将这些计划转化为Gemini Robotics 1.5能执行的具体动作指令。它还具备调用外部工具(如网络搜索)的能力,确保机器人在面对复杂场景时依旧能够灵活应对。

不过,具备更高自主性和执行能力的机器人,也可能带来安全风险。为此,谷歌DeepMind已经开发了新型的安全和对齐方法,包括顶层的安全判断机制和更为底层的安全子系统(如用于避免碰撞的系统)。

谷歌DeepMind还发布了机器人安全基准测试ASIMOV的升级版,这是一个用于评估和改进语义安全性的综合数据集,具有更好的边缘场景覆盖率、改进的注释、新的安全问题类型和新的视频模式。

在ASIMOV基准测试中,Gemini Robotics-ER 1.5显示出最先进的性能,其思维能力极大地有助于提高对语义安全的理解,更好地遵守物理安全约束。

结语:机器人模型跨本体化共识逐渐形成

与传统依赖单一数据和特定平台的训练方式不同,Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制,以及具身思考与推理范式,让机器人能够跨平台迁移技能,并在复杂环境中展现出类似人类的适应能力,扩展了机器人模型的通用性。

而这也成为不少厂商打造机器人模型的目标之一。日前,宇树开源的机器人世界大模型UnifoLM-WMA-0,虽采取了不同的架构,但也同样具备适配多种机器人本体的能力。跨本体化,或许已经逐渐成为行业的共识与新赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川:完全赞成、坚决拥护

四川:完全赞成、坚决拥护

新京报政事儿
2025-11-03 18:55:01
现在整个AI投资逻辑都错了!微软CEO首次承认:成排的H100正在积灰,插不上电

现在整个AI投资逻辑都错了!微软CEO首次承认:成排的H100正在积灰,插不上电

AI寒武纪
2025-11-03 22:57:12
57岁基金大佬突然死亡,死因仅2字,最后照脱相,大量隐情披露

57岁基金大佬突然死亡,死因仅2字,最后照脱相,大量隐情披露

温柔看世界
2025-11-03 19:08:27
立即停用这种“厨房神器”,已致多人死亡,很多家庭还在用!

立即停用这种“厨房神器”,已致多人死亡,很多家庭还在用!

DrX说
2025-11-03 14:13:43
争议!全红婵与王伟莹第2跳明显不在同一节奏 裁判打出8分同步分

争议!全红婵与王伟莹第2跳明显不在同一节奏 裁判打出8分同步分

风过乡
2025-11-03 08:22:39
知名品牌突发:将关闭全部门店

知名品牌突发:将关闭全部门店

鲁中晨报
2025-11-03 07:11:03
于和伟演完《沉默的荣耀》后,台湾观众竟这样称呼他

于和伟演完《沉默的荣耀》后,台湾观众竟这样称呼他

冷紫葉
2025-11-03 18:24:45
全红婵大了一圈!被张家齐捏肚子上肉,和陈芋汐体型对比十分明显

全红婵大了一圈!被张家齐捏肚子上肉,和陈芋汐体型对比十分明显

三十年莱斯特城球迷
2025-11-03 20:59:05
已经不是无知那么简单,而是彻头彻尾的作恶!

已经不是无知那么简单,而是彻头彻尾的作恶!

胖胖说他不胖
2025-11-03 16:32:51
疑似张智栋前同事发文:北大高材生,成为世界闻名大毒枭

疑似张智栋前同事发文:北大高材生,成为世界闻名大毒枭

吃瓜体
2025-11-03 11:15:35
黄金税收新规出台后,工行、建行暂停受理提取实体金条,招行金条价格已含税

黄金税收新规出台后,工行、建行暂停受理提取实体金条,招行金条价格已含税

澎湃新闻
2025-11-03 16:30:26
“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

细雨中的呼喊
2025-11-02 23:52:05
面相又变了,50岁赵薇近照曝光,婚礼上用心打扮,却走不了回头路

面相又变了,50岁赵薇近照曝光,婚礼上用心打扮,却走不了回头路

银河史记
2025-11-03 14:33:02
太突然:中国门店将全部关闭!陆续打折清仓

太突然:中国门店将全部关闭!陆续打折清仓

浙江之声
2025-11-03 22:15:28
扰民的运动会,还是别开了吧

扰民的运动会,还是别开了吧

青陆
2025-11-03 14:25:30
国足连续4个月放假!全亚洲仅此一队,原因曝光,选帅方向大反转

国足连续4个月放假!全亚洲仅此一队,原因曝光,选帅方向大反转

侃球熊弟
2025-11-03 19:25:05
在大连看病别只认“医大一院”!分清“大医系”与“中心医院”

在大连看病别只认“医大一院”!分清“大医系”与“中心医院”

王二哥老搞笑
2025-11-04 00:46:46
从张家界赤裸裸搞钱的所长到怀化蛮横扣人的所长,都有湘西遗风

从张家界赤裸裸搞钱的所长到怀化蛮横扣人的所长,都有湘西遗风

细雨中的呼喊
2025-11-03 12:02:05
退休后3年必办3个证,少1个可能少拿万元

退休后3年必办3个证,少1个可能少拿万元

白浅娱乐聊
2025-11-01 12:22:04
跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

火山诗话
2025-11-02 15:24:56
2025-11-04 05:31:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10689文章数 116892关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

日本组建特种作战旅 主要面向海外作战

头条要闻

日本组建特种作战旅 主要面向海外作战

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

健康
教育
家居
亲子
军事航空

超声探头会加重受伤情况吗?

教育要闻

康熙身边的洋顾问

家居要闻

岁月柔情 现代品质轻奢

亲子要闻

接受孩子的天性,让孩子自然发展,多看电子产品没什么问题

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版