网易首页 > 网易号 > 正文 申请入驻

谷歌掏出自家最强机器人大脑,一句话完成垃圾分类,关键技术解析来了

0
分享至

谷歌最强VLA、VLM模型发布。

作者 |陈骏达

编辑 |云鹏

机器人前瞻9月26日报道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型,通过思维链机制和模型协作,进一步提升机器人的自主性,使其能够感知、计划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。谷歌将其称之为把AI agents带入物理世界的重要一步。

谷歌DeepMind本次发布的两款模型分别为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA(视觉-语言-动作)模型,能将视觉信息和文本指令转化为机器人的控制命令,主要充当机器人的小脑。这一模型在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。

Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型),能对物理世界进行推理,更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划,进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能,具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。

搭载上述两款新模型的机器人,也因此解锁了完成复杂长链路任务的能力。比如,你可以让机器人查询当地垃圾分类要求,将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求,并驱动机器人完成任务。

开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。

技术报告:

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

模型链接:

https://deepmind.google/models/gemini-robotics/gemini-robotics/

01.

基于Gemini基础模型打造

训练数据来自3款机器人

对机器人而言,大多数日常任务都需要上下文信息和多个步骤才能完成,这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务,谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。

具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策,也具有先进的空间理解能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判,并且可以调用谷歌搜索等工具来查找信息,或使用任何第三方用户定义的函数。

Gemini Robotics-ER 1.5为每个步骤提供自然语言指令,而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思维过程,使其决策更加透明。

这两个模型都建立在Gemini系列模型之上,这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后,两款模型使用不同的数据集进行了微调,以专注于各自的角色。当它们结合起来时,可以提高机器人泛化到长任务和多样化的环境的能力。

Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成:图像、文本,以及机器人传感器与动作数据。

训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控,到双臂协作,再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台,包括ALOHA、Bi-arm Franka和Apollo人形机器人。

▲Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务

除了机器人专属数据集,训练数据中还包括来自互联网的公开文本、图像和视频数据集,使得模型不仅具备机器人相关技能,还能借助大规模世界知识提升泛化能力。

为了确保训练的高质量与安全性,所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选,确保数据遵循相关政策,去除低质量样本与不符合规范的内容。

数据集中每张图像都配备了原始描述与合成描述,这些合成描述由Gemini和FlexCap模型生成,帮助模型捕捉图像中的细节与上下文语义。

训练过程中使用了最新一代硬件,包括TPU v4、v5p与v6e,并结合JAX与ML Pathways框架,以实现高效并行训练与跨平台扩展。

02.

靠动作迁移机制实现跨本体

让机器人学会“三思而后行”

作为一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标,研究者在训练中引入了一个关键机制——动作迁移(Motion Transfer, MT)。

MT的作用是打破不同机器人之间的“壁垒”。在传统方法中,如果一个机器人学会了某项技能,往往需要额外训练才能迁移到另一个机器人。

而在MT的加持下,Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移(Zero-shot Transfer)。也就是说,即便模型只在ALOHA机器人平台上学过“打开抽屉”,它也能在Apollo人形机器人上完成同样的任务。

这一能力来自于MT机制对动作与物理的统一建模,它能对齐不同平台的数据并提取其中的共性。

除此之外,Gemini Robotics 1.5还具备了具身思考(Embodied Thinking)的能力。它在执行动作之前,会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。

例如,当接到“帮我收拾桌子”的指令时,模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。这种方式不仅降低了从语言到动作的直接映射难度,也让模型在执行过程中更具鲁棒性。

如果杯子在移动过程中掉落,它会立刻调整思考轨迹,改为“重新拾起杯子”,而不是简单判定任务失败。

与Gemini Robotics 1.5不同,Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作,而是专注于具身推理(Embodied Reasoning),负责高层次的任务规划与决策。

在训练中,Gemini Robotics-ER 1.5针对机器人任务所需的关键能力进行了特别优化。首先,它能够完成复杂的任务规划,把长远目标拆解成一系列合理的子任务。

其次,它具备较强的空间推理能力,可以结合视觉与时间信息,理解物体的相对位置与运动轨迹。最后,它还能够进行任务进度估计,实时判断任务是否成功、完成度如何,并据此调整后续动作。

▲Gemini Robotics-ER 1.5能完成的部分任务

Gemini Robotics-ER 1.5在15个学术具身推理基准测试中实现了最高的综合性能,超过Gemini Robotics-ER 1.0和GPT-5等模型。

它能够将语言描述准确地映射到视觉目标上,比如“指向桌子左下角的蓝色杯子”,或是基于多视角信息实时判断机器人动作是否达成目标,这对长序列任务的稳定执行至关重要。

在整个体系中,Gemini Robotics-ER 1.5的定位是编排器(Orchestrator)。它接收人类指令与环境反馈,制定总体计划,再将这些计划转化为Gemini Robotics 1.5能执行的具体动作指令。它还具备调用外部工具(如网络搜索)的能力,确保机器人在面对复杂场景时依旧能够灵活应对。

不过,具备更高自主性和执行能力的机器人,也可能带来安全风险。为此,谷歌DeepMind已经开发了新型的安全和对齐方法,包括顶层的安全判断机制和更为底层的安全子系统(如用于避免碰撞的系统)。

谷歌DeepMind还发布了机器人安全基准测试ASIMOV的升级版,这是一个用于评估和改进语义安全性的综合数据集,具有更好的边缘场景覆盖率、改进的注释、新的安全问题类型和新的视频模式。

在ASIMOV基准测试中,Gemini Robotics-ER 1.5显示出最先进的性能,其思维能力极大地有助于提高对语义安全的理解,更好地遵守物理安全约束。

03.

结语:

机器人模型

跨本体化共识逐渐形成

与传统依赖单一数据和特定平台的训练方式不同,Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制,以及具身思考与推理范式,让机器人能够跨平台迁移技能,并在复杂环境中展现出类似人类的适应能力,扩展了机器人模型的通用性。

而这也成为不少厂商打造机器人模型的目标之一。日前,宇树开源的机器人世界大模型UnifoLM-WMA-0,虽采取了不同的架构,但也同样具备适配多种机器人本体的能力。跨本体化,或许已经逐渐成为行业的共识与新赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒评开拓者3大令人失望球员!杨瀚森在列:适应NBA难度远超预期

美媒评开拓者3大令人失望球员!杨瀚森在列:适应NBA难度远超预期

罗说NBA
2026-05-08 06:32:20
赖清德喊话大陆:绝不屈服!卢秀燕强势表态,郑丽文这下麻烦大了

赖清德喊话大陆:绝不屈服!卢秀燕强势表态,郑丽文这下麻烦大了

共工之锚
2026-05-08 00:13:07
世乒赛爆大冷!世界冠军遭淘汰,张本美和大胜,早田希娜11-0鞠躬致歉引热议

世乒赛爆大冷!世界冠军遭淘汰,张本美和大胜,早田希娜11-0鞠躬致歉引热议

好乒乓
2026-05-07 18:30:05
四川一男子买彩票中了560万,竟在上班途中被抢!谁料,男子连彩票复印件和照片都没留!

四川一男子买彩票中了560万,竟在上班途中被抢!谁料,男子连彩票复印件和照片都没留!

谭老师地理大课堂
2026-05-08 00:07:04
徐正源空降的第一分钟,就把坐了一年冷板凳的徒弟从深渊里拽了上来

徐正源空降的第一分钟,就把坐了一年冷板凳的徒弟从深渊里拽了上来

衔春信
2026-05-08 03:45:38
何洁近况令人诧异!暴瘦20斤,换了发色,面相大变,刁磊有福了

何洁近况令人诧异!暴瘦20斤,换了发色,面相大变,刁磊有福了

情感大头说说
2026-05-07 11:29:06
朝鲜黑客入侵中国游戏平台,专盯同胞手机

朝鲜黑客入侵中国游戏平台,专盯同胞手机

碳基打工人
2026-05-07 06:28:03
美媒:美军空袭伊朗港口

美媒:美军空袭伊朗港口

新华社
2026-05-08 05:59:05
五一各地旅游收入排名,河南381亿第二,北京没进前五,第一是谁

五一各地旅游收入排名,河南381亿第二,北京没进前五,第一是谁

丁丁鲤史纪
2026-05-07 14:04:42
主持人:姆巴佩现在完全为爱痴狂,其女友会在8月15日甩了他

主持人:姆巴佩现在完全为爱痴狂,其女友会在8月15日甩了他

懂球帝
2026-05-07 09:41:10
和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

一盅情怀
2026-04-28 12:22:02
演员张颂文片场收工后,将粉丝赠送的茶叶原路退回,并叮嘱“你们自己工作挣的钱给自己和家人花,我收收你们的信就好了”

演员张颂文片场收工后,将粉丝赠送的茶叶原路退回,并叮嘱“你们自己工作挣的钱给自己和家人花,我收收你们的信就好了”

洪观新闻
2026-05-07 15:18:54
台媒警告大陆:一旦台海爆发战事,台军将首先击沉解放军的航母

台媒警告大陆:一旦台海爆发战事,台军将首先击沉解放军的航母

探源历史
2026-05-08 00:26:18
3级欧战决赛对阵出炉:5大联赛球队包揽 仅意甲缺席 英超3强冲3冠

3级欧战决赛对阵出炉:5大联赛球队包揽 仅意甲缺席 英超3强冲3冠

我爱英超
2026-05-08 06:29:26
酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

酒局持续4小时,从下厨招待到拿刀拼命,妻子到底经历了什么

笑谈历史阿晡
2026-05-04 12:02:08
军购案协商再破局,赵少康称“被国民党中央骂”,国民党回应亮了

军购案协商再破局,赵少康称“被国民党中央骂”,国民党回应亮了

DS北风
2026-05-06 18:46:10
中央5台直播世乒赛时间表:5月8日CCTV5节目表,CCTV5节目单

中央5台直播世乒赛时间表:5月8日CCTV5节目表,CCTV5节目单

刘哥谈体育
2026-05-08 03:57:00
谢娜仨女儿全像张杰,这才是基因的 “降维打击”

谢娜仨女儿全像张杰,这才是基因的 “降维打击”

南万说娱26
2026-05-07 09:33:49
黄仁勋:中国绝不能获得最先进芯片!

黄仁勋:中国绝不能获得最先进芯片!

中国半导体论坛
2026-05-06 12:43:35
美股高开低走 三大指数集体收跌

美股高开低走 三大指数集体收跌

财联社
2026-05-08 04:02:13
2026-05-08 07:32:49
机器人前瞻
机器人前瞻
智东西AI媒体矩阵品牌。机器人前瞻,机器人产业新媒体,专注报道全球机器人创新。
531文章数 11关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

伊朗武装部队:美军违反停火协议空袭伊朗 已反击

头条要闻

伊朗武装部队:美军违反停火协议空袭伊朗 已反击

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

教育
健康
数码
时尚
本地

教育要闻

高考地理中的潮光互补

干细胞治烧烫伤面临这些“瓶颈”

数码要闻

存储芯片价格飙升 AMD警告:下半年PC及游戏市场需求恐将下滑

今年最火的4双平底鞋,配小黑裙好看又气质!

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版