网易首页 > 网易号 > 正文 申请入驻

谷歌掏出自家最强机器人大脑,一句话完成垃圾分类,关键技术解析来了

0
分享至


智东西
作者 陈骏达
编辑 云鹏

智东西9月26日报道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型,通过思维链机制和模型协作,进一步提升机器人的自主性,使其能够感知、计划、思考、使用工具和行动,以更好地解决复杂的多步骤任务。谷歌将其称之为把AI agents带入物理世界的重要一步。

谷歌DeepMind本次发布的两款模型分别为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA(视觉-语言-动作)模型,能将视觉信息和文本指令转化为机器人的控制命令,主要充当机器人的小脑。这一模型在采取行动前会思考,并展示思考过程,还能在不同的机器人本体上进行学习,提升学习效率。

Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型(视觉语言模型),能对物理世界进行推理,更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划,进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能,具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。


搭载上述两款新模型的机器人,也因此解锁了完成复杂长链路任务的能力。比如,你可以让机器人查询当地垃圾分类要求,将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求,并驱动机器人完成任务。


开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。

技术报告:

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

模型链接:

https://deepmind.google/models/gemini-robotics/gemini-robotics/

一、基于Gemini基础模型打造,训练数据来自3款机器人

对机器人而言,大多数日常任务都需要上下文信息和多个步骤才能完成,这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务,谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。

具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策,也具有先进的空间理解能力,能以自然语言与用户进行交互,对任务是否成功和任务进展进行评判,并且可以调用谷歌搜索等工具来查找信息,或使用任何第三方用户定义的函数。

Gemini Robotics-ER 1.5为每个步骤提供自然语言指令,而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思维过程,使其决策更加透明。


这两个模型都建立在Gemini系列模型之上,这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后,两款模型使用不同的数据集进行了微调,以专注于各自的角色。当它们结合起来时,可以提高机器人泛化到长任务和多样化的环境的能力。

Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成:图像、文本,以及机器人传感器与动作数据。

训练所用的机器人数据集是多本体(multi-embodiment)的,涵盖了数千个多样化任务,从抓取与操控,到双臂协作,再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台,包括ALOHA、Bi-arm Franka和Apollo人形机器人。


▲Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务

除了机器人专属数据集,训练数据中还包括来自互联网的公开文本、图像和视频数据集,使得模型不仅具备机器人相关技能,还能借助大规模世界知识提升泛化能力。

为了确保训练的高质量与安全性,所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选,确保数据遵循相关政策,去除低质量样本与不符合规范的内容。

数据集中每张图像都配备了原始描述与合成描述,这些合成描述由Gemini和FlexCap模型生成,帮助模型捕捉图像中的细节与上下文语义。

训练过程中使用了最新一代硬件,包括TPU v4、v5p与v6e,并结合JAX与ML Pathways框架,以实现高效并行训练与跨平台扩展。

二、靠动作迁移机制实现跨本体,让机器人学会“三思而后行”

作为一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标,研究者在训练中引入了一个关键机制——动作迁移(Motion Transfer, MT)。

MT的作用是打破不同机器人之间的“壁垒”。在传统方法中,如果一个机器人学会了某项技能,往往需要额外训练才能迁移到另一个机器人。

而在MT的加持下,Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移(Zero-shot Transfer)。也就是说,即便模型只在ALOHA机器人平台上学过“打开抽屉”,它也能在Apollo人形机器人上完成同样的任务。

这一能力来自于MT机制对动作与物理的统一建模,它能对齐不同平台的数据并提取其中的共性。

除此之外,Gemini Robotics 1.5还具备了具身思考(Embodied Thinking)的能力。它在执行动作之前,会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。

例如,当接到“帮我收拾桌子”的指令时,模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。这种方式不仅降低了从语言到动作的直接映射难度,也让模型在执行过程中更具鲁棒性。

如果杯子在移动过程中掉落,它会立刻调整思考轨迹,改为“重新拾起杯子”,而不是简单判定任务失败。

与Gemini Robotics 1.5不同,Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作,而是专注于具身推理(Embodied Reasoning),负责高层次的任务规划与决策。

在训练中,Gemini Robotics-ER 1.5针对机器人任务所需的关键能力进行了特别优化。首先,它能够完成复杂的任务规划,把长远目标拆解成一系列合理的子任务。

其次,它具备较强的空间推理能力,可以结合视觉与时间信息,理解物体的相对位置与运动轨迹。最后,它还能够进行任务进度估计,实时判断任务是否成功、完成度如何,并据此调整后续动作。


▲Gemini Robotics-ER 1.5能完成的部分任务

Gemini Robotics-ER 1.5在15个学术具身推理基准测试中实现了最高的综合性能,超过Gemini Robotics-ER 1.0和GPT-5等模型。


它能够将语言描述准确地映射到视觉目标上,比如“指向桌子左下角的蓝色杯子”,或是基于多视角信息实时判断机器人动作是否达成目标,这对长序列任务的稳定执行至关重要。

在整个体系中,Gemini Robotics-ER 1.5的定位是编排器(Orchestrator)。它接收人类指令与环境反馈,制定总体计划,再将这些计划转化为Gemini Robotics 1.5能执行的具体动作指令。它还具备调用外部工具(如网络搜索)的能力,确保机器人在面对复杂场景时依旧能够灵活应对。

不过,具备更高自主性和执行能力的机器人,也可能带来安全风险。为此,谷歌DeepMind已经开发了新型的安全和对齐方法,包括顶层的安全判断机制和更为底层的安全子系统(如用于避免碰撞的系统)。

谷歌DeepMind还发布了机器人安全基准测试ASIMOV的升级版,这是一个用于评估和改进语义安全性的综合数据集,具有更好的边缘场景覆盖率、改进的注释、新的安全问题类型和新的视频模式。

在ASIMOV基准测试中,Gemini Robotics-ER 1.5显示出最先进的性能,其思维能力极大地有助于提高对语义安全的理解,更好地遵守物理安全约束。

结语:机器人模型跨本体化共识逐渐形成

与传统依赖单一数据和特定平台的训练方式不同,Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制,以及具身思考与推理范式,让机器人能够跨平台迁移技能,并在复杂环境中展现出类似人类的适应能力,扩展了机器人模型的通用性。

而这也成为不少厂商打造机器人模型的目标之一。日前,宇树开源的机器人世界大模型UnifoLM-WMA-0,虽采取了不同的架构,但也同样具备适配多种机器人本体的能力。跨本体化,或许已经逐渐成为行业的共识与新赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他去世了,年仅33岁,留下两个孩子!这种病早期多无征兆,有一个重要风险因素……

他去世了,年仅33岁,留下两个孩子!这种病早期多无征兆,有一个重要风险因素……

环球网资讯
2026-03-20 16:23:29
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
英国授权美军使用其军事基地实施打击,伊朗:此举正将英国民众置于危险之中,将行使自卫权回应

英国授权美军使用其军事基地实施打击,伊朗:此举正将英国民众置于危险之中,将行使自卫权回应

扬子晚报
2026-03-21 07:24:52
网球再爆大冷!中国金花0-6惨败,郑钦文比赛突发意外,冲冠有变

网球再爆大冷!中国金花0-6惨败,郑钦文比赛突发意外,冲冠有变

曹说体育
2026-03-21 11:56:18
言承旭演唱会提词器带情绪指令引争议,阿信回应:因言承旭害怕上台、担心情绪失控才帮其备注以控制情绪,并非剧本化表演

言承旭演唱会提词器带情绪指令引争议,阿信回应:因言承旭害怕上台、担心情绪失控才帮其备注以控制情绪,并非剧本化表演

极目新闻
2026-03-21 11:10:09
挨了伊朗的打,却不敢吭声:海湾国家诡异沉默的玄机!

挨了伊朗的打,却不敢吭声:海湾国家诡异沉默的玄机!

识局Insight
2026-03-20 21:05:47
全线大跳水! 霍尔木兹海峡,突传重大消息

全线大跳水! 霍尔木兹海峡,突传重大消息

中吴网
2026-03-21 10:35:49
内塔尼亚胡连发露脸视频仍遭疑AI,他对以色列意味着什么?

内塔尼亚胡连发露脸视频仍遭疑AI,他对以色列意味着什么?

网易新闻出品
2026-03-20 20:56:36
成品油价即将迎来“五连涨”,下周一加满一箱油可能将多花80元,周末记得加满油

成品油价即将迎来“五连涨”,下周一加满一箱油可能将多花80元,周末记得加满油

扬子晚报
2026-03-21 07:37:10
宝马车在商场停了340天,欠费17000多元,商场最新回应:派出所联系上车主,但对方没来,希望尽快取走车辆

宝马车在商场停了340天,欠费17000多元,商场最新回应:派出所联系上车主,但对方没来,希望尽快取走车辆

二胡的岁月如歌
2026-03-21 13:13:20
“梅姨”落网!系张维平等人拐卖儿童案关键人物,被拐儿童家长:我一直坚信她真实存在

“梅姨”落网!系张维平等人拐卖儿童案关键人物,被拐儿童家长:我一直坚信她真实存在

潇湘晨报
2026-03-21 12:29:14
85后花20万租下农村老宅20年,用50万打造理想的院子,一家三口从城市搬进乡村:与其花大价钱买学区房,不如在乡村给孩子更开阔的成长空间

85后花20万租下农村老宅20年,用50万打造理想的院子,一家三口从城市搬进乡村:与其花大价钱买学区房,不如在乡村给孩子更开阔的成长空间

大风新闻
2026-03-21 11:27:04
人贩“梅姨”落网背后:有家庭因孩子被拐支离破碎,有家庭认亲成功也未能团圆

人贩“梅姨”落网背后:有家庭因孩子被拐支离破碎,有家庭认亲成功也未能团圆

潇湘晨报
2026-03-21 13:45:18
宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

混沌录
2026-03-19 21:59:03
特朗普,被“背叛”了

特朗普,被“背叛”了

中国新闻周刊
2026-03-21 15:26:15
特朗普:已非常接近目标,正考虑逐步降级军事行动;美国有条件放松对伊朗油品制裁;伊朗军方威胁毁灭性打击美以“邪恶官员”

特朗普:已非常接近目标,正考虑逐步降级军事行动;美国有条件放松对伊朗油品制裁;伊朗军方威胁毁灭性打击美以“邪恶官员”

新民晚报
2026-03-21 08:24:53
马斯克扔出“王炸”,再次抛出惊人言论!他说:“2030年开始,人类将...

马斯克扔出“王炸”,再次抛出惊人言论!他说:“2030年开始,人类将...

网络易不易
2026-03-21 12:20:17
“梅姨”落网寻亲圈拍手称快!孙海洋:“梅姨”就像鬼一样存在着,只是很多人不信;杜小华:人贩子的宿命就是被抓

“梅姨”落网寻亲圈拍手称快!孙海洋:“梅姨”就像鬼一样存在着,只是很多人不信;杜小华:人贩子的宿命就是被抓

极目新闻
2026-03-21 13:28:39
重磅!伊朗巴列维王储放狠话:要将现政权,永远埋进地下!

重磅!伊朗巴列维王储放狠话:要将现政权,永远埋进地下!

老马拉车莫少装
2026-03-21 11:43:26
沪指破4000点!股民满仓航天发展亏10.9万,撑不住了

沪指破4000点!股民满仓航天发展亏10.9万,撑不住了

财经智多星
2026-03-21 08:12:09
2026-03-21 16:15:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11403文章数 117003关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

媒体:美称"将不再守卫霍尔木兹海峡" 或逼迫盟友接手

头条要闻

媒体:美称"将不再守卫霍尔木兹海峡" 或逼迫盟友接手

体育要闻

谁在决定字母哥未来?

娱乐要闻

CMG盛典获奖名单:章子怡高叶同获影后

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

房产
旅游
教育
健康
公开课

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

旅游要闻

大理奥体中心的位置比较微妙,所以平时略显冷清,游客也很少

教育要闻

废掉一个孩子最快的方式:偷走他的灵气!3个行为家长每天都在做

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版