谷歌掏出自家最强机器人大脑，一句话完成垃圾分类，关键技术解析来了|动作|知名企业|robotics

谷歌掏出自家最强机器人大脑，一句话完成垃圾分类，关键技术解析来了

2025-09-26 16:54:28　来源: 智东西

北京举报

分享至

智东西
作者陈骏达
编辑云鹏

智东西9月26日报道，今天，谷歌DeepMind推出Gemini Robotics 1.5系列机器人模型，通过思维链机制和模型协作，进一步提升机器人的自主性，使其能够感知、计划、思考、使用工具和行动，以更好地解决复杂的多步骤任务。谷歌将其称之为把AI agents带入物理世界的重要一步。

谷歌DeepMind本次发布的两款模型分别为Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最强大的VLA（视觉-语言-动作）模型，能将视觉信息和文本指令转化为机器人的控制命令，主要充当机器人的小脑。这一模型在采取行动前会思考，并展示思考过程，还能在不同的机器人本体上进行学习，提升学习效率。

Gemini Robotics-ER 1.5则是谷歌迄今为止最强大的VLM模型（视觉语言模型），能对物理世界进行推理，更像是机器人的大脑。它原生具备调用数字工具并创建详细的多步骤计划，进而完成任务的能力。该模型在空间理解基准测试中实现了最先进的性能，具身推理能力远超GPT-5、Gemini 2.5 Flash等模型。

搭载上述两款新模型的机器人，也因此解锁了完成复杂长链路任务的能力。比如，你可以让机器人查询当地垃圾分类要求，将桌面上的物品放到正确的垃圾桶中。模型能准确理解这一复杂需求，并驱动机器人完成任务。

开发者可以通过Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型，而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌还发布了Gemini Robotics 1.5系列模型的技术报告。

技术报告：

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

模型链接：

https://deepmind.google/models/gemini-robotics/gemini-robotics/

一、基于Gemini基础模型打造，训练数据来自3款机器人

对机器人而言，大多数日常任务都需要上下文信息和多个步骤才能完成，这对目前的机器人而言颇具挑战。为了帮助机器人完成复杂、多步骤的任务，谷歌DeepMind让Gemini Robotics 1.5和Gemini Robotics-ER 1.5两款模型在同一个Agent框架中协同工作。

具身推理模型Gemini Robotics-ER 1.5像大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和做出逻辑决策，也具有先进的空间理解能力，能以自然语言与用户进行交互，对任务是否成功和任务进展进行评判，并且可以调用谷歌搜索等工具来查找信息，或使用任何第三方用户定义的函数。

Gemini Robotics-ER 1.5为每个步骤提供自然语言指令，而Gemini Robotics 1.5利用其视觉和语言理解直接执行特定动作。Gemini Robotics 1.5还帮助机器人思考其行动，以更好地解决语义复杂的任务，甚至可以用自然语言解释其思维过程，使其决策更加透明。

这两个模型都建立在Gemini系列模型之上，这使得它们能够继承Gemini的多模态世界知识、先进推理以及工具使用的通用能力。之后，两款模型使用不同的数据集进行了微调，以专注于各自的角色。当它们结合起来时，可以提高机器人泛化到长任务和多样化的环境的能力。

Gemini Robotics 1.5系列模型共同使用的训练数据集由三种模态组成：图像、文本，以及机器人传感器与动作数据。

训练所用的机器人数据集是多本体（multi-embodiment）的，涵盖了数千个多样化任务，从抓取与操控，到双臂协作，再到人形机器人执行日常复杂任务。这些数据采集自多个异构机器人平台，包括ALOHA、Bi-arm Franka和Apollo人形机器人。

▲Gemini Robotics 1.5系列模型能开箱即用地完成跨本体任务

除了机器人专属数据集，训练数据中还包括来自互联网的公开文本、图像和视频数据集，使得模型不仅具备机器人相关技能，还能借助大规模世界知识提升泛化能力。

为了确保训练的高质量与安全性，所有数据在使用前必须经过严格处理。谷歌DeepMind通过多阶段筛选，确保数据遵循相关政策，去除低质量样本与不符合规范的内容。

数据集中每张图像都配备了原始描述与合成描述，这些合成描述由Gemini和FlexCap模型生成，帮助模型捕捉图像中的细节与上下文语义。

训练过程中使用了最新一代硬件，包括TPU v4、v5p与v6e，并结合JAX与ML Pathways框架，以实现高效并行训练与跨平台扩展。

二、靠动作迁移机制实现跨本体，让机器人学会“三思而后行”

作为一款VLA模型，Gemini Robotics 1.5的使命是“理解指令并将其转化为动作”。为了实现这一目标，研究者在训练中引入了一个关键机制——动作迁移（Motion Transfer, MT）。

MT的作用是打破不同机器人之间的“壁垒”。在传统方法中，如果一个机器人学会了某项技能，往往需要额外训练才能迁移到另一个机器人。

而在MT的加持下，Gemini Robotics 1.5能够在不同实体之间直接实现零样本迁移（Zero-shot Transfer）。也就是说，即便模型只在ALOHA机器人平台上学过“打开抽屉”，它也能在Apollo人形机器人上完成同样的任务。

这一能力来自于MT机制对动作与物理的统一建模，它能对齐不同平台的数据并提取其中的共性。

除此之外，Gemini Robotics 1.5还具备了具身思考（Embodied Thinking）的能力。它在执行动作之前，会生成一条以自然语言形式呈现的“思考轨迹”。这条轨迹帮助模型将复杂任务拆解为更细致的步骤。

例如，当接到“帮我收拾桌子”的指令时，模型可能会先在思考中分解为“拿起杯子”、“移动到水槽”、“放下杯子”等小步骤。这种方式不仅降低了从语言到动作的直接映射难度，也让模型在执行过程中更具鲁棒性。

如果杯子在移动过程中掉落，它会立刻调整思考轨迹，改为“重新拾起杯子”，而不是简单判定任务失败。

与Gemini Robotics 1.5不同，Gemini Robotics-ER 1.5并不直接操控机器人执行具体动作，而是专注于具身推理（Embodied Reasoning），负责高层次的任务规划与决策。

在训练中，Gemini Robotics-ER 1.5针对机器人任务所需的关键能力进行了特别优化。首先，它能够完成复杂的任务规划，把长远目标拆解成一系列合理的子任务。

其次，它具备较强的空间推理能力，可以结合视觉与时间信息，理解物体的相对位置与运动轨迹。最后，它还能够进行任务进度估计，实时判断任务是否成功、完成度如何，并据此调整后续动作。

▲Gemini Robotics-ER 1.5能完成的部分任务

Gemini Robotics-ER 1.5在15个学术具身推理基准测试中实现了最高的综合性能，超过Gemini Robotics-ER 1.0和GPT-5等模型。

它能够将语言描述准确地映射到视觉目标上，比如“指向桌子左下角的蓝色杯子”，或是基于多视角信息实时判断机器人动作是否达成目标，这对长序列任务的稳定执行至关重要。

在整个体系中，Gemini Robotics-ER 1.5的定位是编排器（Orchestrator）。它接收人类指令与环境反馈，制定总体计划，再将这些计划转化为Gemini Robotics 1.5能执行的具体动作指令。它还具备调用外部工具（如网络搜索）的能力，确保机器人在面对复杂场景时依旧能够灵活应对。

不过，具备更高自主性和执行能力的机器人，也可能带来安全风险。为此，谷歌DeepMind已经开发了新型的安全和对齐方法，包括顶层的安全判断机制和更为底层的安全子系统（如用于避免碰撞的系统）。

谷歌DeepMind还发布了机器人安全基准测试ASIMOV的升级版，这是一个用于评估和改进语义安全性的综合数据集，具有更好的边缘场景覆盖率、改进的注释、新的安全问题类型和新的视频模式。

在ASIMOV基准测试中，Gemini Robotics-ER 1.5显示出最先进的性能，其思维能力极大地有助于提高对语义安全的理解，更好地遵守物理安全约束。

结语：机器人模型跨本体化共识逐渐形成

与传统依赖单一数据和特定平台的训练方式不同，Gemini Robotics 1.5系列模型通过多本体数据、动作迁移机制，以及具身思考与推理范式，让机器人能够跨平台迁移技能，并在复杂环境中展现出类似人类的适应能力，扩展了机器人模型的通用性。

而这也成为不少厂商打造机器人模型的目标之一。日前，宇树开源的机器人世界大模型UnifoLM-WMA-0，虽采取了不同的架构，但也同样具备适配多种机器人本体的能力。跨本体化，或许已经逐渐成为行业的共识与新赛道。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.