网易首页 > 网易号 > 正文 申请入驻

DeepMind 颠覆机器人学习范式:让机器像人一样 “自由成长”

0
分享至



从 “模仿者” 到 “学习者”,机器人的进化更进一步。

作者丨刘欣

编辑丨陈彩娴

机器人在底层控制方面的应用始终局限于行为克隆,这种类似于照猫画虎的学习方式,要求机器人必须依赖海量标注的模仿数据,不仅收集成本极高,更无法让机器人应对训练数据之外的全新场景。

谷歌 DeepMind 的最新研究试图打破这一现状,他们受到大型语言模型微调中强化学习阶段成功经验的启发,提出了一种面向机器人学的两阶段后训练方法,第一阶段是监督微调( Supervised Fine-Tuning, SFT ),第二阶段是自我提升( Self-Improvement )。

通过在真实世界与仿真机器人实体( LanguageTable 与 Aloha )上开展的大量实验,提出的后训练方法在具身基础模型上取得了显著成果,机器人能自主练习并习得元朝训练时模仿学习数据集中所观察到行为的新技能,并实现广泛泛化。



论文链接:https://arxiv.org/pdf/2509.15155

01

两阶段后训练框架

本研究的核心是探究强化学习后训练在机器人具身基础模型中的有效性。然而,机器人强化学习(尤其是操作任务)面临的关键挑战是奖励工程问题:设计有效的奖励函数需要反复迭代训练策略并修正奖励定义以规避非预期结果;此外,即便奖励定义完美,在真实世界中测量奖励也需要大量工程投入。因此,当团队致力于训练能够完成日益广泛任务的机器人时,人工设计奖励函数在真实世界机器人学中已难以为继。


DeepMind 通过学习数据驱动型奖励函数克服了这一障碍,该函数同时继承了底层基础模型经网络级预训练所具备的稳健性与泛化性。提出的后训练框架如上图所示,包含两个阶段:第一阶段为监督微调( Supervised Fine-Tuning, SFT ),利用以下两种目标对预训练基础模型进行微调:a) 行为克隆;b) 剩余步骤预测( steps-to-go prediction )。第二阶段为自我提升( Self-Improvement ),剩余步骤预测能够助力提取平滑的奖励函数与稳健的成功检测器,使机器人集群可在极少人工监督的情况下自主练习下游任务。至关重要的是,数据驱动型奖励设计无需真值奖励,且能借助底层基础模型的稳健性与泛化性。

研究首先在第一阶段先对模仿数据集进行假设,再基于数据集以预训练基础模型初始化具身基础模型,对行为克隆损失、剩余步骤预测损失这两个目标进行监督微调。在第二阶段,则是想通过在线强化学习对具身基础模型进行下游任务微调,以快速提升策略性能。研究对奖励函数和成功指示器进行了定义,即可对具身基础模型进行下游任务的在线强化学习微调,冻结了一个第一阶段的检查点用于奖励函数计算与成功检测,同时也从第一阶段检查点初始化第二阶段的策略。

研究提出了以下问题:

  • Q1:自我提升能否在监督学习阶段的基础上进一步提升下游任务性能?

  • Q2:监督学习与自我提升的结合是否比单纯的监督学习具有更高的样本效率?

  • Q3:依赖强化学习的自我提升方法是否足够可靠且可复现,能够应用于真实世界机器人学?

  • Q4:预训练对自我提升流程有何贡献?

  • Q5:网络级基础模型预训练能否使自我提升在超出模仿数据集覆盖范围的任务上生效?

02

从“模仿者”到“学习者”

DeepMind 基于 LanguageTable 与 Aloha 两种机器人实体,在仿真与真实世界环境中开展实验,来验证所提自我提升框架的有效性,研究全程采用 30 亿参数的 PaLI 视觉 - 语言模型作为基础预训练模型。研究主要进行了6个实验来回答上述问题,分别是:

(1)仿真 LanguageTable 实验

仿真 LanguageTable 领域第一阶段策略训练所使用的数据集来自原始研究,包含 181,020 条人类生成轨迹,以及 78,623 条描述轨迹目标的独特指令。对该数据集进行子采样,生成 3 个新数据集(原始规模的 10%、20% 和 80%)。针对每个数据集规模,在第一阶段训练后,采用 3 个随机种子进行第二阶段微调,以验证自我提升流程的可靠性。第二阶段微调聚焦于 Block2Block 任务子集(例如 “将蓝色月亮形状块移至红色五边形形状块处”),当策略成功率趋于稳定时停止训练。

(2)真实世界 LanguageTable 实验

上述实验中展现的高样本效率与稳健性表明,自我提升流程确实可应用于真实世界机器人学。研究将所提方法应用于真实世界 LanguageTable 领域,分别采用 20% 和 80% 规模的模仿学习数据集。与仿真场景相同,第二阶段微调聚焦于 Block2Block 任务子集。由于指令采样、奖励标记与成功检测均为自动化流程,在自我提升阶段,一名人类操作员即可监控所有 LanguageTable 机器人工作站。操作员的唯一职责是在积木掉落桌面或工作站超过 5 分钟未洗牌重置时进行重置。每个实验持续约 20 小时。

(3)仿真 Aloha 单插入任务实验

研究还在第二种机器人实体 —— 双臂 Aloha 操作平台上验证了所提微调框架。设计并收集了双臂插入任务的数据:左臂拿起套筒,右臂拿起插销并将其插入套筒。该任务具有更复杂的观测空间、70 维动作空间以及更小的模仿数据集,为验证所提方法提供了挑战性场景。

研究还构建了 3 个规模分别为 5K、10K 和 15K 片段的模仿数据集,对 5K 和 10K 规模数据集执行两阶段微调,并报告 15K 规模数据集的监督学习结果以作对比。与 LanguageTable 领域实验相比,本实验的方法差异在于:1)第二阶段策略初始化的检查点选择;2)由于相机无法观测到插销完全插入套筒的成功条件,在奖励函数中加入了一个小的正常数以标记成功状态。

(4)基础模型预训练实验

为消融 PaLI 中嵌入的多模态知识的影响,实验基于 PaLI 模型的变体开展两阶段微调:

  • 随机初始化( Scratch ):采用 PaLI 架构,但参数随机初始化。

  • 单模态 PaLI( Uni-PaLI ):PaLI 参数由单独预训练的视觉模型与语言模型初始化,未进行联合多模态视觉 - 语言微调。

在仿真 LanguageTable 领域采用与第一个实验相同的设置进行对比实验。将消融实验聚焦于自我提升阶段:从 PaLI 第一阶段检查点初始化策略,使用随机初始化或 Uni-PaLI 检查点进行奖励计算。

(5)仿真与真实世界间的域迁移

首先探究较简单的泛化形式 —— 仿真与真实世界间的域迁移。Sim2Real 是一类重要方法,可大幅减少训练高性能机器人策略所需的真实世界经验,并已在多个场景中成功应用。为简化实验,在 LanguageTable 领域探究反向问题 ——Real2Sim 迁移:使用 80% 的真实世界 LanguageTable 数据集训练第一阶段模型,在仿真 LanguageTable 环境中执行第二阶段自我提升。

(6)习得新技能的强泛化能力

为了进一步探究更强的泛化形式:预训练基础模型的自我提升能否使策略练习并习得超出第一阶段模仿数据集所观察到的全新行为技能。基于真实世界 LanguageTable 数据集训练的策略与奖励模型,在一个名为 “BananaTable” 的新任务上执行自我提升。

与以往研究中机器人基础模型的语义泛化能力不同,BananaTable 任务的迁移需要行为泛化,要求策略习得新技能。例如,由于香蕉的细长几何形状,推击位置不准确会导致香蕉自转而非按预期方向移动,如下图所示。


03

迈向自主学习新路径

通过在 LanguageTable 与 Aloha 两种机器人实体的真实与仿真环境中开展大量实验,DeepMind 证实了所提新型后训练框架的惊人有效性。首先,自我提升不仅能稳健地超越行为克隆的策略性能,且监督微调与自我提升的结合在样本效率上远优于单纯扩大模仿数据规模的监督学习。例如,在 LanguageTable 领域,仅增加 10% 的机器人自我提升训练时间,就能将策略成功率从 45% 提升至 75%;而将机器人模仿数据量增加 8 倍,成功率仅从 45% 提升至 60%。进一步的消融实验凸显了基础模型预训练在实现这一样本效率与稳健性中的核心作用。

更为振奋人心的是,在线自我提升与网络级预训练的创新结合,还解锁了现有方法无法实现的独特能力:使机器人能够自主练习并习得新技能。与以往研究中展示的语义泛化不同,这个组合方案实现了行为泛化,其范围远超第一阶段模仿数据所覆盖的行为。本研究凸显了将预训练基础模型与在线自我提升相结合的变革性潜力,为机器人自主技能习得开辟了新路径。

虽然这项研究在机器人自主学习新技能上取得了巨大的进步,但在一些方面仍具有局限性:第一,样本片段与技能边界的规模化标注:人工标注成本过高,需要创新策略(如利用现有多模态基础模型)从原始交互日志中恢复一致的边界。探索此类自动分割方法是未来研究的重要方向。第二,在这个框架中,奖励推断无实时性要求,延迟约束极小,因此可使用更大规模的模型 —— 甚至迭代式、思维链推理 —— 以获得更高保真度的标记。

第三,本研究微调的通用视觉 - 语言骨干网络在预训练阶段从未接触过机器人数据。随着更大规模的机器人经验多模态语料库的出现,设计预训练课程至关重要 —— 既要赋予具身基础模型强大的物理推理先验,又要保留其广泛的视觉 - 语义知识。

第四,研究选择使用不重用数据的在线 REINFORCE 算法。这一选择规避了 “致命三要素” 中的两个要素:自举法与离线学习。但该选择也放弃了现代离线算法的数据重用优势。探究可扩展至大型模型的离线变体有望进一步降低机器人时间需求。

最后,团队观察到,当自我提升超出性能峰值后,成功率会下降,这表明需要更好的停止准则或自适应正则化器,以避免对塑形奖励的过度优化。对奖励函数选择的理论探究也可能揭示这种性能下降的原因。


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州一饭店专接熟客,“神神秘秘,经常关门”!警方深夜一锅端

杭州一饭店专接熟客,“神神秘秘,经常关门”!警方深夜一锅端

极目新闻
2025-11-01 08:07:16
重庆“文强”之子的现状

重庆“文强”之子的现状

年代回忆
2025-05-13 20:05:32
层次越低的中年男人,爱炫耀这2样东西,很油腻

层次越低的中年男人,爱炫耀这2样东西,很油腻

有故事的人
2025-11-01 06:31:09
王传福投出深水炸弹,比亚迪王炸新车一炮而红

王传福投出深水炸弹,比亚迪王炸新车一炮而红

象视汽车
2025-11-02 07:00:05
日本32岁女子涉嫌杀害21岁尼泊尔籍男友:作案后谎称男子自杀

日本32岁女子涉嫌杀害21岁尼泊尔籍男友:作案后谎称男子自杀

新京报
2025-11-01 12:20:14
官宣,王少杰发声,正式加盟,出发北京,名单公布,杜锋祝福

官宣,王少杰发声,正式加盟,出发北京,名单公布,杜锋祝福

乐聊球
2025-11-01 10:06:24
《花少7》收视夺冠豆瓣8.2,三人圈粉两人升咖,一场埃及站争议把真相处推上台前

《花少7》收视夺冠豆瓣8.2,三人圈粉两人升咖,一场埃及站争议把真相处推上台前

可乐谈情感
2025-11-02 01:50:51
港星冯淬帆去世,无儿无女无人送终!晚年因一个举动口碑暴跌

港星冯淬帆去世,无儿无女无人送终!晚年因一个举动口碑暴跌

史行途
2025-11-01 12:26:21
曾和靳东爱的死去活来,却被父亲“棒打鸳鸯”,转身嫁给父亲看准的女婿,44岁的她后悔了吗?

曾和靳东爱的死去活来,却被父亲“棒打鸳鸯”,转身嫁给父亲看准的女婿,44岁的她后悔了吗?

不二大叔
2025-10-26 21:23:34
170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭了…

健身迷
2025-09-20 09:22:20
戴奇:与曼联打平我很满意,两周之内我们遇到两次离谱的判罚

戴奇:与曼联打平我很满意,两周之内我们遇到两次离谱的判罚

懂球帝
2025-11-02 05:10:07
2.9元咖啡“杀疯了”!低价咖啡挑战库迪瑞幸,还能撑多久?

2.9元咖啡“杀疯了”!低价咖啡挑战库迪瑞幸,还能撑多久?

每日经济新闻
2025-10-31 18:04:13
符合这10条就是招人烦的老人,尤其是第九条,如过街老鼠人人喊打

符合这10条就是招人烦的老人,尤其是第九条,如过街老鼠人人喊打

情感大使馆
2025-11-01 10:45:48
为什么吴石案中其他三位都有烈士称号唯独聂曦没有被追封?

为什么吴石案中其他三位都有烈士称号唯独聂曦没有被追封?

壹号纪馆
2025-10-22 22:08:07
徐静雨:杨瀚森带女友去NBA打球太愚蠢 要我肯定孤身前往全力一搏

徐静雨:杨瀚森带女友去NBA打球太愚蠢 要我肯定孤身前往全力一搏

818体育
2025-11-02 08:22:40
释永信被女徒弟爆料,凌晨4点去他房间,拿到皈依证就算师徒关系

释永信被女徒弟爆料,凌晨4点去他房间,拿到皈依证就算师徒关系

汉史趣闻
2025-07-30 09:57:38
自带BGM的“前最帅央视主持人”亚宁复出,一晚涨粉3万

自带BGM的“前最帅央视主持人”亚宁复出,一晚涨粉3万

潇湘晨报
2025-11-01 11:05:15
刘强东罕发文秀恩爱!喊章泽天老婆夸她漂亮,自嘲没自信全文曝光

刘强东罕发文秀恩爱!喊章泽天老婆夸她漂亮,自嘲没自信全文曝光

娱乐圈圈圆
2025-11-01 19:35:13
回国后贝森特又行了:中国犯了严重错误,两年内世界将不再需要它

回国后贝森特又行了:中国犯了严重错误,两年内世界将不再需要它

乐天闲聊
2025-11-01 12:59:25
183天后复出!18岁全红婵今日亮相全运会:放弃单人项目 力争2金

183天后复出!18岁全红婵今日亮相全运会:放弃单人项目 力争2金

风过乡
2025-11-02 06:56:29
2025-11-02 09:27:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6963文章数 20702关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

母亲给35岁儿子花32万和女子"闪婚" 发现女方背负巨债

头条要闻

母亲给35岁儿子花32万和女子"闪婚" 发现女方背负巨债

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
艺术
教育
旅游
健康

时隔六年,库洛这是又要推出新游戏了?

艺术要闻

郑丰林:中国当代年轻女画家

教育要闻

2026高考报名,这八处变化一定要了解!

旅游要闻

兰州文创旅游商品在全国大赛获2金4银2铜

核磁VS肌骨超声,谁更胜一筹?

无障碍浏览 进入关怀版