网易首页 > 网易号 > 正文 申请入驻

斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练

0
分享至



人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 “仿真到现实”(Sim-to-Real)的范式。研究者们通过域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性未知的真实世界。尽管这类 “零样本迁移”(Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都 “能用” 的保守策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。

为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达和 CMU 等机构的研究者提出的ASAP[1],通过训练一个残差网络来快速补偿仿真与现实的动态差异;而学界经典的RMA(Rapid Motor Adaptation) 算法 [2] 也被应用于双足机器人,通过一个适配模块从历史动作中推断环境动力学信息 [3]。然而,这些工作大多仍着眼于对动态偏差进行一次性补偿,交互范式也更偏向于离线学习,并未在真实环境中对模型本身进行持续的在线调整。由于人形机器人本身极不稳定,任何微小的失误都可能导致昂贵的硬件损坏,因此在真实环境中直接进行强化学习训练,长期以来被视为一个难以逾越的障碍。

从人类父母教授婴儿学步的过程中汲取灵感,我们创造性地提出,使用一个 “教师” 机械臂在现实世界中 “手把手” 地指导 “学生” 人形机器人进行在线强化学习。

在这一过程中,教师机械臂扮演了多重关键角色:它既是保护安全的 “吊索”,防止学生摔倒 ;也是自动重置的 “帮手”,可以在失败后迅速扶起学生继续训练;它还是敏锐的 “信号源”,通过力传感器收集宝贵的训练数据,为学生提供在真实环境中不易获得的奖励信号;更是智慧的 “教练”,通过设置课程学习(Curriculum Learning)进度和施加对抗性扰动,在训练初期帮助学生快速适应环境,再循序渐进地提升训练难度,增强学生的学习效率和策略的鲁棒性。

我们将这一创新的软硬件协同系统命名为 RTR (Robot-Trains-Robot),凸显了由机器人教师提供主动物理辅助,对于实现人形机器人真机强化学习有重要意义。同时,为解决真实世界数据采集成本高昂的难题,团队还提出了一种新颖的强化学习算法,通过仅优化一个与环境动力学相关的低维隐变量来快速调整机器人的行为,极大地提升了样本效率。这一算法上的贡献进一步解放了真机强化学习的潜力,在评测中显著超越了 RMA 等传统的在线系统识别基准。



论文标题:Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids

论文地址:https://arxiv.org/abs/2508.12252

方法

具体来说,RTR 系统由硬件和算法两部分构成:

硬件设置:教师与学生的协同生态系统

RTR 的硬件系统由 “教师” 和 “学生” 两组机器人组成。

教师系统:核心是一台带有力 - 矩(Force / Torque)传感器的 UR5 六轴机械臂。四根弹性缆绳将机械臂的末端与人形机器人的肩部相连,这种柔性连接可以平滑地传递辅助力,避免刚性连接带来的冲击。在行走任务中,一台可编程的跑步机作为辅助,确保学生始终在教师的臂展范围内。一台迷你 PC 作为教师系统的 “大脑”,统一处理力反馈信号并控制机械臂与跑步机的行为。

学生系统:学生基于开源的 ToddlerBot 人形机器人 [4],它拥有 30 个自由度,体型紧凑且硬件坚固,适合长时间的连续训练。开源的机器人设计使得根据需要对其进行修改更加便捷,一台独立的工作站则负责运行强化学习算法,并在学生手机数据的同时持续将最新的策略模型发送给学生执行。



算法设计:三阶段式高效 Sim-to-Real 微调

为了最大化数据效率,RTR 提出 Sim-to-Real 过程分为三个阶段:

1. 仿真训练具有环境适应性的策略。在大量域随机化的仿真环境中,训练一个接受编码了环境物理参数(如摩擦力、阻尼等)的隐变量 z 作为输入的控制策略。该隐变量通过 FiLM (Feature-wise Linear Modulation) [5] 层融入策略网络,使得机器人的策略能够根据不同的动力学环境进行自适应调整。



实验验证

我们通过行走和 “荡秋千” 两个任务,全面验证了 RTR 系统的有效性。

仿真到现实微调的行走任务中,我们是让机器人在跑步机上精准地追踪目标速度。消融实验证明了 RTR 系统设计的优越性:

教师的辅助效果:与固定的吊架相比,能够主动顺应机器人运动的 “柔性” 机械臂(XY Compliant)显著提升了学习效果。同时,从高额辅助逐渐过渡到零辅助的 “课程学习” 策略(Z Schedule),优于全程高辅助或全程低辅助的固定策略。

微调算法的数据效率:RTR 提出的 “微调隐变量” 方法,在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法。仅需 20 分钟的真实世界训练,RTR 就能将在仿真中预训练的行走策略速度提升一倍。



我们还进一步设计了对比实验,验证了使用 FiLM 层向策略网络添加关于环境动态的隐变量条件输入,其效果优于直接将环境动态变量拼接到策略网络的观测中。基于 RTR 提出方法的真机微调效果,也要强于 RMA 为代表的在线参数识别基线。



除了 Sim-to-Real 任务,我们还设计了纯真实环境强化学习的 “荡秋千” 实验,以展示 RTR 系统在直接强化学习任务中的潜力。在这个任务中,人形机器人需要学会协调双腿,像孩子一样荡起秋千,以最大化摆动幅度。教师机械臂通过实时力反馈感知学生的摆动相位,在适当时机给予 “推动”(帮助)或 “阻尼”(扰动)。实验结果表明,有教师主动参与的 “帮助” 和 “扰动” 课程学习,其效率高于教师仅作为固定吊架的方案,同时教师感知到的力信息,始终作为重要的奖励信号指导学生训练。整个学习过程从零开始,在 20 分钟内就学会了幅度明显的周期性摆荡动作。



总结与展望

RTR 框架的提出,不仅为解决当前人形机器人真机部署与训练的瓶颈提供了切实可行的方案,更重要的是,它引入了主动力辅助这一全新的范式来帮助机器人在真实世界学习。这一极具扩展性的框架在未来可以通过使用承载能力更强的工业机械臂或带有力传感的龙门吊系统,将 RTR 的成功经验推广到全尺寸人形机器人,乃至其他各类复杂机器人系统的真实世界强化学习任务中。

作者介绍

本文的共同第一作者为清华大学交叉信息研究院许华哲组博士生胡开哲,与斯坦福大学 C. Karen Liu 和 Shuran Song 组博士生史浩辰。文章在胡开哲于斯坦福大学访问期间完成。共同通讯作者为斯坦福大学计算机系教授 C. Karen Liu,与斯坦福大学电子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 会议接收,项目代码已全部开放,更多信息可以参考项目网站:robot-trains-robot.github.io,

参考文献:

[1] He, Tairan, et al. "Asap: Aligning simulation and real-world physics for learning agile humanoid whole-body skills." arXiv preprint arXiv:2502.01143 (2025).

[2] Kumar, Ashish, et al. "Rma: Rapid motor adaptation for legged robots." arXiv preprint arXiv:2107.04034 (2021).

[3] Kumar, Ashish, et al. "Adapting rapid motor adaptation for bipedal robots." 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022.

[4] Shi, Haochen, et al. "Toddlerbot: Open-source ml-compatible humanoid platform for loco-manipulation." arXiv preprint arXiv:2502.00893 (2025).

[5] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我们都错了!同样是球王,访谈揭示梅西和C罗最大差别,并非球艺

我们都错了!同样是球王,访谈揭示梅西和C罗最大差别,并非球艺

小鬼头体育
2025-11-09 00:25:27
上海这一晚,蒋欣、胡杏儿秒了00后小花,才知什么叫美得有辨识度

上海这一晚,蒋欣、胡杏儿秒了00后小花,才知什么叫美得有辨识度

大铁猫娱乐
2025-11-08 16:35:08
利物浦1亿欧元报价国米铁卫?若真有正式报价,马洛塔不会犹豫

利物浦1亿欧元报价国米铁卫?若真有正式报价,马洛塔不会犹豫

里芃芃体育
2025-11-09 17:06:25
你见过最毁三观的家庭是啥样?网友:我老公今晚给他妈妈屁股上药

你见过最毁三观的家庭是啥样?网友:我老公今晚给他妈妈屁股上药

解读热点事件
2025-11-09 00:20:03
62岁李连杰返老还童,手术后年轻二十岁,生龙活虎就像变了一个人

62岁李连杰返老还童,手术后年轻二十岁,生龙活虎就像变了一个人

一只番茄鱼
2025-11-07 17:50:53
英国将军看到台海另一种结局:收台之日,解放军或许不开一枪一炮

英国将军看到台海另一种结局:收台之日,解放军或许不开一枪一炮

朔方瞭望
2025-11-09 09:36:14
中医是不是科学?看完这篇15年前的论文,自己去判断吧

中医是不是科学?看完这篇15年前的论文,自己去判断吧

读鬼笔记
2025-10-18 19:50:35
断档!天津女排全运会卫冕堪忧,2号位坍塌,李盈莹状态难返巅峰

断档!天津女排全运会卫冕堪忧,2号位坍塌,李盈莹状态难返巅峰

骑马寺的少年
2025-11-09 21:23:54
人前光鲜人后心酸!深圳台主持董超49岁离职,如今转行当网红谋生

人前光鲜人后心酸!深圳台主持董超49岁离职,如今转行当网红谋生

揽星河的笔记
2025-11-07 20:16:16
AMD统治CPU市场:月销量占比近84%!9800X3D一款接近Intel全系

AMD统治CPU市场:月销量占比近84%!9800X3D一款接近Intel全系

快科技
2025-11-09 18:30:15
LV总裁吴越现身上海!马上70岁,戴着钻戒名表身材苗条像四五十岁

LV总裁吴越现身上海!马上70岁,戴着钻戒名表身材苗条像四五十岁

乐悠悠娱乐
2025-11-07 11:00:50
谢娜坐高铁偶遇王鹤棣,发文称:他一定是打听好我的行踪假装偶遇

谢娜坐高铁偶遇王鹤棣,发文称:他一定是打听好我的行踪假装偶遇

韩小娱
2025-11-09 17:04:08
斯诺克喜讯:吴宜泽击败希金斯,首获排名赛桂冠,跻身前16强

斯诺克喜讯:吴宜泽击败希金斯,首获排名赛桂冠,跻身前16强

陈赩爱体育
2025-11-09 23:24:19
提前开香槟,穆里尼奥帅位无忧,科斯塔以碾压态势赢得本菲卡竞选

提前开香槟,穆里尼奥帅位无忧,科斯塔以碾压态势赢得本菲卡竞选

穆里尼奥主义者
2025-11-09 16:52:18
突发!终止重大资产重组,山东这家上市公司“蛇吞象”并购告吹

突发!终止重大资产重组,山东这家上市公司“蛇吞象”并购告吹

山东财经报道
2025-11-09 08:55:01
A股:大家要做好准备,行情很明朗,明天,11月10日,很可能这样走

A股:大家要做好准备,行情很明朗,明天,11月10日,很可能这样走

云鹏叙事
2025-11-09 09:29:16
长得丑演技烂,求求“资本家的丑孩子”们,放过观众的眼睛吧

长得丑演技烂,求求“资本家的丑孩子”们,放过观众的眼睛吧

娱塘主呱呱
2025-10-16 09:31:21
“面部塑料感重”发酵3天后,杨紫更新新动态,宋丹丹的话遭反转

“面部塑料感重”发酵3天后,杨紫更新新动态,宋丹丹的话遭反转

艳儿说电影
2025-11-09 10:57:55
痛心!38岁江苏美女教师梁娇去世,丈夫去世不到百天,女儿才7岁

痛心!38岁江苏美女教师梁娇去世,丈夫去世不到百天,女儿才7岁

云舟史策
2025-06-23 09:35:09
央视《沉默的荣耀》:顶着整容脸却要演女主,谁的审美出了问题?

央视《沉默的荣耀》:顶着整容脸却要演女主,谁的审美出了问题?

嫹笔牂牂
2025-10-08 07:28:28
2025-11-10 00:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142501关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

头条要闻

陕西男子打晕妻子误以为已死 将人扔下土崖致其死亡

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

艺术
家居
数码
房产
军事航空

艺术要闻

心中有你,无论相见与否总是思念。

家居要闻

现代自由 功能美学居所

数码要闻

米家空调服务全面升级 智能诊断更省钱更省时

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版