网易首页 > 网易号 > 正文 申请入驻

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

0
分享至

来源:市场资讯

(来源:机器之心)


目前,人形机器人已经能在现实中跳舞、奔跑、甚至完成后空翻。但接下来更关键的问题是:这些系统能否在部署之后持续地进行强化学习 —— 在真实世界的反馈中变得更稳定、更可靠,并在分布不断变化的新环境里持续适应与改进?

目前主流仍然是大量域随机化的 Sim2Real 路线,“仿真里练到很强,上真机直接用”,一旦部署,策略网络往往就被冻结,真实世界大量未知的变化包括摩擦、载荷、温度、设备老化等都可能让机器人表现打折,系统通常只能回到仿真里重新调参或重训;而想在真机上再学习,又会面临两道门卡:安全(随机探索可能摔倒、损坏)和数据(真机交互昂贵、速度慢、次数有限),这使得机器人缺少真正意义上持续学习的能力。

来自北京通用人工智能研究院和西安电子科技大学的研究团队提出的 LIFT 给出了一条更现实的路径:先用离策略(Off-policy)强化学习算法 SAC(Soft Actor-Critic) 在仿真中进行大规模预训练,充分利用数据复用带来的样本效率;再在预训练数据之上学习一个物理信息增强(Physics-informed)的世界模型。

到了真实世界,机器人主要执行确定性、更可控的动作来采集数据与微调,把 “试错” 和 “探索” 尽可能放进世界模型里发生,从而在保证安全的前提下,用有限的真机交互下实现更快的微调与提升,绕开部分 sim2real 的硬瓶颈。

论文的第一作者黄维东是北京通用人工智能研究院的研究工程师,研究方向为强化学习和世界模型等,研究目标是构建在复杂环境中可高效持续学习的智能体,通讯作者为北京通用人工智能研究院的研究员张精文。


  • 论文标题:Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

  • 论文主页:https://lift-humanoid.github.io/

  • 论文链接:https://arxiv.org/abs/2601.21363

  • 代码链接:https://github.com/bigai-ai/LIFT-humanoid

背景与动机:

人形机器人真机强化学习的不安全性

目前机器人界广泛依赖在策略(On-policy)算法 PPO (Proximal Policy Optimization)进行预训练。PPO 虽然在仿真中有较快的(Wall-time)收敛性能,但由于不能有效复用旧数据,并且依赖随机探索,这使其在真实人形机器人上做后续微调或持续学习几乎不可行:既不安全,也不经济。

传统强化学习中,有两种有潜力的方案:

  • 离策略 RL(Off-policy RL)(如 SAC):能复用旧数据,提高样本效率;

  • 基于世界模型的 RL(Model-based RL)(如 MBPO/ Dreamer):用模型生成数据减少真实交互。

但作者发现把这些方法直接搬到人形机器人的预训练和微调上会遇到新的瓶颈:

1. 确定性数据采集 + 数据多样性不足会让常规 off-policy /model-based 的训练变得不稳定或极慢;

2. 世界模型误差在人形高维接触动力学下更容易积累,导致生成的数据质量较差,难以被策略利用;

3. 若像 MBPO 或 Dreamer 那样 “边与环境交互边训练世界模型和策略,在数千并行仿真下 wall-time 代价不可接受。

因此核心问题是:能否既不牺牲大规模预训练速度,又能让微调阶段足够样本高效、并且安全可控?

LIFT:大规模预训练与高效微调


为了解决上述问题,作者提出了 LIFT (Large-Scale PretraIning and Efficient FineTuning) 框架(如图 1 所示)。LIFT 的框架的设计基于以下三个核心洞察:

洞察一:SAC 比 PPO 在数据量和数据多样性受限时更具优势。

先前的方法(如 SSRL)已经证明使用 SAC 在世界模型中探索和学习,可以在真实世界从头开始训练一个四足机器人完成行走任务。一种自然的做法是将 SSRL 中的 SAC 替换成 PPO,因为 PPO 具有大量并行训练的基础设施。

然而,作者发现,SAC 相比 PPO 具有两个优势:它的离策略的特性使得它在数据量和数据多样性不足时,样本效率仍然很高;它的与状态有关的随机策略能够促进其在世界模型中的探索,生成更多样和更有效的训练数据。因此, 作者后续围绕 SAC 打造合适的预训练和微调框架。

洞察二:经过 SAC 大规模预训练的策略能在真实世界零样本部署。

作者使用 Jax 实现了 SAC 并使用了 Optuna 框架对 SAC 的超参数进行了系统性地搜索。在 Booster T1 的行走预训练任务上,优化后的 SAC 收敛时间能从原先的 7 个小时下降到半小时以内。

在固定其他超参数不变后,该研究发现提升 UTD,Batch Size,Replay Buffer Size 均能降低收敛所需的样本数量,并且无需使用额外复杂的技巧(如 ensemble/dropout critic)就能得到一个在真机可零样本部署的基础策略,该策略可作为后续持续学习的稳定起点。同时,可把预训练时的 Replay Buffer 存盘,再离线训练世界模型,避免拖慢大规模并行预训练的速度;

洞察三:物理信息增强的世界模型能提升模型预测性能和策略微调性能。

作者将 Ensemble 网络与人形机器人动力学模型(公式 2)结合以提升世界模型的预测性能:


Ensemble 网络只需要输出接触力与预测的不确定性(方程 3)就可以通过方程(2)计算出加速度,然后积分出下一个时刻的状态:


作者修正了 SSRL 中的机器人特权状态空间到广义状态空间的映射关系,并引入构建人形机器人动力学所需的状态(如身体的高度)到特权状态空间中,使得世界模型能准确预测下一个时刻的人形机器人状态。

在真实环境微调时,该方法只需要用:确定性动作(action mean) 在真实环境采集一小段数据;用新数据微调世界模型;用 SAC 随机策略在世界模型里探索生成合成轨迹,再用这些合成轨迹更新 actor-critic;更新后的策略再回到真实环境,进入下一轮迭代。这就把 “探索的风险” 尽可能留在世界模型里,实现安全且高效率的持续学习。

实验结果

作者在两款人形平台 Booster T1 与 Unitree G1 上进行了预训练和微调实验,对比基线包括 PPO、SAC 等。相比于基线方法,LIFT 展现了显著的优势:

1. 策略预训练的收敛时间:在 MuJoCo Playground 的人形机器人任务上,相同运行时间内,LIFT 的 预训练回报与 PPO、FastTD3 相当或更高,这说明该框架没有使得策略预训练的时间变长。如图 2 所示,策略可以直接零样本部署到真机,作为后续微调的初始化策略。


图 2. 真机零样本部署

2. 样本效率:作者将预训练策略迁移到 Brax 仿真器进行微调,并设计了三种场景:

  • 分布内(In-Distribution):目标速度落在预训练范围内;

  • 长尾分布(Long-Tail):预训练中很少出现的目标速度;

  • 分布外(Out-of-Distribution):目标速度超出预训练范围。

如图 3 所示,LIFT 在三类场景中均能在 4×10⁴的环境样本数量级下收敛(约为真实世界的 800 秒)并准确跟踪目标速度。


图 3. 在 Brax 中微调的训练曲线图

微调效果如下所示, Booster T1 在微调前无法准确跟踪预训练时未见过的目标速度(1.5 m/s 的速度向前行走),微调后的策略能准确追踪该目标,并且微调后步态更平顺、身体摆动更小、速度偏差显著降低。


Booster T1 预训练策略的效果


在 Booster T1 微调后策略的效果

图4. 在Brax中微调前后的效果对比图

作者进一步在 Booster T1 真机上进行了微调实验:以一个仿真预训练后迁移到真机失败的预训练策略为起点,LIFT 通过多轮迭代,仅用 约 80–590 秒 的真实数据,就能逐步修正策略的不稳定行为(如图 5 所示)。


图 5. 在 Booster T1 真机上微调的过程

在消融实验中(图 6),作者发现去掉世界模型预训练算法仍能收敛,但收敛速度明显更慢;而完全去除预训练则容易陷入局部最优。


图 6. 预训练的消融实验

而另外一项消融实验(图 7)表明使用纯 ensemble 网络构建的世界模型更容易给出物理上不合理的预测(如异常的身体高度),导致 critic loss 爆炸并阻碍策略提升。相比之下,LIFT 提供了更强的归纳偏置,在有限数据下表现更稳健。


图 7. 物理信息增强的世界模型消融实验

此外,作者也将同一预训练框架拓展到 Unitree G1 的全身跟踪类任务。






图 8. 全身跟踪的预训练效果

如果把在真实世界的机器人上扩展强化学习当成一条通向通用人工智能的路径,那么关键不在于机器人某一次演示能跑多酷,而在于:我们能否把机器人的学习过程在真实世界闭环,即构建一个可持续、可扩展、自动化的学习系统。

当前的结果说明,用更可控的真实数据采集,把高风险探索尽量转移到世界模型里,是让强化学习在真实人形机器人上变得可行的一种方向;但要把它 “规模化”,仍然有几类瓶颈需要被解决。

一是观测与状态估计。如果关键物理量(例如机器人基座高度、速度)仍依赖外部动捕或存在累积漂移,那么系统就很难脱离人工与场地约束,也难以在开放环境中长期运行。

二是安全与重置机制。即便采取确定性执行,依然有可能因为策略误差与建模误差导致策略失控。需要设计更自动化的安全保护机制 —— 包括不确定性驱动的保护、恢复策略。

三是系统吞吐量。需要设计异步的数据采集与强化学习训练系统,保证策略推理时也在进行持续学习。当这些要素逐步到位时,强化学习才能在真实世界发挥重要作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳某电子公司欠薪29万不发,人力资源局垫付工资让员工回家过年

深圳某电子公司欠薪29万不发,人力资源局垫付工资让员工回家过年

记录刘杰
2026-02-07 18:13:43
曾被毛剑卿骂不要脸!59岁三浦知良在J联赛首发出场 20分钟被换下

曾被毛剑卿骂不要脸!59岁三浦知良在J联赛首发出场 20分钟被换下

风过乡
2026-02-07 15:53:32
泰军:查封柬埔寨边境园区发现大量诈骗证据包括山寨上海公安局

泰军:查封柬埔寨边境园区发现大量诈骗证据包括山寨上海公安局

环球趣闻分享
2026-02-04 16:41:58
“中华民族伟大复兴”对决“让美国再次伟大”,谁会是终极赢家?

“中华民族伟大复兴”对决“让美国再次伟大”,谁会是终极赢家?

曾经年少
2025-04-11 16:52:58
B费:卡里克带来正确的理念;我早就确信他会是出色的主教练

B费:卡里克带来正确的理念;我早就确信他会是出色的主教练

懂球帝
2026-02-07 22:59:46
暴跌50%,少卖21万辆!比亚迪意外被老对手反超,行业大洗牌已至

暴跌50%,少卖21万辆!比亚迪意外被老对手反超,行业大洗牌已至

财经八卦
2026-02-07 19:53:47
停工多年!天津一片区终于启动拆迁啦!为新建地铁征用!补偿方案此前已公布

停工多年!天津一片区终于启动拆迁啦!为新建地铁征用!补偿方案此前已公布

天津人
2026-02-07 19:38:16
究竟什么是“赤马红羊劫”?赤马红羊对谁不利?且看如何应对!

究竟什么是“赤马红羊劫”?赤马红羊对谁不利?且看如何应对!

神奇故事
2026-02-07 23:12:06
A股58家高管集体出逃减持,商业航天、固态电池、芯片龙头领跑

A股58家高管集体出逃减持,商业航天、固态电池、芯片龙头领跑

一盅情怀
2026-02-07 17:52:51
伊朗外长强硬警告:美国若攻击伊朗本土,将打击中东美军基地

伊朗外长强硬警告:美国若攻击伊朗本土,将打击中东美军基地

土澳的故事
2026-02-07 21:12:54
《沁园春・雪》轰动重庆,蒋介石问陈布雷:你看毛泽东这首词写得怎样

《沁园春・雪》轰动重庆,蒋介石问陈布雷:你看毛泽东这首词写得怎样

史海孤雁
2026-02-06 17:57:23
郭晶晶终撕豪门假面!18年阔太生涯成笑谈,网友:早该如此!

郭晶晶终撕豪门假面!18年阔太生涯成笑谈,网友:早该如此!

TVB的四小花
2026-02-06 06:47:40
英媒爆料:中方考虑拒绝特朗普访华!警告已发出,就看美国怎么选

英媒爆料:中方考虑拒绝特朗普访华!警告已发出,就看美国怎么选

荷兰豆爱健康
2026-02-07 20:31:32
希拉里的梦魇,美军抓获1名班加西恐袭凶手

希拉里的梦魇,美军抓获1名班加西恐袭凶手

移光幻影
2026-02-07 14:20:22
唏嘘!东莞知名五星级酒店被拍卖!起拍价2.8亿!

唏嘘!东莞知名五星级酒店被拍卖!起拍价2.8亿!

东莞好生活
2026-02-07 14:43:19
如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

混沌录
2026-02-01 15:14:10
新一代奔驰S级出现在上海街头!整体气场提升明显

新一代奔驰S级出现在上海街头!整体气场提升明显

热点科技
2026-02-07 13:29:55
英媒:中国将中子弹纳入常规装备,若属实,代理人战争算是废了

英媒:中国将中子弹纳入常规装备,若属实,代理人战争算是废了

风云人物看历史
2026-01-30 09:15:41
陈赫前妻许婧和匈牙利老公在沙特庆生,39 岁身材超棒,太吸睛

陈赫前妻许婧和匈牙利老公在沙特庆生,39 岁身材超棒,太吸睛

陈意小可爱
2026-02-07 09:53:51
纪委监委办案,真的会监控手机吗?

纪委监委办案,真的会监控手机吗?

审计之家
2026-02-06 08:07:20
2026-02-08 04:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2142146文章数 5393关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

网购椅子多出15公斤银砖 男子紧急报警

头条要闻

网购椅子多出15公斤银砖 男子紧急报警

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

今日热点:《惊蛰无声》终极预告;韩国翻拍《解忧杂货店》……

教育要闻

高考地理中的数字产业

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版