网易首页 > 网易号 > 正文 申请入驻

一块GPU训练,15分钟内实现仿真实境迁移,人形机器人端到端控制新策略来了!

0
分享至

大数据文摘受权转载自头部科技

文丨谭梓馨

大规模并行仿真已将机器人强化学习(RL)的训练时间从数天缩短至数分钟。

然而,由于高维性、域随机化等因素带来的挑战,在人形机器人控制方面实现快速且可靠的仿真实境迁移(Sim2Real)仍面临困难。


近日,Amazon FAR团队提出一种基于离策略强化学习算法(即FastSAC与 FastTD3)的简洁实用方案,仅需单块RTX 4090 GPU,即可在15分钟内快速训练出人形机器人移动控制策略。

研究人员在宇树G1(Unitree G1)和加速进化T1(Booster T1)机器人上验证了该方案的有效性。在强域随机化条件下,如动力学随机化、崎岖地形、推力扰动等,可实现端到端的人形机器人控制策略快速学习,同时也支持全身人体运动跟踪策略的快速训练,该方案开源发布在Holosoma代码库中。

极简策略,给训练提提速

仿真实境迁移(Sim2Real)开发本质上是一个迭代过程:在仿真环境中训练策略并部署到硬件后,会暴露出未建模动力学、感知误差等域差异问题。

随后需通过改进仿真环境修正这些差异,这就要求重新训练整个流程,由于这类迭代需持续至策略达到可靠水平,因此快速仿真成为保障迭代可行性的关键前提。

尽管现代并行仿真器具备高效特性,但这些迭代周期在实际应用中仍存在较高成本,尤其适用于人形机器人等高维系统时,而想要实现策略向真实世界的鲁棒迁移,训练时间又要重回数小时级别。

因此,尽管并行仿真在原始吞吐量上实现了显著提升,但人形机器人领域控制实现快速、可靠的仿真实境迁移迭代仍是一项挑战。


这项研究提出的FastSAC and FastTD3方案,将人形机器人仿真实境迁移的迭代时间重新缩短至分钟级。
FastSACFastTD3是流行的离策略强化学习算法SAC和TD3的高性能变体,针对大规模并行仿真训练进行了优化。
该方案采用大规模并行仿真对FastSAC与FastTD3智能体进行训练。研究发现,增加并行环境数量的效果在具有挑战性的全身运动跟踪任务中尤为显著,此外,在每个仿真步骤中执行更多梯度更新步骤通常能加快训练收敛速度。


训练SAC或TD3等离策略强化学习算法时,一项核心挑战是为其双曲正切(Tanh)策略设置合理的动作边界,研究人员提出一种简洁技术:在使用比例-微分(PD)控制器时,基于机器人的关节限位来设定动作边界。
他们计算出每个关节的限位与默认位置之间的差值,并将该差值作为对应关节的动作边界,实验表明,该方法可有效降低FastSAC与FastTD3训练过程中动作边界的调参需求。
人形机器人移动控制与全身控制的奖励函数设计,传统上依赖复杂的奖励塑形技术,通常包含20余项奖励项,这项研究证实:通过大幅简化的目标函数(不足10项奖励项),即可让机器人产生鲁棒且自然的行为。


具体而言,该方案遵循极简奖励设计理念——仅在必要时添加奖励项,并力求在不同算法与机器人之间保持近乎一致的奖励集合,设计目标并非强制机器人遵循特定运动模式,而是在保留行为多样性的前提下,为鲁棒移动控制与全身控制提供足够的约束结构。


更少的奖励项还能简化超参数调优过程,支持快速遍历超参数空间,这对于仿真实境迁移的迭代效率至关重要。
而针对全身运动跟踪任务,研究人员还发现,以速度推力形式引入外部扰动,可进一步提升仿真实境迁移的鲁棒性。

时间虽短,但效果很好


研究人员在单块RTX 4090 GPU上,仅用15分钟便完成了端到端的完整人形机器人移动控制策略训练——训练过程涵盖动力学随机化、崎岖地形、推力扰动等强域随机化条件,并融入自动动作频率学习机制。

来看看实训效果:


此外,该离策略强化学习方案具备优异的可扩展性,能够显著加速全身运动跟踪策略的训练——在4块L40s GPU、16384个并行环境的配置下,FastSAC与FastTD3算法在相同实验条件下,学习完成完整舞蹈动作序列的速度也显著快于PPO算法。

而且,虽然只接受了15分钟的训练,但机器人已能稳定地站立和行走,并且能够抵抗推力扰动。


FastSAC与FastTD3同样能够快速训练宇树G1人形机器人实现人体运动跟踪,包括持续时间超过2分钟的长序列舞蹈动作,其性能效果与主流的PPO算法相当或更优。


亚马逊发力机器人

值得关注的是,亚马逊FAR团队同步开源了Holosoma,这是一个综合软件框架,旨在简化训练和部署人形机器人的复杂流程。

Holosoma源自希腊语,意为“全身”,通过在单个训练代码库中支持多个仿真后端来解决各种仿真环境之间的脱节,以及“后端”碎片化等问题。

近期报道显示,亚马逊的内部目标是在未来几年内实现75%的运营自动化,在2033年前可能会减少雇佣超过60万名人类员工,同时还能将运营效率翻一番,要实现这一目标,就需要能够适应非结构化环境并操作各种物体的机器人——而这些问题是传统的、硬编码的自动化方式无法解决的。


FAR团队目前汇聚了不少核心华人学者,Rocky Duan目前为FAR研究负责人,此外还汇聚了Peter Chen、Tianhao Zhang、Liang-Chieh Chen、Ziqi Lu等顶尖华人研究员。

FAR团队认为,未来将离策略强化学习与人形机器人学习领域的最新进展融入该方案,有望进一步推动该领域的技术前沿。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一根700亿公里长的铁棍被发现,重如地球的1/10,咋形成的?

一根700亿公里长的铁棍被发现,重如地球的1/10,咋形成的?

心中的麦田
2026-02-04 21:31:30
现役的13个集团军,皆是解放战争时期的哪支王牌军沿革而来?

现役的13个集团军,皆是解放战争时期的哪支王牌军沿革而来?

文史明鉴
2026-02-07 16:01:04
你有勇气说出内心的秘密吗?网友:我和前女友有一个12岁的女儿

你有勇气说出内心的秘密吗?网友:我和前女友有一个12岁的女儿

夜深爱杂谈
2026-01-16 18:30:54
2月8号泰国总理大选!佩通坦能否卷土重来

2月8号泰国总理大选!佩通坦能否卷土重来

王朝风云
2026-02-07 09:25:13
男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

极目新闻
2026-02-07 10:04:57
真当中国不敢动手?中方向全世界宣布一件大事:退出1900亿大项目

真当中国不敢动手?中方向全世界宣布一件大事:退出1900亿大项目

科普100克克
2025-12-30 00:14:37
海口小区惨案:男子入室盗窃被撞破,致母女3死1伤后自杀

海口小区惨案:男子入室盗窃被撞破,致母女3死1伤后自杀

冷月侃娱乐
2026-02-07 21:48:34
意外!上港新外援仅仅用一场热身赛就征服球迷,发挥不比茹萨差

意外!上港新外援仅仅用一场热身赛就征服球迷,发挥不比茹萨差

张丽说足球
2026-02-07 08:33:58
白应苍被判死刑哭着忏悔,缅北女魔头白应兰,落网倒计时

白应苍被判死刑哭着忏悔,缅北女魔头白应兰,落网倒计时

一盅情怀
2026-02-07 15:48:22
陈幸同1-4输日本,王曼昱战张本美和,孙颖莎战蒯曼

陈幸同1-4输日本,王曼昱战张本美和,孙颖莎战蒯曼

乒乓乐园
2026-02-08 00:04:41
徐露标签真伪:245万彩礼、嫌丈夫丑、不生育、断崖衰老

徐露标签真伪:245万彩礼、嫌丈夫丑、不生育、断崖衰老

暖心萌阿菇凉
2026-02-08 01:16:40
提醒大家:洗衣机里,不管有几件衣服,千万要记得放几个塑料袋!

提醒大家:洗衣机里,不管有几件衣服,千万要记得放几个塑料袋!

美食格物
2026-02-04 22:51:09
西大街夜店名重现:苏荷崛起改写舞厅格局,老西安青春与新欢碰撞

西大街夜店名重现:苏荷崛起改写舞厅格局,老西安青春与新欢碰撞

成都人的故事
2026-02-06 17:45:04
我喜欢的人为什么不喜欢我呢

我喜欢的人为什么不喜欢我呢

疾跑的小蜗牛
2026-02-07 19:37:05
武汉新娘给黑人DJ留言事件,把我人都看麻了

武汉新娘给黑人DJ留言事件,把我人都看麻了

听风听你
2026-02-03 21:37:44
林诗栋3-4遭大逆转,引发连锁3大反应:王楚钦复出及时,国乒难了

林诗栋3-4遭大逆转,引发连锁3大反应:王楚钦复出及时,国乒难了

大秦壁虎白话体育
2026-02-08 00:02:36
苏轼见到友人妻子漂亮,羡慕之余写下一首词,感动世人近千年

苏轼见到友人妻子漂亮,羡慕之余写下一首词,感动世人近千年

掠影后有感
2026-02-06 12:01:30
35岁科斯蒂亚2-0送蛋击败拉杜卡努,夺得WTA250罗马尼亚冠军

35岁科斯蒂亚2-0送蛋击败拉杜卡努,夺得WTA250罗马尼亚冠军

懂球帝
2026-02-08 00:01:26
原拆原建!上海这些小区,传出新消息…

原拆原建!上海这些小区,传出新消息…

新浪财经
2026-02-07 19:08:59
有他还要啥外援?山东泰山热身赛3球大胜,德尔加多独造两球

有他还要啥外援?山东泰山热身赛3球大胜,德尔加多独造两球

凡人说体育
2026-02-08 02:52:25
2026-02-08 04:59:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6821文章数 94528关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

网购椅子多出15公斤银砖 男子紧急报警

头条要闻

网购椅子多出15公斤银砖 男子紧急报警

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

艺术
本地
游戏
手机
公开课

艺术要闻

这些女性在俄罗斯摄影师镜头下,魅力四射!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

“索尼又干了”地平线最新手游因DEI元素深陷争议

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版