王兴兴发论文了！宇树、通研院联手，教机器人“托马斯全旋”|算法|动作|随机化|真实世界

分享至

机器人学习复杂运动，找到一条可扩展道路。

作者 |陈骏达

编辑 |李水青

机器人前瞻3月3日报道，今天，北京通用人工智能研究院（BIGAI）、宇树、上海交通大学和中国科技大学等机构联合发布一项最新开源研究成果，该成果有望给人形机器人学习复杂运动的方式带来明显提效，且不必在动作保真度与可扩展性之间做艰难权衡。

该研究提出了一种名为OMNIXTREME的新框架，成功让一个机器人学会执行包括后空翻、托马斯全旋、武术踢击在内的数十种高动态“极限运动”，并在宇树G1机器人上实现了真实世界的高成功率部署。

值得一提的是，同型号的宇树机器人刚刚凭借在2026年春晚舞台上丝滑的后空翻、侧踢、跳马、耍双节棍乃至打醉拳等一系列武术动作而爆火出圈，不知道背后有没有OMNIXTREME框架的功劳。

▲真机部署视频（图源：项目官网）

长期以来，让机器人像人类一样灵活运动，是机器人学领域的核心追求。然而，一个根深蒂固的难题始终困扰着研究者：“保真度-可扩展性权衡”。简单来说，让机器人模仿单个高难度动作（如一个后空翻）已能做到非常精准；但一旦试图让一个机器人学会几十个风格迥异、动态复杂的动作，其学习效果就会大打折扣——控制器变得保守、平庸，在最具挑战性的动作上频频失败。

其实，在更早之前，宇树就已经关注到这一问题。其创始人兼CEO王兴兴曾在2025年世界机器人大会上谈道：目前机器人跳跳舞、打格斗效果已经不错，但面临一个关键问题——“机器人强化学习的Scaling Law做得非常不好”。比如训练机器人做新动作、跳新舞蹈，每次都要从头开始。理论上，每次RL训练的速度应当越来越快，学习新技能的效果也应当越来越好，但行业内目前还没人能真正实现这一点。

针对上述挑战，OMNIXTREME研究团队提出了两阶段训练框架。实验结果表明，OMNIXTREME在包含LAFAN1和自建XtremeMotion极限运动库的综合测试中，追踪保真度远超现有基线方法。

▲OMNIXTREME部署成功率

在真实的宇树G1机器人上，OMNIXTREME让机器人在单一策略完成了24种高动态运动，157次试验的整体成功率高达91.08%，其中后空翻等动作成功率超过96%。

王兴兴是这篇论文的署名作者之一，位列倒数第三位，按照学术圈惯例，这或许意味着他在这项研究中扮演了指导者角色。该论文的共同通讯作者、北京通用人工智能研究院具身机器人中心主任黄思远（SiyuanHuang）在社交媒体上透露，这是他们首次与王兴兴合作发表论文，这是一次颇有启发性的经历。

▲北京通用人工智能研究院具身机器人中心主任黄思远发布推文宣传该研究

目前这篇论文所涉及的模型检查点和代码已经开源发布，研究团队还在项目官网提供了真机演示的视频。流匹配基础策略训练与推理代码、剩余后训练和推理代码以及C++真实部署代码未来也可能会开源。

论文地址：

https://arxiv.org/abs/2602.23843

项目地址：

https://extreme-humanoid.github.io

项目代码：

https://github.com/Perkins729/OmniXtreme

01.

机器人可扩展运动能力两大挑战

仿真学习瓶颈与物理可执行性瓶颈

OMNIXTREME研究团队认为，让机器人具备可扩展的、人类水平的全身运动技能，是通用人形机器人的终极目标。

研究这一能力的一个核心途径是高保真运动追踪：控制器需在接触和干扰下保持动态稳定，同时精确复现参考动作。这不仅是美学追求，更是实现移动操作、表达性交互等复杂人形机器人能力的基础。

近年来，基于学习的运动追踪取得长足进展，借助强化学习，单一控制器已能高精度完成舞蹈、空翻等高动态动作。然而，随着运动库向更大规模、更多风格和复杂接触模式扩展，一个难题持续浮现：追踪质量显著下降。

这一困境源于当前训练流程中两个相互叠加的障碍。首先是仿真中的学习瓶颈：现有方法多采用简单的策略网络表示，面对异构动作目标时，其表达能力随数据多样性增加而迅速饱和；同时，用强化学习统一训练多任务会加剧梯度干扰，导致高动态行为上的保守平均或选择性失败。

其次是物理可执行性瓶颈：即便仿真中表现优异，迁移到真实机器人仍面临挑战，因为现有建模忽略了扭矩-速度非线性、再生功率等关键驱动器特性，这些因素在高动态运动中会引发执行失稳。

为系统应对上述挑战，研究团队提出了OMNIXTREME框架。该框架通过流匹配策略进行“专家到统一”的生成式预训练，以高容量模型扩展表达能力，同时避开多任务强化学习的干扰。

随后引入残差强化学习后训练阶段，结合考虑驱动特性的建模、精细化随机化和功率安全约束，将预训练策略精炼至可真实执行。

该设计使单一策略既能规模化学习多样化技能，又能稳健部署于物理硬件，有效突破传统高动态人形机器人控制中的保真度瓶颈。

02.

三阶段完成策略训练

高度对齐真实硬件特性

具体来看，OMNIXTREME的整体框架包含三个环环相扣的阶段。在预训练阶段，研究者通过基于DAgger的流匹配方法训练出一个统一的基策略，其核心目标是从多个专注于单一运动的专家策略中，聚合多样化的运动先验。

随后进入后训练阶段，此时预训练的基策略被冻结，一个轻量级的残差策略在严格的电机约束、激进的领域随机化以及功率安全正则化下进行优化，旨在弥合仿真环境与真实物理世界之间的动态差距。

最后是机载部署阶段，整个推理流程经过优化，能够实时且完全在机器人的机载计算机上执行，从而确保在复杂物理环境中的鲁棒与敏捷控制。

▲OMNIXTREME框架

在可扩展的基于流的策略预训练中，问题被形式化为一个蒸馏过程。观测空间涵盖了机器人的本体感觉信息、包含躯干姿态差异和参考运动目标的指令，以及过去的状态历史。

研究者的目标是为参考运动数据集中的每一个运动先训练一个专家策略，然后将这些专家知识蒸馏到一个统一的、基于流的通用策略中。这个数据集本身也极具多样性，融合了LAFAN1、AMASS、MimicKit和Reallusion等多个来源的行为模式和高动态动作，并统一重定向到宇树G1机器人上。

专家策略的训练采用近端策略优化算法，为每个特定运动生成一个教师策略。而将多个专家知识统一起来的关键在于流匹配目标函数。该函数通过学习一个速度场，将随机噪声逐步导向专家动作，从而掌握从任意状态生成正确动作的泛化能力。

为了在预训练阶段就为未来的真实部署打下基础，研究团队在教师训练和流匹配训练中都采用了保真度保持的随机化和噪声策略。

尽管预训练的基策略已经具备了鲁棒的行为基础，但在面对真实世界复杂的物理效应时，性能差距依然存在。为此，研究者引入了考虑驱动特性的后训练阶段，其核心是残差策略建模。

在冻结基策略后，一个轻量级的MLP残差策略被训练用来产生修正动作。基策略提供主要的行为指引，而残差策略则负责微调，共同生成最终的控制指令，并通过PPO算法以累积奖励为监督进行优化。

为了让残差策略能够应对真实世界的挑战，后训练环境中融入了大量考虑驱动特性的物理约束。包括激进的领域随机化（扰动范围和难度远超预训练阶段）、初始姿态噪声、随机的地形台阶，并且特意放宽了终止阈值，允许策略在更大偏差下进行探索和纠错。

其次是功率安全驱动正则化，通过引入对过大负向机械功率的惩罚，来抑制可能触发真实硬件过流保护或热应力的剧烈电机制动，尤其针对膝关节在高动态冲击中的能量吸收过程进行约束。

最后，后训练阶段还通过精细的扭矩-速度约束来弥合驱动器建模的差距。研究者将真实的电机扭矩-速度工作包络线直接集成到仿真中，根据关节速度和扭矩方向动态计算允许的最大扭矩，确保指令在物理上可实现。此外，还通过非线性摩擦项进一步模拟了驱动器内部的能量损耗。

这一系列结构化的措施，使得最终得到的控制器更安全、对干扰更鲁棒，并与真实硬件特性高度对齐。

03.

平均成功率91.08%

端到端推理延迟仅10毫秒

为验证OMNIXTREME在处理高动态人形机器人控制任务中的性能，研究团队建立了一个双层架构的运动库，除了包含广泛使用的LAFAN1标准基准数据集外，还特别打造了名为XtremeMotion的挑战性数据集，其中包含翻转、霹雳舞、杂技和武术等60种具备高动态强度和频繁接触切换的动作。

在与“从零开始的强化学习”以及“专家到统一MLP蒸馏”等基准方法的对比中，OMNIXTREME在各项模拟指标上均表现优异，特别是在面对高难度动作和未见过的运动序列时，其成功率和追踪精度的领先优势更为显著。

▲OMNIXTREME与其他方法的对比

这证明了基于流匹配的生成式预训练能更有效地扩展模型的表示能力，而不会像传统方法那样在运动类别增加时出现性能崩塌。

在实际硬件部署方面，研究者将该统一策略应用于宇树G1人形机器人，并通过 TensorRT优化实现了约10毫秒的超低端到端推理延迟，确保机器人能以50Hz的频率在机载端实时执行。实验结果显示，OMNIXTREME能够在物理世界中稳定复现极限平衡、高速转向和复杂的全身协调动作，平均成功率达到91.08%。

▲真机部署成功率

消融实验进一步揭示了“动作感知后训练”的重要性：通过引入针对电机转矩-速度特性的物理建模、更激进的领域随机化，以及限制过度制动负载的功耗安全正则化，系统能有效缓解模拟与现实之间的差距。

▲消融实验结果

具体而言，对于翻转等冲击性动作，电机包络约束是关键；而对于霹雳舞等接触密集型技能，随机化和功耗监管则大幅提升了机器人处理接触干扰与硬件保护的能力，从而避免了过流或电压不稳导致的崩溃。

总体而言，这些实验证实了OMNIXTREME的可扩展性，也为未来人形机器人迈向人类水平的灵巧运动提供了一条可能的实践路径。

04.

结语：打破保真度与可扩展性权衡后

下一步将融入高保真执行器特性

OMNIXTREME既缓解了规模扩大时的学习瓶颈，也解决了仿真到现实部署时的物理可执行性瓶颈。让单一统一策略即可可靠执行多种极限动作，打破了传统上保真度与可扩展性之间的权衡。

研究团队称，他们认为联合扩展数据多样性与模型容量对于提升人形机器人全身运动技能的泛化能力至关重要。随着基于学习的控制器被推向更动态、更受硬件限制的场景，考虑执行器特性的建模正成为学习流程中的关键组成部分。

未来，通过融入高保真执行器特性，如电流、功率、扭矩以及速度相关的约束，研究人员能够进一步缩小仿真与现实的差距，确保学习到的行为能够无缝迁移到物理人形机器人上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.