具身智能天花板！VideoMimic 让机器人 “看视频学技能”，Python/PPO 实战教程 + 真机部署方案已公开|动作|鲁棒性|仿真器|全模态

分享至

UC 伯克利提出的 VideoMimic，堪称具身智能领域的里程碑式成果—— 仅通过手机拍摄的人类日常视频，就能让宇树 G1 人形机器人无需遥控器，自主复刻上下楼梯、坐下、攀爬等复杂动作。

其核心流程「real2sim→仿真训练→sim2real」，彻底打通了从视频观测到真机落地的全链路，相关代码已逐步开源：2025 年 7 月 15 日开源 real-to-sim 流水线与视频数据集，9 月 15 日 sim-to-real 流水线完成全开源，项目地址为videomimic.net，GitHub 地址为github.com/hongsukchoi/VideoMimic。

其相关论文《Visual Imitation Enables Contextual Humanoid Control》由 Arthur Allshire、Pieter Abbeel（RL 领域大牛）、Trevor Darrell（CV 领域大牛）等多位顶尖学者联合撰写，核心实现了机器人的上下文控制

能力 —— 让机器人通过观察人类视频，学习带有环境上下文的全身技能，无需为每种新行为人工调整奖励或动作捕捉数据。

一、核心原理：从视频到机器人技能的全链路转化

VideoMimic 的核心创新，是从单目 RGB 视频中联合恢复 4D 人 - 场景几何体，将人类动作精准重定向到类人机器人，再通过强化学习训练策略并蒸馏为统一模型。

最终训练好的模型，仅通过本体感知、本地高度图和期望根部方向三种信息，就能让机器人在未知环境中自主执行行走、攀爬、坐下等行为，无需任何明确的任务标签或技能选择。

三大核心步骤，打通视频到真机落地数据采集（real2sim）：

从随手拍摄的单目视频中提取人体姿态、重建场景点云，联合优化后将动作重定向到宇树 G1，生成仿真器可用的运动 - 网格配对数据；

仿真策略训练：

以重建数据为输入，通过 4 个阶段的强化学习，在 IsaacGym 模拟器中训练出通用控制策略；

真机部署（sim2real）：

将仿真训练的策略直接部署到宇树 G1 真机，实现真实环境中的上下文感知运动控制。

与以往方法相比，VideoMimic 的关键优势在于不单独重建人物或场景，而是将二者联合重建，并以物理有意义的尺度转化为网格和运动轨迹，完美适配基于物理的策略学习；且策略所需的所有观测信息，均为真实机器人可直接获取，真正实现 “仿真训练，真机可用”。

相关工作：弥补足式机器人学习的两大短板

近年来，足式机器人运动技能的研究主要分为两类，但均存在明显局限性，而 VideoMimic 完美弥补了二者的不足：

基于奖励的强化学习:

在仿真中通过人工设计目标函数塑造行为，实现了敏捷运动，但每引入新行为都需反复调优奖励函数，灵活性极差；

数据驱动的模仿学习：

通过动作捕捉或单目视频训练机器人模仿动作，绕过了奖励工程，但多假设平坦地面 / 手工设计场景，缺乏上下文感知能力。

VideoMimic 基于视觉观测和局部高度图做条件建模，直接从单目视频学习环境感知技能，通过联合 4D 人 - 场景重建提供物理一致的参考动作，再用强化学习提炼为可迁移到真机的策略，真正实现了真实视频→仿真训练→现实落地的全链路打通。

二、第一步：Real-to-Sim｜从真实视频到仿真可用数据

real2sim 是 VideoMimic 的基础，核心是将随手拍摄的单目 RGB 视频，转化为仿真器可直接使用的运动 - 网格配对数据，整个流程仅需三个前提假设：①视频能清晰捕捉人物和场景；②视频内环境保持静止；③已知机器人运动学参数和关节极限。

该流程分为预处理、人体与场景联合优化、生成仿真数据（含动作重定向）三大阶段，环环相扣，最终输出适配物理仿真的训练数据。

2.1 预处理：提取人体姿态 + 重建场景点云

使用成熟的计算机视觉模型，从输入视频中提取核心信息，为后续重建做准备，核心操作如下：

▫️人体检测与姿态估计：Grounded SAM2 检测人物并帧间关联，VIMO 恢复 3D SMPL 参数，ViTPose 检测 2D 关节点，BSTRO 回归足部接触信息；

▫️场景点云重建：纹理丰富场景用 MegaSaM，无纹理场景用 MonST3R，获取世界点云、相机位姿等（所得点云度量暂不准确）；

▫️粗略定位：参考 SLAHMR 初始化策略，将 2D 关节点反投影到 3D 空间，得到人体粗略全局轨迹。

2.2 联合优化：精准对齐人体轨迹与场景几何

核心解决场景点云的尺度歧义问题，以人体身高先验为度量基准，联合优化人体的全局平移 / 朝向、局部姿态，以及场景点云的缩放参数，让人体轨迹与场景几何精准匹配。

优化的目标函数融合了3D 关节点 L1 距离损失、2D 投影 L1 距离损失和时序平滑正则项，有效抑制帧间抖动，公式为：argminα,γ,ϕ,θw3DL3D+w2DL2D+LSmooth

该优化通过 JAX 实现的 Levenberg–Marquardt 求解器完成，在 NVIDIA A100 GPU 上，编译后处理 300 帧序列仅需 20 毫秒，轻松消除初始重建的尺度和位置误差。

2.3 生成仿真数据：重力对齐 + 网格化 + 动作重定向

将优化后的重建数据，处理为适配物理仿真器的格式，并将人类动作精准运动学重定向到宇树 G1，核心三步：

重力对齐:

用 GeoCalib 估计重力方向，将重建结果转换为与物理引擎兼容的坐标系（+z 轴朝上）；

点云滤波与网格化:

过滤噪声点，下采样后用 NKSR 做表面重建，生成轻量级网格（300 帧处理约 60 秒）；

仿人动作重定向:

将人类轨迹转换为 G1 关节角度，加入运动迁移损失、碰撞代价等约束（单张 A100 处理 300 帧约 10 秒）。

最终输出世界坐标系下的轨迹 + 仿真器可用网格，直接作为后续策略训练的输入。

2.4 评估与数据｜性能拉满，数据丰富 ✅ 定量评估：显著优于基线方法

在 SLOPER4D 数据集上，VideoMimic 在人体轨迹精度（WA/W-MPJPE）和场景几何重建（Chamfer 距离）上均大幅超越 WHAM、TRAM 等方法，鲁棒性拉满。

✅ 泛化能力：支持多场景 / 多任务重建

可处理互联网动态视频的复杂人 - 场景交互、实现多人重建与重定向，还能渲染机器人自我视角 RGB-D 帧，为后续感知策略学习埋下伏笔。

✅ 训练数据：123 段手机录制的日常视频

收集 123 段涵盖上下楼梯、坐下 / 站起、地形穿越等场景的视频，按 9:1 混合 LaFan 平地行走数据，保证数据多样性。

✅ 关键结论：动作捕捉预训练不可或缺

动作捕捉预训练（MPT）能帮助策略从噪声视频中学习技能，稳定机器人初始平衡，去除 MPT 会显著降低学习成功率。

三、第二步：仿真策略训练｜四步打造通用控制器

基于 real2sim 生成的仿真数据，在 IsaacGym 模拟器中通过近端策略优化（PPO）训练策略，核心目标是打造快速忠实于视频、真实环境可用、泛化性强的通用控制器，全程引入域随机化，让策略适配真实环境的物理扰动。

整个训练分为 4 个阶段，层层递进，最终输出可直接部署的精简策略。

核心训练设置｜真机可用，极致优化

所有设置均围绕真实机器人可实现设计，关键参数如下：▫️PPO 超参数：γ=0.99，λ=0.95，自适应学习率（初始 1e-3，微调 2e-5）；▫️硬件与并行：2×NVIDIA 4090 GPU，8192 个并行环境，模拟器 200Hz 运行；▫️网络结构：4 层 MLP，维度 [1024,512,256,128]；▫️观测信息：5 帧历史本体感知 + 局部目标观测 + 11×11 高度图（均为真机可获取）；▫️奖励设计：以数据驱动跟踪项为主，加入动作速率、碰撞等惩罚，平衡忠实度与物理可行性。

四阶段训练流程｜层层递进，打造通用策略阶段 1：动作捕捉预训练（MPT）

用 LAFAN 动作捕捉数据集预训练，将人类轨迹重定向到 G1，解决人类到机器人的具身差距，该阶段策略可直接部署到真机，为后续学习打下基础。

阶段 2：场景条件跟踪

从 MPT 检查点初始化，引入高度图观测，在重建地形上执行批量跟踪，同时对质量、摩擦等做域随机化，让策略学会场景感知。

阶段 3：根条件蒸馏

通过 DAgger 算法蒸馏策略，去除目标关节角度等观测，仅以期望根部方向为控制信号（可来自操纵杆），统一操纵杆跟踪和全局参考跟踪方法。

阶段 4：欠约束的 RL 微调

放宽回合终止容差，对蒸馏后的策略再次微调，让策略具备恢复行为（如下楼梯打滑后自主调整），显著提升真实环境的鲁棒性。

域随机化｜提升仿真到真实的迁移性

为模拟真实世界的物理扰动，引入多维度域随机化，包括动力学随机化、观测噪声、传感器延迟等，让策略在仿真中适应各种未建模效应，大幅提升真机部署成功率。

四、第三步：Sim2Real｜仿真策略部署到宇树 G1 真机

VideoMimic 的最终目标是真机落地，作者在23 自由度的宇树 G1上完成了全面验证，实现了无遥控器的上下文感知运动控制 —— 这也是首个基于单目人类视频学习、成功落地真机的上下文感知类人策略。

4.1 真机部署核心设置｜简洁高效，稳定可靠硬件与运行：
G1 板载 Jetson Orin NX，C+++ROS+Unitree SDK 2，50Hz 本地运行，所有操作本地完成；关节增益：

Kp=75（踝关节 Kp=20），避免与环境剧烈碰撞，保证运动灵活性；

高度图获取：

Fast-lio2 + 概率地形映射，实时生成 11×11 LiDAR 高度图，360° 感知地形；

控制指令：

仅需遥控杆输入根部方向目标，操作极度简易。

仿真到真实迁移的两大关键：

✅ 放宽与参考运动相关的回合终止容差；

✅ 训练中注入真实的物理扰动。

同时采用渐进式评估方法：先部署 MPT 预训练策略，再测试蒸馏策略，最后部署完整策略，逐步调试真机能力，确保落地成功率。

4.2 实际环境评估｜鲁棒性拉满，泛化性优异

在真实室内外环境中，宇树 G1 通过单一策略，无需针对特定任务调整，仅依赖本体感知和带噪声的 LiDAR 高度图，就能实现多种复杂全身行为：▫️ 自主上下楼梯（室内 / 室外均可）、穿越陡峭土坡和崎岖植被；▫️ 可靠地在椅子、长凳上坐下和站起；▫️ 超强抗干扰：下楼梯脚打滑时，能通过短暂单腿跳跃恢复平衡，重回正常步态。

五、结论与局限性 5.1 核心结论｜具身智能的重要突破

VideoMimic 构建了真实→仿真→真实的完整链路，首次实现从单目人类日常视频到机器人可迁移上下文技能的端到端转化，核心贡献有三：

提出端到端的 real2sim 流程，从随手拍摄的视频中联合重建 4D 人 - 场景几何体，并重定向到机器人；

设计四阶段仿真训练流程，打造出泛化性强、真机可用的通用控制器，全程引入域随机化提升迁移性；

在宇树 G1 真机上验证有效性，实现多环境下的上下文感知运动控制，为具身智能场景落地提供可扩展路径。

未来研究将围绕更丰富的人 - 环境交互、多模态传感器驱动学习、多智能体行为建模展开，进一步拓展 VideoMimic 的能力边界。

5.2 现存局限性｜未来研究的关键方向

尽管取得突破性进展，但 VideoMimic 仍存在一些待解决的问题，也是未来具身智能的核心研究方向：

重建环节脆弱：

单目 4D 重建受环境影响大，低纹理场景效果差，易丢失楼梯踏步等高频细节；

动作重定向有局限：

杂乱场景中，人类参考姿态缩放后机器人可能无法实现，求解器易陷入局部极小值；

感知输入分辨率低：

11×11 高度图无法满足精确接触、悬空障碍物推理等需求；

仿真建模简单：

仅支持单一刚性网格场景，无法处理关节型 / 可变形物体；

数据规模不足：

仅在 123 段视频上训练，动作偶尔卡顿，需要更大规模、更多样的数据集和真实世界微调。

突破这些限制，需要从动态与静态点云分离、鲁棒网格化、自适应重定向成本、更丰富的感知输入、大规模数据集等方面入手，推动具身智能向更通用、更鲁棒的方向发展。

为不断扩大我司的具身朋友圈，关联中国更多的具身er

在我司的主营业务「具身智能的场景落地与定制开发」外，我们还开设了「七月具身：人形二次开发线上营」，如果国内没人带你，我们带你一一以最顶级、最前沿的视角玩转人形机器人二次开发

欢迎了解、加入《人形二次开发线上营》

↓↓↓扫码了解课程↓↓↓

课程咨询可找苏苏老师VX：julyedukefu008或七月其他老师

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.