来源:市场资讯
(来源:机器之心)
![]()
人形机器人在春晚舞台上大放异彩!然而,人们在看惯了机器人跳舞、后空翻,乃至武术表演之后,不禁开始思考:机器人何时才能真正走进大众生活,解决日常生活中的琐碎任务,从而解放人类的双手?
刚刚,来自南加州大学的团队开源了一个迈向通用人形机器人的基座模型 Ψ₀(中文读作:赛零),助力人形机器人的通用移动操作。在总体任务成功率和子任务指标上,Ψ₀平均领先 NVIDIA 最新开源模型 GR00T N1.6 超过 40%。
01 引言从人类第一视角视频中学习操作先验知识
人形机器人移动操作(loco-manipulation)是当前具身智能领域最具挑战性的研究方向之一。近年来,RT-1/2、OpenVLA、Gemini Robotics、GR00T、π0/0.5 等一系列工作相继表明,大模型能够显著提升机器人操作的泛化能力。然而,这些方法普遍严重依赖大规模遥操作数据,而对于人形机器人而言,此类数据的采集成本十分高昂。
幸运的是,第一人称视角人类视频(egocentric human videos)由于信息丰富且易于获取,为机器人学习提供了一种极具可扩展性的替代方案。
对于这类数据的利用,现有方法通常采用一种看似直觉的策略:将大量人类视频数据与机器人数据混合在一起进行联合训练,试图通过单纯扩大数据规模来弥合人与机器人之间的差距。然而,这一策略真的是最优解吗?混合数据训练往往会迫使模型同时学习两种分布差异显著的数据,这可能在一定程度上削弱模型的学习能力。
针对这一难题,南加州大学助理教授王越领衔的 Psi-Lab 联合 NVIDIA 与 WorldEngine 提出了富有洞察力的新方案 Ψ₀。该基座模型仅需 80 条真机遥操作数据,即可掌握长程移动操作能力。在论文中,研究团队设计了 八个包含移动与灵巧操作的长程任务进行评测。实验结果表明,Ψ₀ 在总体任务成功率和子任务指标上,平均领先 NVIDIA 最新开源大模型 GR00T N1.6 超过 40%。
![]()
论文标题:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
论文链接:https://arxiv.org/abs/2603.12263
主页链接:https://psi-lab.ai/Psi0/
代码链接:https://github.com/physical-superintelligence-lab/Psi0
02 数据篇:真机遥操采集高质量数据,
助力模型快速掌握新技能
![]()
图 1 Ψ₀ 基座模型使用的训练数据
高质量的领域内数据是模型学习长时域移动操作任务的关键。然而,现有遥操作系统仍存在明显短板:端到端全身遥操作方案鲁棒性不足,且大多将灵巧手简化为低维夹爪指令;而将操作与行走解耦的方案虽提升了系统稳定性,却往往需要多人协作,实用性受到限制。
为此,Ψ₀ 团队提出了一套定制化遥操作框架,将上半身姿态、灵巧手与行走控制三者解耦,实现单人完成全身控制。如图 1 所示,操作者通过 PICO 头显和手腕追踪器提供上半身姿态信息,由逆运动学求解器实时计算手臂与躯干的位置;MANUS 数据手套用于采集手指的精细动作,并直接控制灵巧手的全部自由度;行走指令则由腰部和脚部追踪器推断得到,并传递给 RL 策略负责下半身的稳定控制。
这套轻量化的可穿戴方案不仅实现了单人全身操控,同时手腕追踪器与 MANUS 手套的组合也有效规避了视觉 VR 追踪中常见的遮挡与丢失问题,从而显著提升了追踪精度与系统可靠性。
03 模型训练篇:经典三阶段训练范式,
最大化不同类型数据的价值
Ψ₀ 的研究团队发现,人类与人形机器人之间存在根本性的运动学差异以及动作分布鸿沟。简单地将这两类异构数据混合进行训练,模型往往难以有效区分并利用不同来源数据各自的优势,从而导致数据利用效率不理想。那么,如何才能真正高效地利用这些异构数据呢?
核心思路在于 “解耦”:与其让模型在统一混合训练中自行消化所有数据,不如将学习过程拆分为多个阶段,使每个阶段都聚焦于从最合适的数据源中学习最关键的能力。
具体而言,Ψ₀ 提出了一种分阶段训练范式:
预训练阶段: 在大规模第一人称视角的人类操作视频上进行自回归预训练,使视觉语言模型(VLM)学习可泛化的视觉 — 动作表征。这一阶段的目标并非学习精确的机器人控制,而是从人类丰富的操作经验中提取高层次的视觉理解与动作语义。
后训练阶段: 在高质量的人形机器人真机数据上,训练一个基于流匹配的多模态扩散动作专家,以学习精确的关节控制能力。这一阶段的目标是将前一阶段获得的通用能力 “落地” 到具体的机器人本体上。
微调阶段: 在针对特定任务收集的少量真机遥操作数据上进行微调,使模型能够快速适应具体任务场景与操作目标。这一阶段的目标是利用少量高质量数据对模型进行任务级对齐,使其在保持通用能力的同时,实现高成功率的任务执行。
![]()
图 2 Ψ₀ 采用经典的三阶段训练配方
训练配方(Training Recipe)
1. 预训练:从人类视频中学习操作先验
Ψ₀ 的预训练阶段主要基于两个数据集:EgoDex(约 829 小时的人类第一人称灵巧操作视频)和 Humanoid Everyday(约 31 小时、覆盖 260 种任务的人形机器人数据)。
为实现人类手部数据与机器人末端执行器数据的统一训练,团队设计了共享的任务空间动作表征:左右手各 24 维动作表示,其中包含 9 维腕部位姿(3D 位置 + 6D 旋转)以及五根手指的 3D 指尖位置,总计 48 维。
在训练效率方面,团队做出了一个关键取舍:预训练阶段的核心目标是让 VLM 习得操作语义与视觉表征,而非精确的运动控制,因此仅预测单步动作即可,无需预测完整的动作序列。具体实现上,研究团队采用 FAST tokenizer 将连续动作离散化,将每条 48 维动作压缩为约 20 个 token。
2. 后训练:在真机数据上学习精确控制
预训练赋予了 VLM 操作语义理解与视觉表征能力。接下来的问题是:如何将这些高层能力转化为关节级的精确控制?
Ψ₀ 的做法是冻结已训练好的 VLM 参数,从零训练动作专家模块 —— 以 VLM 提取的隐层特征为条件,通过 Flow Matching 学习生成精确的关节空间动作序列。动作专家采用 MM-DiT 架构,在这一阶段发挥了关键作用:模型利用 flow 时间步特征分别调制动作(A)特征和视觉 — 语言(VL)特征,并在每个 Transformer Block 中使动作 token 与 VL token 进行联合的全局注意力计算。
这一阶段使用跨任务的真实人形机器人数据进行训练,为后续特定任务的微调打下了坚实基础。
3. 微调:少量数据快速习得复杂技能
在拥有预训练的 VLM 与后训练得到的动作专家之后,整个模型可以在少量领域内遥操作数据上进行端到端微调,从而快速习得长时域、高灵巧度的全身操作能力。
04 模型架构篇:三大系统各司其职,
解耦大小脑实现全身控制
![]()
图3 Ψ₀ 的模型架构
Ψ₀ 在模型架构上同样遵循 “解耦” 的设计理念。考虑到视觉理解、动作生成与底层运动控制属于不同层级的问题,系统将这些能力拆分为三个协同模块:视觉语言策略、动作专家以及底层控制器。三者分工协作,从高层语义理解到低层控制逐级完成决策与执行。
System-2:视觉语言骨干网络
Ψ₀ 的高层策略以视觉语言模型(VLM)作为 “大脑”,负责理解视觉场景与语言指令。具体实现上,团队选用了当前性能领先的 Qwen3-VL-2B-Instruct 作为该模块的基座模型。
System-1:多模态扩散 Transformer 动作专家
在 VLM 提取的视觉 — 语言特征条件引导下,一个约 5 亿参数的动作专家负责预测全身动作序列(动作片段,action chunk)。该模块采用基于 Flow Matching 的多模态扩散 Transformer(MM-DiT)架构。相比普通的 DiT 动作头,MM-DiT 能够更高效地融合动作特征与视觉 — 语言特征,从而实现更精准的动作生成。
System-0:强化学习运动控制器
动作专家输出的全身动作中,上半身的 28 个自由度关节角直接下发执行;下半身的 8 维高层动作指令(包含俯仰角、身体高度、线速度等)则传递给 System-0—— 一个基于强化学习的底层跟踪策略。该模块采用现成的 AMO 控制器,负责将这些高层指令映射为 15 个自由度下半身关节角(3 个腰部 + 12 个腿部自由度)。
三个系统协同配合,最终输出 43 个自由度的全身控制动作,实现人形机器人的灵巧操作与稳定移动。
05 模型部署篇:实时动作输出,
一倍速丝滑执行各类任务
在人形机器人任务中,模型不仅需要生成精确动作,还需要满足实时控制的要求。然而,大规模视觉 — 语言 — 动作模型往往存在推理延迟,容易导致机器人动作不连续,并可能出现抖动。Ψ₀ 通过在训练阶段引入实时动作分块(RTC)机制,使模型在推理时能够平滑衔接动作序列,从而实现稳定、流畅的实时控制。
![]()
![]()
图 4 Ψ₀ 展示的真机技能:倒水、握住把手、推车一气呵成
训练时实时动作分块(Training-time RTC)
人形机器人需要流畅、快速响应的控制能力,尤其是在执行需要长时域规划的精细操作任务时。然而,目前主流的视觉 — 语言 — 动作模型(VLA)普遍参数量达到数十亿级,这不可避免地带来了推理延迟,导致机器人出现 “不自然的走走停停” 行为。
为此,Ψ₀ 团队在训练阶段引入了实时动作分块(Real-Time Chunking,RTC)机制。RTC 的核心思想是:每次预测下一段动作时,模型会将上一段已提交执行的动作块作为条件输入。这样,模型能够输出连贯一致的未来动作序列。
为了让训练过程真实反映实际推理中的延迟情况,团队在训练时随机对前 d 个动作 token 去除扩散噪声,并在损失计算中将其屏蔽。其中,d 在 0 到 d_max 之间均匀采样,d_max 表示以时间步为单位的最大推理延迟上限。
06 真机评测:八项任务实测,
平均成功率超基线 40%
为了验证模型在真实环境中的泛化能力与稳定性表现,Ψ₀ 在多个真实场景中的长时域操作任务上进行了系统性评测。实验结果表明,在仅使用约 800 小时人类视频数据和 30 小时真机数据进行训练的情况下,Ψ₀ 在整体成功率上仍显著领先现有基线方法。
![]()
![]()
图 5 Ψ₀ 展示的真机任务,转身倒水、擦碗、叠碗
如图 4~8 所示,Ψ₀ 在八个真实场景的长时域操作任务上进行了评估,涵盖了日常生活中的多种场景 —— 从抓取放置、推物、擦拭等基础交互,到需要精细手指协调的灵巧操作(如拧水龙头、勾出薯片托盘),再到涉及躯干旋转、下蹲等全身动作,以及行走和转向的移动任务,任务难度跨度极大。
在评估协议方面,每个任务收集了 80 条遥操作轨迹,所有基线模型均在相同数据集上进行了微调。每个任务由 3 到 5 个子任务组成,在报告整体成功率的同时,也单独统计了每个子任务的成功率。
![]()
图6 与基线模型的评估实验结果对比
如图 6 所示,Ψ₀ 模型在所有基线方法中表现最为突出,在八个长时域灵巧移动操作任务中均保持最稳定的性能。尤其值得一提的是,它的平均整体成功率比排名第二的 GR00T-N1.6—— 最新发布的人形机器人基础模型 —— 高出至少 40%,而这些基线方法通常使用的训练数据规模超过 Ψ₀ 的 10 倍。
![]()
![]()
图 7
Ψ₀ 展示的真机任务:拧水龙头,给人类递水果篮
Ψ₀ 的优异表现源于其分阶段训练范式:模型首先在大规模人类第一人称操作视频上进行视觉语言预训练,从而学习与操作任务相关的视觉语义与动作先验。随后,利用高质量的人形机器人真机数据训练动作专家,使模型在机器人关节空间中建立精确的控制能力。通过这种逐步对齐的学习过程,高层语义理解可以自然过渡到低层运动控制,从而在复杂长时域操作任务中实现稳定且高效的表现。
![]()
![]()
图 8 Ψ₀ 展示的真机任务:抽出薯片筒,扔垃圾,双手抱物下蹲
07 结论
这一结果有力地说明了一个关键洞察:有效的 scaling 并非单纯堆积数据,而是用合适的数据,以正确的方式进行 scaling。具体而言,高质量的第一人称人类操作数据与领域特定的真机轨迹数据的组合,能够带来显著优异的性能表现。
更重要的是,这仅仅是一个开始。未来,随着模型记忆能力的增强、更灵巧的机械手的引入,以及触觉等多模态感知的加入,我们有理由相信,机器人将逐步具备更强的理解、学习与适应能力。它们不仅能够完成单一任务,还将能够在复杂的真实世界中持续学习、协作与进化。我们期待,这一方向的探索能够推动通用机器人迈向一个更加开放、充满可能性的未来。
PSI-0项目由南加州大学 Physical Superintelligence Lab(PSI Lab,https://psi-lab.ai)与 WorldEngine 合作完成。该工作由南加州大学计算机科学助理教授王越指导,主要作者包括南加州大学博士生魏松林、李博谦、景弘毅,以及本科生赵振宇。
PSI Lab 致力于构建能够在真实人类环境中安全、自主运行的物理智能体,推动人形机器人从实验室走向日常生活。围绕这一目标,实验室持续开展机器人数据引擎、学习算法与系统部署等方向的研究,重点关注多模态数据构建、world model 与VLA、全身控制以及灵巧操作等关键问题,并强调算法研发与真实机器人系统落地的紧密结合。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.