Ψ₀刚刚开源了！迈向通用人形机器人的基座模型|算法|动作|灵巧手|通用汽车|真实世界|知名企业

分享至

来源：市场资讯

（来源：机器之心）

人形机器人在春晚舞台上大放异彩！然而，人们在看惯了机器人跳舞、后空翻，乃至武术表演之后，不禁开始思考：机器人何时才能真正走进大众生活，解决日常生活中的琐碎任务，从而解放人类的双手？

刚刚，来自南加州大学的团队开源了一个迈向通用人形机器人的基座模型 Ψ₀（中文读作：赛零），助力人形机器人的通用移动操作。在总体任务成功率和子任务指标上，Ψ₀平均领先 NVIDIA 最新开源模型 GR00T N1.6 超过 40%。

01 引言从人类第一视角视频中学习操作先验知识

人形机器人移动操作（loco-manipulation）是当前具身智能领域最具挑战性的研究方向之一。近年来，RT-1/2、OpenVLA、Gemini Robotics、GR00T、π0/0.5 等一系列工作相继表明，大模型能够显著提升机器人操作的泛化能力。然而，这些方法普遍严重依赖大规模遥操作数据，而对于人形机器人而言，此类数据的采集成本十分高昂。

幸运的是，第一人称视角人类视频（egocentric human videos）由于信息丰富且易于获取，为机器人学习提供了一种极具可扩展性的替代方案。

对于这类数据的利用，现有方法通常采用一种看似直觉的策略：将大量人类视频数据与机器人数据混合在一起进行联合训练，试图通过单纯扩大数据规模来弥合人与机器人之间的差距。然而，这一策略真的是最优解吗？混合数据训练往往会迫使模型同时学习两种分布差异显著的数据，这可能在一定程度上削弱模型的学习能力。

针对这一难题，南加州大学助理教授王越领衔的 Psi-Lab 联合 NVIDIA 与 WorldEngine 提出了富有洞察力的新方案 Ψ₀。该基座模型仅需 80 条真机遥操作数据，即可掌握长程移动操作能力。在论文中，研究团队设计了八个包含移动与灵巧操作的长程任务进行评测。实验结果表明，Ψ₀ 在总体任务成功率和子任务指标上，平均领先 NVIDIA 最新开源大模型 GR00T N1.6 超过 40%。

论文标题：Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
论文链接：https://arxiv.org/abs/2603.12263
主页链接：https://psi-lab.ai/Psi0/
代码链接：https://github.com/physical-superintelligence-lab/Psi0

02 数据篇：真机遥操采集高质量数据，

助力模型快速掌握新技能

图 1 Ψ₀ 基座模型使用的训练数据

高质量的领域内数据是模型学习长时域移动操作任务的关键。然而，现有遥操作系统仍存在明显短板：端到端全身遥操作方案鲁棒性不足，且大多将灵巧手简化为低维夹爪指令；而将操作与行走解耦的方案虽提升了系统稳定性，却往往需要多人协作，实用性受到限制。

为此，Ψ₀ 团队提出了一套定制化遥操作框架，将上半身姿态、灵巧手与行走控制三者解耦，实现单人完成全身控制。如图 1 所示，操作者通过 PICO 头显和手腕追踪器提供上半身姿态信息，由逆运动学求解器实时计算手臂与躯干的位置；MANUS 数据手套用于采集手指的精细动作，并直接控制灵巧手的全部自由度；行走指令则由腰部和脚部追踪器推断得到，并传递给 RL 策略负责下半身的稳定控制。

这套轻量化的可穿戴方案不仅实现了单人全身操控，同时手腕追踪器与 MANUS 手套的组合也有效规避了视觉 VR 追踪中常见的遮挡与丢失问题，从而显著提升了追踪精度与系统可靠性。

03 模型训练篇：经典三阶段训练范式，

最大化不同类型数据的价值

Ψ₀ 的研究团队发现，人类与人形机器人之间存在根本性的运动学差异以及动作分布鸿沟。简单地将这两类异构数据混合进行训练，模型往往难以有效区分并利用不同来源数据各自的优势，从而导致数据利用效率不理想。那么，如何才能真正高效地利用这些异构数据呢？

核心思路在于 “解耦”：与其让模型在统一混合训练中自行消化所有数据，不如将学习过程拆分为多个阶段，使每个阶段都聚焦于从最合适的数据源中学习最关键的能力。

具体而言，Ψ₀ 提出了一种分阶段训练范式：

预训练阶段：在大规模第一人称视角的人类操作视频上进行自回归预训练，使视觉语言模型（VLM）学习可泛化的视觉 — 动作表征。这一阶段的目标并非学习精确的机器人控制，而是从人类丰富的操作经验中提取高层次的视觉理解与动作语义。
后训练阶段：在高质量的人形机器人真机数据上，训练一个基于流匹配的多模态扩散动作专家，以学习精确的关节控制能力。这一阶段的目标是将前一阶段获得的通用能力 “落地” 到具体的机器人本体上。
微调阶段：在针对特定任务收集的少量真机遥操作数据上进行微调，使模型能够快速适应具体任务场景与操作目标。这一阶段的目标是利用少量高质量数据对模型进行任务级对齐，使其在保持通用能力的同时，实现高成功率的任务执行。

图 2 Ψ₀ 采用经典的三阶段训练配方

训练配方（Training Recipe）

1. 预训练：从人类视频中学习操作先验

Ψ₀ 的预训练阶段主要基于两个数据集：EgoDex（约 829 小时的人类第一人称灵巧操作视频）和 Humanoid Everyday（约 31 小时、覆盖 260 种任务的人形机器人数据）。

为实现人类手部数据与机器人末端执行器数据的统一训练，团队设计了共享的任务空间动作表征：左右手各 24 维动作表示，其中包含 9 维腕部位姿（3D 位置 + 6D 旋转）以及五根手指的 3D 指尖位置，总计 48 维。

在训练效率方面，团队做出了一个关键取舍：预训练阶段的核心目标是让 VLM 习得操作语义与视觉表征，而非精确的运动控制，因此仅预测单步动作即可，无需预测完整的动作序列。具体实现上，研究团队采用 FAST tokenizer 将连续动作离散化，将每条 48 维动作压缩为约 20 个 token。

2. 后训练：在真机数据上学习精确控制

预训练赋予了 VLM 操作语义理解与视觉表征能力。接下来的问题是：如何将这些高层能力转化为关节级的精确控制？

Ψ₀ 的做法是冻结已训练好的 VLM 参数，从零训练动作专家模块 —— 以 VLM 提取的隐层特征为条件，通过 Flow Matching 学习生成精确的关节空间动作序列。动作专家采用 MM-DiT 架构，在这一阶段发挥了关键作用：模型利用 flow 时间步特征分别调制动作（A）特征和视觉 — 语言（VL）特征，并在每个 Transformer Block 中使动作 token 与 VL token 进行联合的全局注意力计算。

这一阶段使用跨任务的真实人形机器人数据进行训练，为后续特定任务的微调打下了坚实基础。

3. 微调：少量数据快速习得复杂技能

在拥有预训练的 VLM 与后训练得到的动作专家之后，整个模型可以在少量领域内遥操作数据上进行端到端微调，从而快速习得长时域、高灵巧度的全身操作能力。

04 模型架构篇：三大系统各司其职，

解耦大小脑实现全身控制

图3 Ψ₀ 的模型架构

Ψ₀ 在模型架构上同样遵循 “解耦” 的设计理念。考虑到视觉理解、动作生成与底层运动控制属于不同层级的问题，系统将这些能力拆分为三个协同模块：视觉语言策略、动作专家以及底层控制器。三者分工协作，从高层语义理解到低层控制逐级完成决策与执行。

System-2：视觉语言骨干网络

Ψ₀ 的高层策略以视觉语言模型（VLM）作为 “大脑”，负责理解视觉场景与语言指令。具体实现上，团队选用了当前性能领先的 Qwen3-VL-2B-Instruct 作为该模块的基座模型。

System-1：多模态扩散 Transformer 动作专家

在 VLM 提取的视觉 — 语言特征条件引导下，一个约 5 亿参数的动作专家负责预测全身动作序列（动作片段，action chunk）。该模块采用基于 Flow Matching 的多模态扩散 Transformer（MM-DiT）架构。相比普通的 DiT 动作头，MM-DiT 能够更高效地融合动作特征与视觉 — 语言特征，从而实现更精准的动作生成。

System-0：强化学习运动控制器

动作专家输出的全身动作中，上半身的 28 个自由度关节角直接下发执行；下半身的 8 维高层动作指令（包含俯仰角、身体高度、线速度等）则传递给 System-0—— 一个基于强化学习的底层跟踪策略。该模块采用现成的 AMO 控制器，负责将这些高层指令映射为 15 个自由度下半身关节角（3 个腰部 + 12 个腿部自由度）。

三个系统协同配合，最终输出 43 个自由度的全身控制动作，实现人形机器人的灵巧操作与稳定移动。

05 模型部署篇：实时动作输出，

一倍速丝滑执行各类任务

在人形机器人任务中，模型不仅需要生成精确动作，还需要满足实时控制的要求。然而，大规模视觉 — 语言 — 动作模型往往存在推理延迟，容易导致机器人动作不连续，并可能出现抖动。Ψ₀ 通过在训练阶段引入实时动作分块（RTC）机制，使模型在推理时能够平滑衔接动作序列，从而实现稳定、流畅的实时控制。

图 4 Ψ₀ 展示的真机技能：倒水、握住把手、推车一气呵成

训练时实时动作分块（Training-time RTC）

人形机器人需要流畅、快速响应的控制能力，尤其是在执行需要长时域规划的精细操作任务时。然而，目前主流的视觉 — 语言 — 动作模型（VLA）普遍参数量达到数十亿级，这不可避免地带来了推理延迟，导致机器人出现 “不自然的走走停停” 行为。

为此，Ψ₀ 团队在训练阶段引入了实时动作分块（Real-Time Chunking，RTC）机制。RTC 的核心思想是：每次预测下一段动作时，模型会将上一段已提交执行的动作块作为条件输入。这样，模型能够输出连贯一致的未来动作序列。

为了让训练过程真实反映实际推理中的延迟情况，团队在训练时随机对前 d 个动作 token 去除扩散噪声，并在损失计算中将其屏蔽。其中，d 在 0 到 d_max 之间均匀采样，d_max 表示以时间步为单位的最大推理延迟上限。

06 真机评测：八项任务实测，

平均成功率超基线 40%

为了验证模型在真实环境中的泛化能力与稳定性表现，Ψ₀ 在多个真实场景中的长时域操作任务上进行了系统性评测。实验结果表明，在仅使用约 800 小时人类视频数据和 30 小时真机数据进行训练的情况下，Ψ₀ 在整体成功率上仍显著领先现有基线方法。

图 5 Ψ₀ 展示的真机任务，转身倒水、擦碗、叠碗

如图 4～8 所示，Ψ₀ 在八个真实场景的长时域操作任务上进行了评估，涵盖了日常生活中的多种场景 —— 从抓取放置、推物、擦拭等基础交互，到需要精细手指协调的灵巧操作（如拧水龙头、勾出薯片托盘），再到涉及躯干旋转、下蹲等全身动作，以及行走和转向的移动任务，任务难度跨度极大。

在评估协议方面，每个任务收集了 80 条遥操作轨迹，所有基线模型均在相同数据集上进行了微调。每个任务由 3 到 5 个子任务组成，在报告整体成功率的同时，也单独统计了每个子任务的成功率。

图6 与基线模型的评估实验结果对比

如图 6 所示，Ψ₀ 模型在所有基线方法中表现最为突出，在八个长时域灵巧移动操作任务中均保持最稳定的性能。尤其值得一提的是，它的平均整体成功率比排名第二的 GR00T-N1.6—— 最新发布的人形机器人基础模型 —— 高出至少 40%，而这些基线方法通常使用的训练数据规模超过 Ψ₀ 的 10 倍。

图 7

Ψ₀ 展示的真机任务：拧水龙头，给人类递水果篮

Ψ₀ 的优异表现源于其分阶段训练范式：模型首先在大规模人类第一人称操作视频上进行视觉语言预训练，从而学习与操作任务相关的视觉语义与动作先验。随后，利用高质量的人形机器人真机数据训练动作专家，使模型在机器人关节空间中建立精确的控制能力。通过这种逐步对齐的学习过程，高层语义理解可以自然过渡到低层运动控制，从而在复杂长时域操作任务中实现稳定且高效的表现。

图 8 Ψ₀ 展示的真机任务：抽出薯片筒，扔垃圾，双手抱物下蹲

07 结论

这一结果有力地说明了一个关键洞察：有效的 scaling 并非单纯堆积数据，而是用合适的数据，以正确的方式进行 scaling。具体而言，高质量的第一人称人类操作数据与领域特定的真机轨迹数据的组合，能够带来显著优异的性能表现。

更重要的是，这仅仅是一个开始。未来，随着模型记忆能力的增强、更灵巧的机械手的引入，以及触觉等多模态感知的加入，我们有理由相信，机器人将逐步具备更强的理解、学习与适应能力。它们不仅能够完成单一任务，还将能够在复杂的真实世界中持续学习、协作与进化。我们期待，这一方向的探索能够推动通用机器人迈向一个更加开放、充满可能性的未来。

PSI-0项目由南加州大学 Physical Superintelligence Lab（PSI Lab，https://psi-lab.ai）与 WorldEngine 合作完成。该工作由南加州大学计算机科学助理教授王越指导，主要作者包括南加州大学博士生魏松林、李博谦、景弘毅，以及本科生赵振宇。

PSI Lab 致力于构建能够在真实人类环境中安全、自主运行的物理智能体，推动人形机器人从实验室走向日常生活。围绕这一目标，实验室持续开展机器人数据引擎、学习算法与系统部署等方向的研究，重点关注多模态数据构建、world model 与VLA、全身控制以及灵巧操作等关键问题，并强调算法研发与真实机器人系统落地的紧密结合。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.