网易首页 > 网易号 > 正文 申请入驻

Ψ₀刚刚开源了!迈向通用人形机器人的基座模型

0
分享至

来源:市场资讯

(来源:机器之心)


人形机器人在春晚舞台上大放异彩!然而,人们在看惯了机器人跳舞、后空翻,乃至武术表演之后,不禁开始思考:机器人何时才能真正走进大众生活,解决日常生活中的琐碎任务,从而解放人类的双手?

刚刚,来自南加州大学的团队开源了一个迈向通用人形机器人的基座模型 Ψ₀(中文读作:赛零),助力人形机器人的通用移动操作。在总体任务成功率和子任务指标上,Ψ₀平均领先 NVIDIA 最新开源模型 GR00T N1.6 超过 40%。

01 引言从人类第一视角视频中学习操作先验知识

人形机器人移动操作(loco-manipulation)是当前具身智能领域最具挑战性的研究方向之一。近年来,RT-1/2、OpenVLA、Gemini Robotics、GR00T、π0/0.5 等一系列工作相继表明,大模型能够显著提升机器人操作的泛化能力。然而,这些方法普遍严重依赖大规模遥操作数据,而对于人形机器人而言,此类数据的采集成本十分高昂。

幸运的是,第一人称视角人类视频(egocentric human videos)由于信息丰富且易于获取,为机器人学习提供了一种极具可扩展性的替代方案。

对于这类数据的利用,现有方法通常采用一种看似直觉的策略:将大量人类视频数据与机器人数据混合在一起进行联合训练,试图通过单纯扩大数据规模来弥合人与机器人之间的差距。然而,这一策略真的是最优解吗?混合数据训练往往会迫使模型同时学习两种分布差异显著的数据,这可能在一定程度上削弱模型的学习能力。

针对这一难题,南加州大学助理教授王越领衔的 Psi-Lab 联合 NVIDIA 与 WorldEngine 提出了富有洞察力的新方案 Ψ₀。该基座模型仅需 80 条真机遥操作数据,即可掌握长程移动操作能力。在论文中,研究团队设计了 八个包含移动与灵巧操作的长程任务进行评测。实验结果表明,Ψ₀ 在总体任务成功率和子任务指标上,平均领先 NVIDIA 最新开源大模型 GR00T N1.6 超过 40%。


  • 论文标题:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

  • 论文链接:https://arxiv.org/abs/2603.12263

  • 主页链接:https://psi-lab.ai/Psi0/

  • 代码链接:https://github.com/physical-superintelligence-lab/Psi0

02 数据篇:真机遥操采集高质量数据,

助力模型快速掌握新技能


图 1 Ψ₀ 基座模型使用的训练数据

高质量的领域内数据是模型学习长时域移动操作任务的关键。然而,现有遥操作系统仍存在明显短板:端到端全身遥操作方案鲁棒性不足,且大多将灵巧手简化为低维夹爪指令;而将操作与行走解耦的方案虽提升了系统稳定性,却往往需要多人协作,实用性受到限制。

为此,Ψ₀ 团队提出了一套定制化遥操作框架,将上半身姿态、灵巧手与行走控制三者解耦,实现单人完成全身控制。如图 1 所示,操作者通过 PICO 头显和手腕追踪器提供上半身姿态信息,由逆运动学求解器实时计算手臂与躯干的位置;MANUS 数据手套用于采集手指的精细动作,并直接控制灵巧手的全部自由度;行走指令则由腰部和脚部追踪器推断得到,并传递给 RL 策略负责下半身的稳定控制。

这套轻量化的可穿戴方案不仅实现了单人全身操控,同时手腕追踪器与 MANUS 手套的组合也有效规避了视觉 VR 追踪中常见的遮挡与丢失问题,从而显著提升了追踪精度与系统可靠性。

03 模型训练篇:经典三阶段训练范式,

最大化不同类型数据的价值

Ψ₀ 的研究团队发现,人类与人形机器人之间存在根本性的运动学差异以及动作分布鸿沟。简单地将这两类异构数据混合进行训练,模型往往难以有效区分并利用不同来源数据各自的优势,从而导致数据利用效率不理想。那么,如何才能真正高效地利用这些异构数据呢?

核心思路在于 “解耦”:与其让模型在统一混合训练中自行消化所有数据,不如将学习过程拆分为多个阶段,使每个阶段都聚焦于从最合适的数据源中学习最关键的能力。

具体而言,Ψ₀ 提出了一种分阶段训练范式:

  • 预训练阶段: 在大规模第一人称视角的人类操作视频上进行自回归预训练,使视觉语言模型(VLM)学习可泛化的视觉 — 动作表征。这一阶段的目标并非学习精确的机器人控制,而是从人类丰富的操作经验中提取高层次的视觉理解与动作语义。

  • 后训练阶段: 在高质量的人形机器人真机数据上,训练一个基于流匹配的多模态扩散动作专家,以学习精确的关节控制能力。这一阶段的目标是将前一阶段获得的通用能力 “落地” 到具体的机器人本体上。

  • 微调阶段: 在针对特定任务收集的少量真机遥操作数据上进行微调,使模型能够快速适应具体任务场景与操作目标。这一阶段的目标是利用少量高质量数据对模型进行任务级对齐,使其在保持通用能力的同时,实现高成功率的任务执行。


图 2 Ψ₀ 采用经典的三阶段训练配方

训练配方(Training Recipe)

1. 预训练:从人类视频中学习操作先验

Ψ₀ 的预训练阶段主要基于两个数据集:EgoDex(约 829 小时的人类第一人称灵巧操作视频)和 Humanoid Everyday(约 31 小时、覆盖 260 种任务的人形机器人数据)。

为实现人类手部数据与机器人末端执行器数据的统一训练,团队设计了共享的任务空间动作表征:左右手各 24 维动作表示,其中包含 9 维腕部位姿(3D 位置 + 6D 旋转)以及五根手指的 3D 指尖位置,总计 48 维。

在训练效率方面,团队做出了一个关键取舍:预训练阶段的核心目标是让 VLM 习得操作语义与视觉表征,而非精确的运动控制,因此仅预测单步动作即可,无需预测完整的动作序列。具体实现上,研究团队采用 FAST tokenizer 将连续动作离散化,将每条 48 维动作压缩为约 20 个 token。

2. 后训练:在真机数据上学习精确控制

预训练赋予了 VLM 操作语义理解与视觉表征能力。接下来的问题是:如何将这些高层能力转化为关节级的精确控制?

Ψ₀ 的做法是冻结已训练好的 VLM 参数,从零训练动作专家模块 —— 以 VLM 提取的隐层特征为条件,通过 Flow Matching 学习生成精确的关节空间动作序列。动作专家采用 MM-DiT 架构,在这一阶段发挥了关键作用:模型利用 flow 时间步特征分别调制动作(A)特征和视觉 — 语言(VL)特征,并在每个 Transformer Block 中使动作 token 与 VL token 进行联合的全局注意力计算。

这一阶段使用跨任务的真实人形机器人数据进行训练,为后续特定任务的微调打下了坚实基础。

3. 微调:少量数据快速习得复杂技能

在拥有预训练的 VLM 与后训练得到的动作专家之后,整个模型可以在少量领域内遥操作数据上进行端到端微调,从而快速习得长时域、高灵巧度的全身操作能力。

04 模型架构篇:三大系统各司其职,

解耦大小脑实现全身控制


图3 Ψ₀ 的模型架构

Ψ₀ 在模型架构上同样遵循 “解耦” 的设计理念。考虑到视觉理解、动作生成与底层运动控制属于不同层级的问题,系统将这些能力拆分为三个协同模块:视觉语言策略、动作专家以及底层控制器。三者分工协作,从高层语义理解到低层控制逐级完成决策与执行。

System-2:视觉语言骨干网络

Ψ₀ 的高层策略以视觉语言模型(VLM)作为 “大脑”,负责理解视觉场景与语言指令。具体实现上,团队选用了当前性能领先的 Qwen3-VL-2B-Instruct 作为该模块的基座模型。

System-1:多模态扩散 Transformer 动作专家

在 VLM 提取的视觉 — 语言特征条件引导下,一个约 5 亿参数的动作专家负责预测全身动作序列(动作片段,action chunk)。该模块采用基于 Flow Matching 的多模态扩散 Transformer(MM-DiT)架构。相比普通的 DiT 动作头,MM-DiT 能够更高效地融合动作特征与视觉 — 语言特征,从而实现更精准的动作生成。

System-0:强化学习运动控制器

动作专家输出的全身动作中,上半身的 28 个自由度关节角直接下发执行;下半身的 8 维高层动作指令(包含俯仰角、身体高度、线速度等)则传递给 System-0—— 一个基于强化学习的底层跟踪策略。该模块采用现成的 AMO 控制器,负责将这些高层指令映射为 15 个自由度下半身关节角(3 个腰部 + 12 个腿部自由度)。

三个系统协同配合,最终输出 43 个自由度的全身控制动作,实现人形机器人的灵巧操作与稳定移动。

05 模型部署篇:实时动作输出,

一倍速丝滑执行各类任务

在人形机器人任务中,模型不仅需要生成精确动作,还需要满足实时控制的要求。然而,大规模视觉 — 语言 — 动作模型往往存在推理延迟,容易导致机器人动作不连续,并可能出现抖动。Ψ₀ 通过在训练阶段引入实时动作分块(RTC)机制,使模型在推理时能够平滑衔接动作序列,从而实现稳定、流畅的实时控制。



图 4 Ψ₀ 展示的真机技能:倒水、握住把手、推车一气呵成

训练时实时动作分块(Training-time RTC)

人形机器人需要流畅、快速响应的控制能力,尤其是在执行需要长时域规划的精细操作任务时。然而,目前主流的视觉 — 语言 — 动作模型(VLA)普遍参数量达到数十亿级,这不可避免地带来了推理延迟,导致机器人出现 “不自然的走走停停” 行为。

为此,Ψ₀ 团队在训练阶段引入了实时动作分块(Real-Time Chunking,RTC)机制。RTC 的核心思想是:每次预测下一段动作时,模型会将上一段已提交执行的动作块作为条件输入。这样,模型能够输出连贯一致的未来动作序列。

为了让训练过程真实反映实际推理中的延迟情况,团队在训练时随机对前 d 个动作 token 去除扩散噪声,并在损失计算中将其屏蔽。其中,d 在 0 到 d_max 之间均匀采样,d_max 表示以时间步为单位的最大推理延迟上限。

06 真机评测:八项任务实测,

平均成功率超基线 40%

为了验证模型在真实环境中的泛化能力与稳定性表现,Ψ₀ 在多个真实场景中的长时域操作任务上进行了系统性评测。实验结果表明,在仅使用约 800 小时人类视频数据和 30 小时真机数据进行训练的情况下,Ψ₀ 在整体成功率上仍显著领先现有基线方法。



图 5 Ψ₀ 展示的真机任务,转身倒水、擦碗、叠碗

如图 4~8 所示,Ψ₀ 在八个真实场景的长时域操作任务上进行了评估,涵盖了日常生活中的多种场景 —— 从抓取放置、推物、擦拭等基础交互,到需要精细手指协调的灵巧操作(如拧水龙头、勾出薯片托盘),再到涉及躯干旋转、下蹲等全身动作,以及行走和转向的移动任务,任务难度跨度极大。

在评估协议方面,每个任务收集了 80 条遥操作轨迹,所有基线模型均在相同数据集上进行了微调。每个任务由 3 到 5 个子任务组成,在报告整体成功率的同时,也单独统计了每个子任务的成功率。


图6 与基线模型的评估实验结果对比

如图 6 所示,Ψ₀ 模型在所有基线方法中表现最为突出,在八个长时域灵巧移动操作任务中均保持最稳定的性能。尤其值得一提的是,它的平均整体成功率比排名第二的 GR00T-N1.6—— 最新发布的人形机器人基础模型 —— 高出至少 40%,而这些基线方法通常使用的训练数据规模超过 Ψ₀ 的 10 倍。



图 7

Ψ₀ 展示的真机任务:拧水龙头,给人类递水果篮

Ψ₀ 的优异表现源于其分阶段训练范式:模型首先在大规模人类第一人称操作视频上进行视觉语言预训练,从而学习与操作任务相关的视觉语义与动作先验。随后,利用高质量的人形机器人真机数据训练动作专家,使模型在机器人关节空间中建立精确的控制能力。通过这种逐步对齐的学习过程,高层语义理解可以自然过渡到低层运动控制,从而在复杂长时域操作任务中实现稳定且高效的表现。



图 8 Ψ₀ 展示的真机任务:抽出薯片筒,扔垃圾,双手抱物下蹲

07 结论

这一结果有力地说明了一个关键洞察:有效的 scaling 并非单纯堆积数据,而是用合适的数据,以正确的方式进行 scaling。具体而言,高质量的第一人称人类操作数据与领域特定的真机轨迹数据的组合,能够带来显著优异的性能表现。

更重要的是,这仅仅是一个开始。未来,随着模型记忆能力的增强、更灵巧的机械手的引入,以及触觉等多模态感知的加入,我们有理由相信,机器人将逐步具备更强的理解、学习与适应能力。它们不仅能够完成单一任务,还将能够在复杂的真实世界中持续学习、协作与进化。我们期待,这一方向的探索能够推动通用机器人迈向一个更加开放、充满可能性的未来。

PSI-0项目由南加州大学 Physical Superintelligence Lab(PSI Lab,https://psi-lab.ai)与 WorldEngine 合作完成。该工作由南加州大学计算机科学助理教授王越指导,主要作者包括南加州大学博士生魏松林、李博谦、景弘毅,以及本科生赵振宇。

PSI Lab 致力于构建能够在真实人类环境中安全、自主运行的物理智能体,推动人形机器人从实验室走向日常生活。围绕这一目标,实验室持续开展机器人数据引擎、学习算法与系统部署等方向的研究,重点关注多模态数据构建、world model 与VLA、全身控制以及灵巧操作等关键问题,并强调算法研发与真实机器人系统落地的紧密结合。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗发起第80波打击

伊朗发起第80波打击

财联社
2026-03-25 11:16:07
美国想不通,伊朗为啥突然变强大了?靠山是谁?

美国想不通,伊朗为啥突然变强大了?靠山是谁?

凡人侃史
2026-03-25 10:55:46
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
以色列被打穿了

以色列被打穿了

每日经济新闻
2026-03-24 15:47:11
美空军杂志:美军战损2架F-35、9架F-15、6架F-16、7架加油机!

美空军杂志:美军战损2架F-35、9架F-15、6架F-16、7架加油机!

胜研集
2026-03-25 00:02:51
郑州大学校友会发文:沉痛悼念知名校友张雪峰先生

郑州大学校友会发文:沉痛悼念知名校友张雪峰先生

吉刻新闻
2026-03-25 10:29:51
继母烫幼子下体逼吃大便 姐弟惨遭虐待生母怒讨说法

继母烫幼子下体逼吃大便 姐弟惨遭虐待生母怒讨说法

大象新闻
2026-03-25 12:09:04
米兰官博悼念张雪峰:向他的家人致以深切哀悼和衷心慰问

米兰官博悼念张雪峰:向他的家人致以深切哀悼和衷心慰问

懂球帝
2026-03-24 23:08:15
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
心源性猝死为何盯上年轻人?这些高危因素,你可能每天都在做

心源性猝死为何盯上年轻人?这些高危因素,你可能每天都在做

大象新闻
2026-03-25 15:49:04
日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

清欢百味
2026-03-25 06:26:23
张雪峰英年早逝!数十亿财产如何分割,大数据解析

张雪峰英年早逝!数十亿财产如何分割,大数据解析

史海流年号
2026-03-25 00:35:43
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
珠海一小区抢劫致人死亡案受害者为澳科大学生 学校:外租学生可向学校申请住宿

珠海一小区抢劫致人死亡案受害者为澳科大学生 学校:外租学生可向学校申请住宿

红星新闻
2026-03-25 14:26:11
“报仇不隔夜!”72名以议员直接绕开中国大陆支持台湾入国际组织

“报仇不隔夜!”72名以议员直接绕开中国大陆支持台湾入国际组织

安安说
2026-03-25 11:03:58
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
战事是如何开启的?特朗普被曝和内塔尼亚胡通话后批准打击伊朗

战事是如何开启的?特朗普被曝和内塔尼亚胡通话后批准打击伊朗

澎湃新闻
2026-03-24 20:42:27
伊朗局势迎来重要转折

伊朗局势迎来重要转折

凤眼论
2026-03-25 11:13:43
伊朗喊话美国:别把失败说成协议

伊朗喊话美国:别把失败说成协议

界面新闻
2026-03-25 11:42:57
2026-03-25 17:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2620984文章数 6125关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

女子为病重父亲找到失联34年挚友:两人加起来132岁

头条要闻

女子为病重父亲找到失联34年挚友:两人加起来132岁

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

手机
家居
亲子
艺术
数码

手机要闻

演唱会视频真神, OPPO哈苏10倍光变天眼长焦, 把增距镜装进手机里

家居要闻

轻奢堇天府 小资情调

亲子要闻

黄益平:从宠物食用鱼油到儿童防晒 中国创新催生细分新赛道

艺术要闻

《百花谱》,这个春天画花不用愁!

数码要闻

太太太贵了!AYANEO NEXT 2不卖了:唯二的AMD锐龙AI Max+ 395掌机

无障碍浏览 进入关怀版