中国具身屠榜全球！10万小时数据炸场，PI、英伟达集体破防|位姿|机器人|操作数|真实场景

分享至

来源：市场资讯

（来源：新智元）

新智元报道

编辑：犀牛

【新智元导读】10万小时人类数据、不搞对齐只靠规模，灵初Psi-R2登顶MolmoSpaces。

具身智能领域最近有一个心照不宣的焦虑：真机遥操作数据这条路，可能走不下去了。

成本是一方面——采集一小时数据动辄花数百元，还得搭一套专业动捕环境。

速度更是硬伤：人盯着屏幕遥控机械臂，采集节奏很难跟上真实生产节拍。

这意味着，单纯依赖遥操作数据，恐怕无力同时支撑大规模训练与产业落地。

那换条路呢？

人类本来就在真实作业场景中完成海量高精细操作，让人直接干活，再把人的操作数据扒下来给机器人用。

难点至少两个。

第一，人手和机械手长得不一样，人类操作不能直接平移到机器人身上。

第二，如果只靠第一视角视频去还原人手动作，精度又往往不够，很难支撑高精细任务。

灵初智能最近交了一份答卷。

他们用10万小时人类操作数据搭了一套PSI框架，里面有两个大模型：策略模型Psi-R2负责学「任务该怎么做」，世界模型Psi-W0负责补「换种做法会怎样」，再把人类操作一步步转成机器人真能执行的动作。（tech blog链接：https://www.psibot.ai/from-human-skill-to-robotic-mastery/）

模型之外，灵初还亮出了近10万小时人类数据，以及1000小时开源数据集。

这套方法之外，灵初智能同时拿出了近10万小时人类数据，以及1000小时开源数据集。

一、10万小时人类数据

开始被当作机器人预训练的主料

这套路子的起点很简单：把人类操作数据直接塞进机器人预训练的主干。

据灵初披露，Psi-R2预训练同时用真机数据和人类数据。

真机数据来自灵初Psi-MobiDex数据集，5417小时；人类数据总规模95472小时，覆盖294种场景、4821种任务、1382种物体。

背后是一种很直接的判断。

具身智能长期缺「存量数据」——不像自动驾驶有多年路测积累，也不像大模型能从互联网白捡海量文本。

机器人想学会做事，没法像文字或图像那样从现成语料里捞，只能靠现实世界一口一口喂。

真机遥操作曾经是条相对自然的路，但模型规模一大、任务一复杂，这种数据供给方式就开始掉链子。

于是人类数据的价值被重新抬了上来。

它的吸引力就两条：一是来源天然丰富，人本来就在不停干活；二是数据更贴近真实作业，天然带着任务目标、动作细节和节拍信息。

说白了，机器人想学会干活，最密集、最成熟的示范样本，本来就长在人手上。

关键是怎么把人类数据和真机数据捏在一起训。

灵初试过一堆更复杂的招：图像修复、关键点辅助损失、跨空间对齐……小数据量时确实管用。

但数据一上量，这些精巧模块全成了瓶颈。

原因不复杂，这些方法本质上是想让人手和机械手看起来一样，可它俩的物理规律压根不同。

对手机装配这种精细活，强行对齐反而引入误差。

最后剩下的，反而是一条朴素的路线：Raw Data In, Raw Data Out。

落到工程上，就是把人手关节用运动学公式硬算成机械手关节，图像原封不动直接喂给模型，人为处理越少越好。

从结果看，这条路线暂时跑通了。

据灵初披露，Psi-R2完成预训练后，只要用少于100条轨迹的真机数据微调，就能干手机装配、工业包装、纸盒折叠这些长时序、高精度的活。

光有数据还不够。

怎么让机器人「吃」进去？这就引出这套框架的真正核心——世界模型里的强化学习。

二、Psi-W0

把「如果失败了会怎样」补了回来

光看Psi-R2，这套方法有个天然缺口：它擅长从成功轨迹中学习，但自己很难长出反事实能力。

这正是世界模型该上场的地方。

Psi-W0吃进图像、语言指令和机器人动作轨迹，吐出未来场景的视频预测。

它和Psi-R2最大的不同在于：动作在这里不只是预测结果，而是直接参与条件生成。

说白了，它就是一个动作条件型世界模型（AC-WM）。

再直白一点：Psi-R2像「会做题的学生」，Psi-W0像一套能把过程重新推演的系统。

策略模型知道什么动作曾经成功，却不知道动作偏一点、顺序乱一点、接触晚一点会发生什么。

可偏偏强化学习、策略评估、人类动作向机器人动作的真正迁移，全都离不开这部分信息。

为了让模型学会理解失败，Psi-W0在训练里额外加入了约30%的失败样本，这些数据来自专项采集、常规采集和推理过程。

这样一来，它不只认识「成功长什么样」，也开始知道「失败会怎样展开」。

在整套系统里，Psi-W0承担着两层作用。

第一层是评估。类数据规模再大，也不等于知识自动进了模型。

策略到底有没有真学会「人怎么做这件事」？

需要一个能推演轨迹、判断结果的系统来检验，Psi-W0就是这个角色。

第二层更关键：它直接参与把人类数据转成机器人数据。

以抓取任务为例。人类抓苹果的动作映射到机器人身上，很可能就差那么一丁点就抓不起来。

对高精细任务，这种偏差往往是致命的。

传统做法得把场景和物体重建进仿真器，再在仿真里做强化学习微调——流程重、成本高，还得忍受Sim2Real gap。

灵初智能的思路，是把这过程搬进世界模型里完成。

先让Psi-R2学一条人类数据，再把轨迹交给Psi-W0推演，在机器人视觉和机器人动力学条件下看动作结果；不理想就继续用强化学习调，直到这条轨迹更贴近机器人真能执行的状态。

整体看，这相当于多了一层「梦里试错」的空间。

好轨迹可以回流到训练中，成为新的有效数据；偏掉的轨迹也有价值，它们帮助模型识别失败边界，推动世界模型越来越准。

所谓数据飞轮，就是这么转起来的。

这套方法很快在公开榜单上被验证了。

在由美国 Allen Institute for AI 发起的 MolmoSpaces 榜单中，灵初智能的 Psi-R2 在总榜中位列第一，整体表现超过具身大模型标杆 π 以及英伟达 GEAR 等主流方案，并与其他基线模型拉开差距。

MolmoSpaces 是当前具身智能领域少数与真实世界评测具有较强相关性的公开基准之一。NVIDIA、PI 等全球顶尖团队均参与本次评测。而 Psi-R2 位列其上。

三、数据真正的分水岭

在于信噪比、精度和节拍

如果说双模型架构回答的是「怎么学」，那这次发布里另一个更耐人寻味的问题，是「什么样的数据才值得学」。

灵初智能给出了一个很干脆的判断。

决定数据价值的核心因素，不在数量本身，而在信噪比。

低信噪比数据不光效率低，还会拖垮训练效果。

再往细了拆：在数据分布上，优先级是任务多样性 > 物体多样性 >> 场景多样性；在感知模态上，优先级是精准3D位姿 >> 触觉模态 > 2D图像特征。

这组结论挺有指向性。

它说明具身智能模型真正缺的，是更丰富的任务类型、更扎实的物体交互、更高精度的动作轨迹。

毕竟对操作任务来说，背景很多时候只是背景，模型真正要学的是物体、动作和接触关系。

在这几个维度里，3D位姿精度尤其要命。

当前常见的人类数据采集方式里，纯第一视角视频当然成本低、规模大，但精度始终是硬伤。

据灵初披露的方案，他们通过端到端的第一视角手部检测模型预测MANO参数和位姿，再结合DPVO和Any4D，把轨迹统一到世界坐标系。

即便如此，只靠纯第一视角视频恢复的人手操作轨迹，误差仍然在毫米级；引入自研外骨骼手套之后，才能压到亚毫米级。

这也是为什么精细装配场景对采集精度格外敏感。手机装配、纸盒插接、精密抓取这类任务，很多时候不是靠「差不多」就能完成，误差只要再放大一点，动作就会彻底失效。

除了位姿精度，另一条线索是触觉。

这几年，触觉在机器人通用模型里一直是个稀罕物。

因为机器人端的触觉传感器本身就难稳定部署，不同硬件厂商的数据格式也不兼容，想把它做成可规模化复用的数据源很难。

但人类侧的触觉采集条件宽松得多，设备更轻，成本也更低。

灵初这次把触觉看作一条关键线索。

人和机器人外形不同、关节不同、动力学不同，但「碰到了没有」、「接触发生在什么时候」这类信号，本来就接近一种跨本体的共通语言。

考虑到现实里大多数机器人根本没有成熟可用的触觉通道，灵初用了Mask Training的方式：真机数据输入时把触觉通道屏蔽掉，让模型去预测触觉信号，而不是直接拿它当观测输入。

据其披露，引入触觉后，Psi-W0的表现明显提升，模型对机器人和物体交互过程的预判能力也更强。

再往下看，真正把实验室和工厂区分开的，还是节拍。

这也是人类数据被重新看重的另一个原因。

真实工厂里的标准作业流程，往往是长期打磨出来的最优结果，每多一个动作、每慢一个节拍，都可能在规模化生产中被成倍放大。

假设机械臂物理运动上限是 1200，遥操作往往只能做到 800 甚至更低；而人在本职工作中完成操作时，节拍可以逼近机械臂的运动极限。

换句话说，人类数据的价值不只在于采得更便宜，也在于它更贴近真实 SOP，更贴近真实作业速度。

对于想走向落地的具身智能模型来说，这种数据天然更接近产业需求本身。

四、1000小时开源数据集

背后是一条更完整的训练路径

灵初这次还顺手甩出了一套开源数据集。总盘子接近10万小时的人类操作数据，先开源其中1000小时。

别小看这1000小时。

门道藏在结构里：一类是高精度数据，处理之后轨迹能高度对齐真机，回放性极强；另一类主攻大规模扩展，精度可控，优先把数据量和泛化空间拉满。

一个管操作精度，一个管预训练边界——两种数据放在同一套体系里，训练框架才算真正闭环。

顺着往下看，这次发布的核心看点，早就不在模型名字、榜单排名或者开源数据本身。

灵初真正亮出来的，是一条完整的训练路径：当真机遥操作数据撑不起大规模预训练，就把人类数据塞进训练主脉。

但光有人类数据远远不够——得靠策略模型承接，得靠世界模型做反事实推演和强化学习调优，还得有一套转换机制，把人的动作稳稳当当变成机器人的动作。

灵初想占的，显然不是一次榜单的C位。它在赌的，是下一阶段具身智能训练框架的卡位战。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.