全球第一的具身智能模型，居然是靠”抄人类作业”练出来的|轨迹|算法|机器人|操作数|大模型

全球第一的具身智能模型，居然是靠”抄人类作业”练出来的

2026-04-14 00:38:10　来源: 高恒说

北京举报

分享至

4月12日，灵初智能官宣完成新一轮融资，投资方是国投先导和京西瑞瓴，一个是硬科技赛道的头部国资机构，一个是北京国资联合高瓴背景发起的AI产业基金。两天前，灵初刚发布了新一代模型Psi-R2和世界模型Psi-W0，其中Psi-R2在国际权威基准MolmoSpaces上拿下全球第一，超过了PI和英伟达GEAR。同时开源1000小时人类操作数据集。

融资、发模型、屠榜、开源，四件事挤在一周里，节奏很密。但如果只盯着这些动作本身，容易看岔。

这件事真正值得聊的，不是灵初拿了多少钱，而是资本在押注什么。

答案是一条数据路线。

具身智能眼下最大的瓶颈，不是算法不够好，是数据不够用。这一点行业里几乎已经有共识了。机器人想学会干活，不能像大语言模型那样从互联网上白捞文本，也不像自动驾驶有多年路测数据可以吃。它的训练素材只能从现实世界里一口一口喂。

过去几年，主流方案是真机遥操作——人盯着屏幕远程控制机械臂，一条一条录轨迹。这条路在早期确实管用，但规模一上来就撑不住了。采集一小时数据动辄花几百块，还得搭专业动捕环境，人盯着屏幕操控的节奏也很难跟上真实生产节拍。模型越大、任务越复杂，这种供给方式就越像用水杯往游泳池里灌水。

灵初智能选了另一条路：不让人远程控制机器人，而是让人直接干活，再把人的操作数据”翻译”给机器人用。

逻辑很朴素。人类本来就每天在工厂、仓库、流水线上完成海量精细操作，这些数据天然存在，成本极低，而且自带真实作业的节拍和动作细节。据灵初披露，他们积累的人类操作数据总规模已经接近10万小时，覆盖294种场景、4821种任务。这个量级，靠遥操作恐怕再干几年也攒不出来。

但人类数据有一个绕不过去的硬伤：人手和机械手长得不一样。人抓一个苹果的动作，直接映射到机械臂上，很可能就差那么一丁点就抓不起来。对手机装配、精密插接这类任务，毫米级的误差就能让整个动作失效。

灵初的解法是搭了一套双模型框架。策略模型Psi-R2负责从人类数据里学”任务该怎么做”，世界模型Psi-W0负责推演”换种做法会怎样”。人类的操作轨迹先经过Psi-R2学习，再交给Psi-W0在机器人的视觉和动力学条件下做模拟验证，不行就用强化学习继续调，直到这条轨迹变成机器人真能执行的动作。相当于在模型里多了一层”梦里试错”的空间，好的轨迹回流训练，坏的轨迹帮助识别失败边界，数据飞轮就这么转起来了。

从结果看，这条路暂时跑通了。Psi-R2预训练完成后，只需要不到100条真机轨迹微调，就能完成手机装配、工业包装、纸盒折叠这些长时序高精度任务。MolmoSpaces榜单上的全球第一，也算是一个外部验证。

当然，这条路远谈不上没有风险。纯靠第一视角视频恢复的人手轨迹，精度只到毫米级，灵初自己也承认得靠自研外骨骼手套才能压到亚毫米级。跨本体迁移的损耗到底有多大，在更多任务类型上能不能持续扛住，都还需要更大规模的验证。

但我觉得这件事的意义，不在于灵初现在做到了什么程度，而在于它指出了一个方向：当遥操作数据这条路明显到顶的时候，人类数据有可能成为具身智能下一阶段的主燃料。

国投先导和京西瑞瓴这笔钱投进去，表面上投的是一家公司，实际上押的是这个判断。如果这条路走通了，灵初占住的就不只是一个产品的身位，而是下一代具身智能训练范式的入口。

这才是这笔融资真正值钱的地方。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.