![]()
4月12日,灵初智能官宣完成新一轮融资,投资方是国投先导和京西瑞瓴,一个是硬科技赛道的头部国资机构,一个是北京国资联合高瓴背景发起的AI产业基金。两天前,灵初刚发布了新一代模型Psi-R2和世界模型Psi-W0,其中Psi-R2在国际权威基准MolmoSpaces上拿下全球第一,超过了PI和英伟达GEAR。同时开源1000小时人类操作数据集。
融资、发模型、屠榜、开源,四件事挤在一周里,节奏很密。但如果只盯着这些动作本身,容易看岔。
这件事真正值得聊的,不是灵初拿了多少钱,而是资本在押注什么。
答案是一条数据路线。
具身智能眼下最大的瓶颈,不是算法不够好,是数据不够用。这一点行业里几乎已经有共识了。机器人想学会干活,不能像大语言模型那样从互联网上白捞文本,也不像自动驾驶有多年路测数据可以吃。它的训练素材只能从现实世界里一口一口喂。
过去几年,主流方案是真机遥操作——人盯着屏幕远程控制机械臂,一条一条录轨迹。这条路在早期确实管用,但规模一上来就撑不住了。采集一小时数据动辄花几百块,还得搭专业动捕环境,人盯着屏幕操控的节奏也很难跟上真实生产节拍。模型越大、任务越复杂,这种供给方式就越像用水杯往游泳池里灌水。
灵初智能选了另一条路:不让人远程控制机器人,而是让人直接干活,再把人的操作数据”翻译”给机器人用。
逻辑很朴素。人类本来就每天在工厂、仓库、流水线上完成海量精细操作,这些数据天然存在,成本极低,而且自带真实作业的节拍和动作细节。据灵初披露,他们积累的人类操作数据总规模已经接近10万小时,覆盖294种场景、4821种任务。这个量级,靠遥操作恐怕再干几年也攒不出来。
但人类数据有一个绕不过去的硬伤:人手和机械手长得不一样。人抓一个苹果的动作,直接映射到机械臂上,很可能就差那么一丁点就抓不起来。对手机装配、精密插接这类任务,毫米级的误差就能让整个动作失效。
灵初的解法是搭了一套双模型框架。策略模型Psi-R2负责从人类数据里学”任务该怎么做”,世界模型Psi-W0负责推演”换种做法会怎样”。人类的操作轨迹先经过Psi-R2学习,再交给Psi-W0在机器人的视觉和动力学条件下做模拟验证,不行就用强化学习继续调,直到这条轨迹变成机器人真能执行的动作。相当于在模型里多了一层”梦里试错”的空间,好的轨迹回流训练,坏的轨迹帮助识别失败边界,数据飞轮就这么转起来了。
从结果看,这条路暂时跑通了。Psi-R2预训练完成后,只需要不到100条真机轨迹微调,就能完成手机装配、工业包装、纸盒折叠这些长时序高精度任务。MolmoSpaces榜单上的全球第一,也算是一个外部验证。
当然,这条路远谈不上没有风险。纯靠第一视角视频恢复的人手轨迹,精度只到毫米级,灵初自己也承认得靠自研外骨骼手套才能压到亚毫米级。跨本体迁移的损耗到底有多大,在更多任务类型上能不能持续扛住,都还需要更大规模的验证。
但我觉得这件事的意义,不在于灵初现在做到了什么程度,而在于它指出了一个方向:当遥操作数据这条路明显到顶的时候,人类数据有可能成为具身智能下一阶段的主燃料。
国投先导和京西瑞瓴这笔钱投进去,表面上投的是一家公司,实际上押的是这个判断。如果这条路走通了,灵初占住的就不只是一个产品的身位,而是下一代具身智能训练范式的入口。
这才是这笔融资真正值钱的地方。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.