具身智能的重复造轮子，终于有人开始认真解了|飞轮|本体|机器人|大模型

具身智能的重复造轮子问题有解了吗

2026-05-25 19:32:20　来源: 阑夕

北京举报

分享至

文丨阑夕

上个月「麻省理工科技评论」杂志发了一篇报道，大意是一家美国机器人数据公司雇佣了大批第三世界工人头戴摄像头进行作业，为AI提供训练数据。

我们当然可以把这个画面解读成时代的讽刺，但它背后更值得追问的，其实是另一件事：

语言模型的爆发已经是三年多前的事了，为什么机器人的训练数据，还要靠人戴着摄像头一帧一帧的录？

更加敏锐的人，可能早就发现事情的不对劲了，2026被普遍视为具身智能行业重要的商业化转折点，但就目前而言，除了跳舞、拳击、跑马拉松这些「猴戏」——姑且用这个词来形容好了——似乎并没有见到机器人商用爆发的迹象。

坦白说，这未必是某一家公司的选择出了问题，而是行业客观存在的结构化困境，让各家机器人训练仍然在重复造轮子，如果真要找出一个根本性的瓶颈，那答案除了数据，还是数据。

这就是我关注到灵御智能的契机，作为一家成立仅一年多、名声并不算大的创业公司，它提出的「真机数据自由」主张，却直接指向了整个行业待解的题。

灵御智能的创始人之一，是清华大学自动化系长聘副教授莫一林，也是较早意识到数据会限制具身智能发展上限的那批人，这直接促成了灵御智能要把训练数据做到标准化外购的念头。

这里我不得不旧事重提，说一下Anthropic年初那则AI行业的发展报告，无论是理论覆盖率还是实际利用率，你会发现越是脱离文书类的工作，AI施展拳脚的空间就会愈发受限。

众所周知，在预训练阶段，语言模型几乎已经吃完了人类古往今来的所有公开知识，就连Anthropic本身，近些年也因为大量购买实体书进行扫描而频频陷入版权风波，这意味着什么？

当然意味着要是不这么干，是真没有东西可以喂给AI了……

文本化的内容尚且如此，就不难想象对AI来说天然更复杂的物理世界，训练数据会稀缺到什么地步。

其实早在一年多以前，行业就意识到了物理AI进程缓慢的问题，语言模型的知识量在很多领域已经是专家级别，但对这个世界的常识认知，却仍然停留在孩童阶段。

为什么靠手掌很难捏碎一个鸡蛋、怎么把衬衫塞进行李箱才不会有褶皱、推一辆车到坡边时需要用多大的力才能准确停住……这些存在人类大脑中的经验无法进行文本化，更遑论被爬取，只能靠一遍遍执行的笨法子，逐渐建立起所谓世界模型的认知。

于是就有了开头报道的那一幕，很多想做自主机器人的公司，时至今日仍然在雇人演示、录视频、一条一条积攒训练素材，效率低下暂且不论，用人类的行为逻辑直接套用在机器身上，未必是AI真正想要的。

就像Markdown格式的文件一样，人类理解起来很费力，但作为模型训练的语料完全就是香饽饽，那些对于人类友好的排版和结构，在AI这里成了冗余的负担。

再通俗点说，让机器人跑一万米，并不能帮助它更好地理解这个世界，甚至会出现反作用，因为不断喂同质化的数据，不仅对泛化能力几乎没有贡献，还可能会压缩模型的上限。

所以当行业还在意图用数据数量换一个Scaling Law的结果时，灵御智能奔着高质量去的「真机数据」路线，才会显得尤为稀缺。

所谓真机数据，就是由机器人本体采集并加入训练的原生数据，这并不是由灵御智能率先提出来的概念，但从结果来看，它是极少数能把这条路走到底的玩家。

首先要知道，将现实中的作业流程以视频的方式喂给AI，本质上是一种视觉方案，它的局限性在于只能观察、无法感觉。

机器人在完成抓取动作时，同时产生的数据远不止于视觉画面——电机的转矩、末端的力反馈、关节的空间位置——这些信息共同构成了一次完整的物理操作，缺了任何一路，模型学到的都是一个残缺的世界。

就像人类在徒手拧瓶盖之所以不会把瓶子捏碎，是因为皮肤、肌腱、关节在同一时刻提供了几十路触觉和力觉信号，而视频能记录的，只有手的移动轨迹。

这就是真机数据的原生优势了，机器的感受，也只能在机器之间流通，灵御智能把数据的信息密度做到了行业之最，完整覆盖着视觉和力控这些维度，由此产生的高复用性，是远非同质化数据能比的。

能实现这一点，得益于先修路架桥的技术选择：灵御自研的TA机器人系列，已经在数据采集的质量和效率上走在了行业前列，去年11月举办的中关村具身智能机器人应用大赛上，TA机器人在相同场景里的耗时只有同类竞品的30%，但凡有点了解的人，应该都清楚这个数字的含金量。

为了解决多路传感器的时间差问题，TA机器人不仅在电机和摄像头之间实现了亚微秒级同步，从相机曝光到数据进入内存的整体延迟，最低也控制在40毫秒以内，可以降低多路传感器时序错位对训练数据的污染。

更不用提重复定位精度0.1毫米、绝对精度1毫米这些空间感了，前者保证同一台设备反复执行中的稳定性，后者保证不同机器人之间采集的数据可以互相对齐、互相复用，这两个数字对模型训练来说，差之毫厘，谬以千里。

莫一林自己也曾在采访中说到，「如果没有做好时间同步和空间标定，采集到的数据质量和普通第一视角视频没有本质差别。」

这很符合AI时代创业公司「做不好不如不做」的技术理念，如果自己的成果不足以对市场产生什么影响，那在百花齐放又残酷无比的环境里，大概率是很难跑出来的。

不过质量只是一方面，在行业单次数据任务普遍还处于3-5元的成本区间时，灵御智能已经把价格压到了0.6元。

这当然不是什么以价换量的价格战逻辑，而是灵御在硬件设计上做了一套系统性重构，比如减速器与传感器采用了低成本替换方案，又配合500Hz高频控制实现「减价不减质量」，把数据的经济账，从实验室推到了量产商用阶段。

事实上，对于AI产业的发展到底什么是刚需什么是伪需求，市场自会用实际行动投票，就像自打响语言模型爆发的第一枪开始，OpenAI发展撞上的局限性几乎都是来自产业侧而非模型本身。

OpenAI自然不会、也不可能自己养一堆人做数据标注，于是才催生了Scale AI这种扮演着传导角色的公司，灵御在做的事，用产业分工的视角看，同样会清晰很多。

AI行业发展至今，已经推翻了很多大大小小曾被视为共识的判断，这得益于AI公司们敢于质疑旧范式的精神。

灵御也不例外，在机器人小脑发育已经愈发完备的情况下，灵御仍然坚持大脑应该在云端而非本体的主张，多少也有些反直觉。

是的，真说起来，把高功率的芯片塞进机器人本体，追求端侧的绝对自主，听上去显然是个更性感的技术路线，但它背后，也有绕不开的物理约束。

那就是除了汽车这些大件支持堆积算力之外，泛用性更高的人形和四足机器人乃至机械臂，要如何突破电池容量的瓶颈？又如何提供足够的算力密度？

忽视现实而一味追求故事，到头来势必只能收获一个不尽如人意的结果。

所以围绕云端大脑，灵御构建了一套「部署-数据-训练-进化」的闭环，同一套TA机器人本体，根据不同场景调用云端不同的专家模型，面对运输、拣选、装配、服务等不同任务，按需调用对应能力。

这就是「一身多脑」的字面意思，机器人自主运行时，一旦置信度跌破阈值，云端操作员无缝接管，接管全过程数据自动回流，用于训练下一版模型，下次遇到类似场景，自主能力就往前走了一步。

一旦自主运行中的置信度跌破阈值，云端操作员可以接管，接管过程中的视觉、力控、关节状态等数据同步回流，成为下一轮模型训练的高质量样本。由此形成的飞轮是：部署越多，真实任务数据越多；数据越多，模型越强；模型越强，人工接管成本越低。

在今年4月灵御与英特尔的合作中，双方在西子智慧产业园完成了云模型操控机器人执行实际任务的能力展示，跑通了从数据采集到模型训练再到机器人执行的完整链路。

事实证明，产业是真的需要像灵御这样的公司，去探索新技术范式来打破具身智能长久以来无法突破的瓶颈。

要知道，让LLM腾飞的地基——海量、标准化、可复用的训练数据——在物理世界里还没有人认真建过，灵御在做的事，是填补行业一直以来无法忽视的缺口。

至于最后的结果能不能成，取决于基础设施层能不能在行业真正爆发之前跑通规模化。

可以预见的是，这个时间窗口，不会等太久。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

具身智能的重复造轮子，终于有人开始认真解了

具身智能的重复造轮子问题有解了吗

利润跌27%：快手只剩“可灵”这张牌？

男子疑遭家暴跳楼身亡 母亲：儿媳说"你不配活在世上"

男子疑遭家暴跳楼身亡 母亲：儿媳说"你不配活在世上"

唐斯经历的一切，此刻的他与尼克斯

林俊杰七七与大哥嫂子的瓜剪不断理还乱

小米仍需一次创业

从智驾兜底到自研4nm芯片，再到迪迪虾，比亚迪智能化战略凭什么封神？

态度原创

中考数学：很多同学表示无解题，思维太局限

2026陕西省青年美术作品展 入选油画

《女神异闻录6》泄露主角太丑？金毛男主太路人！

男子疑遭家暴跳楼身亡母亲：儿媳说"你不配活在世上"

男子疑遭家暴跳楼身亡母亲：儿媳说"你不配活在世上"

2026陕西省青年美术作品展入选油画