![]()
VLA模型验证了一条路:用多模态大模型直接驱动物理动作。行业开始期待具身智能的"ChatGPT时刻"。但一个现实挡在面前——数据不够。不是不够,是差得远。
行业里有个共识,想实现具身智能的涌现,至少需要百万小时的真实物理交互数据。目前积累的,还不到5%。这场关于数据的仗,可能比模型架构的争论更能决定行业的走向。
数据的"三重门"
数据从哪来?三条路,各有各的难处。
第一条路:遥操作数据——黄金标准,但贵。
让人远程操控机器人执行任务,全程记录物理状态变化。这是目前精度最高的方式,行业公认的黄金标准。
Mobile ALOHA让所有人看到了可能性——只需50次演示,机器人就能学会炒菜叠衣。代价是操作员必须跟着机器人走,一台机器一个人,效率天花板肉眼可见。
头部玩家已经开始砸钱。智元机器人在上海张江搞了个4000㎡的数据采集工厂,每天100多台机器人同步训练,单机单日可产上万条轨迹。帕西尼感知更猛,天津的12000㎡超级数据工厂,150个标准化采集单元,每天最多55万条,预计年产近2亿条。
听起来不少。放到"百万小时"需求面前,杯水车薪。
而且遥操作有个死结——数据和机器人本体强绑定。换个机器人型号,之前的数据可能就废了。
第二条路:动作捕捉数据。
说白了,把人当数据源。不用机器人,直接用动捕设备记录人的操作,再把数据"翻译"给机器人。
诺亦腾做动捕做了十几年,从影视跨界到机器人。PN系列动捕产品在具身智能圈子里已经有了不少用户。2025年他们在深圳龙华建了机器人跨本体数据工厂,核心思路是让数据和本体解耦——数据穿在操作员身上,跟特定机器人硬件无关。
斯坦福李飞飞团队的DexCap是另一个标杆。一套可穿戴系统,包含相机背心、SLAM相机和RGB-D LiDAR,能在真实环境里采集3D手部运动数据,成本比传统遥操作低一大截。
卢策吾团队的AirExo-2去年放了个大招:算法自动把不精确的人类动作转化成"伪机器人演示",完全摆脱对真机遥操作数据的依赖。第一次实现了"仅凭穿戴设备采集的人类演示就能训练高性能策略"。
这个方向很诱人。它有可能打破数据和本体绑定的死结。
第三条路:合成数据与人类视频数据。
![]()
互联网上有海量的操作视频。如果机器人能从这些视频里学会技能,数据问题就解决了大半。
字节跳动的GR-2在预训练阶段看了3800万个互联网视频片段,微调用数万条机器人轨迹数据,在超过100个任务里平均成功率97.7%。
NVIDIA的MimicGen和DexMimicGen在轨迹合成上走出了关键一步:5次人类演示,自动生成1000个灵巧任务演示。这条路如果走通了,数据规模就有了出口。
但合成数据面临一个棘手问题——Sim2Real Gap。仿真环境再逼真,和现实总有差距。具身智能的每个任务场景,物理细节差异都可能导致策略失效。这个问题比自动驾驶里的仿真差距更顽固。
自动驾驶教会我们什么?
具身智能不是第一个被数据卡脖子的行业。自动驾驶走过了一条相似的路。
高精地图一度被认为是自动驾驶的"标准答案"。提前把环境测绘好,车辆只需要在地图上定位。听起来聪明,做起来却发现:制作成本高、维护难、到未测绘区域就抓瞎。
结果行业不得不转向"影子模式"——量产车在日常行驶中持续回传数据,形成模型训练和反馈的闭环。
对具身智能来说,教训很直接。但问题的关键在于,自动驾驶可以"边卖车边采数据",卖的车越多,数据节点就越多。具身智能呢?机器人还没大规模进入真实场景,就没法产出数据训练智能;没有足够智能的机器人,就没法进入真实场景。先有鸡还是先有蛋。
再加上仿真技术的局限。自动驾驶面对的"道路"是有限语义空间,但具身智能面对的"家"和"工厂"是无限任务空间。靠手工建模和场景编排,填不满数据需求的无底洞。
商业化:数据驱动的三阶段
回到商业本质。数据问题不解决,商业化无从谈起。
报告把商业化分成了三个阶段:
阶段一:少量数据搞定原型验证。
用几十到几百条高质量演示数据,在有限场景里跑通一个具体任务。这个阶段考验的不是数据规模,而是团队的工程能力和场景眼光——选什么场景?怎么定义任务?怎么用最少的资源跑通闭环?
大多数企业还处在这个阶段。很多公司的商业化说白了还是"政府项目加科研设备采购加展演活动",真正生产级的商业化落地极少。
阶段二:聚焦垂直场景,大量数据驱动迭代。
参考自动驾驶的经验,不同场景底层技术差异不大,关键是数据量和训练量。一个具体场景能干什么不能干什么,边界清楚了,ROI才可计算。
但问题跟着来了:遥操作数据采集投入大,直接商业回报不明确,单靠企业撑不住。于是各地政府开始下场——北京石景山的人形机器人训练场、上海的"麒麟"训练场、天津的帕西尼数据工厂……据不完全统计,国内已建成或计划在建的训练场超过20家,公开披露的10家总面积超过4万平方米。
可这些训练场面临数据孤岛问题。一个训练场的数据换到另一个机器人上用不了,标准化缺失让公共基础设施的价值打了折扣。
阶段三:海量数据实现高阶功能闭环。
这是个更远的未来。数据量级上来、标准体系建立后,可能出现"智能即服务"的商业模式——硬件标准化,利润变薄,但市场急剧扩大。用户像在应用商店买软件一样订阅机器人技能。一个庞大的开发者群体会应运而生。
报告描绘了这样一个场景:云端有智能孵化与调度中心,用全球机器人反馈的数据在数字孪生环境里持续训练;边缘侧负责实时协同和隐私计算;机器人本体变成通用移动计算平台,按需加载技能包。
听起来有点科幻。但逻辑链条是成立的。
报告最后的判断很冷静:这不是ChatGPT时刻式的突变,是一场以五年、十年、二十年为尺度的渐进演进。最终胜出的,可能不仅是技术领先者,更是那些能理解产业节奏、找准自身生态位、在复杂风险里构建持续迭代能力的企业。
本文基于亿欧智库6月即将发布的《2026年中国具身智能数据采集与数据产业发展展望》报告核心内容撰写,完整版涵盖六大章节、3+代表企业分析、关键数据集对比,及完整的机会风险评估框架。更多核心内容可关注亿欧智库官网。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.