具身智能的"数据饥渴"：三条采集路线竞合，商业化拐点何时到来？|轨迹|机器人|大模型|自动驾驶

具身智能的"数据饥渴"：三条采集路线竞合，商业化拐点何时到来？

2026-05-15 01:40:17　来源: 亿欧

北京举报

分享至

VLA模型验证了一条路：用多模态大模型直接驱动物理动作。行业开始期待具身智能的"ChatGPT时刻"。但一个现实挡在面前——数据不够。不是不够，是差得远。

行业里有个共识，想实现具身智能的涌现，至少需要百万小时的真实物理交互数据。目前积累的，还不到5%。这场关于数据的仗，可能比模型架构的争论更能决定行业的走向。

数据的"三重门"

数据从哪来？三条路，各有各的难处。

第一条路：遥操作数据——黄金标准，但贵。

让人远程操控机器人执行任务，全程记录物理状态变化。这是目前精度最高的方式，行业公认的黄金标准。

Mobile ALOHA让所有人看到了可能性——只需50次演示，机器人就能学会炒菜叠衣。代价是操作员必须跟着机器人走，一台机器一个人，效率天花板肉眼可见。

头部玩家已经开始砸钱。智元机器人在上海张江搞了个4000㎡的数据采集工厂，每天100多台机器人同步训练，单机单日可产上万条轨迹。帕西尼感知更猛，天津的12000㎡超级数据工厂，150个标准化采集单元，每天最多55万条，预计年产近2亿条。

听起来不少。放到"百万小时"需求面前，杯水车薪。

而且遥操作有个死结——数据和机器人本体强绑定。换个机器人型号，之前的数据可能就废了。

第二条路：动作捕捉数据。

说白了，把人当数据源。不用机器人，直接用动捕设备记录人的操作，再把数据"翻译"给机器人。

诺亦腾做动捕做了十几年，从影视跨界到机器人。PN系列动捕产品在具身智能圈子里已经有了不少用户。2025年他们在深圳龙华建了机器人跨本体数据工厂，核心思路是让数据和本体解耦——数据穿在操作员身上，跟特定机器人硬件无关。

斯坦福李飞飞团队的DexCap是另一个标杆。一套可穿戴系统，包含相机背心、SLAM相机和RGB-D LiDAR，能在真实环境里采集3D手部运动数据，成本比传统遥操作低一大截。

卢策吾团队的AirExo-2去年放了个大招：算法自动把不精确的人类动作转化成"伪机器人演示"，完全摆脱对真机遥操作数据的依赖。第一次实现了"仅凭穿戴设备采集的人类演示就能训练高性能策略"。

这个方向很诱人。它有可能打破数据和本体绑定的死结。

第三条路：合成数据与人类视频数据。

互联网上有海量的操作视频。如果机器人能从这些视频里学会技能，数据问题就解决了大半。

字节跳动的GR-2在预训练阶段看了3800万个互联网视频片段，微调用数万条机器人轨迹数据，在超过100个任务里平均成功率97.7%。

NVIDIA的MimicGen和DexMimicGen在轨迹合成上走出了关键一步：5次人类演示，自动生成1000个灵巧任务演示。这条路如果走通了，数据规模就有了出口。

但合成数据面临一个棘手问题——Sim2Real Gap。仿真环境再逼真，和现实总有差距。具身智能的每个任务场景，物理细节差异都可能导致策略失效。这个问题比自动驾驶里的仿真差距更顽固。

自动驾驶教会我们什么？

具身智能不是第一个被数据卡脖子的行业。自动驾驶走过了一条相似的路。

高精地图一度被认为是自动驾驶的"标准答案"。提前把环境测绘好，车辆只需要在地图上定位。听起来聪明，做起来却发现：制作成本高、维护难、到未测绘区域就抓瞎。

结果行业不得不转向"影子模式"——量产车在日常行驶中持续回传数据，形成模型训练和反馈的闭环。

对具身智能来说，教训很直接。但问题的关键在于，自动驾驶可以"边卖车边采数据"，卖的车越多，数据节点就越多。具身智能呢？机器人还没大规模进入真实场景，就没法产出数据训练智能；没有足够智能的机器人，就没法进入真实场景。先有鸡还是先有蛋。

再加上仿真技术的局限。自动驾驶面对的"道路"是有限语义空间，但具身智能面对的"家"和"工厂"是无限任务空间。靠手工建模和场景编排，填不满数据需求的无底洞。

商业化：数据驱动的三阶段

回到商业本质。数据问题不解决，商业化无从谈起。

报告把商业化分成了三个阶段：

阶段一：少量数据搞定原型验证。

用几十到几百条高质量演示数据，在有限场景里跑通一个具体任务。这个阶段考验的不是数据规模，而是团队的工程能力和场景眼光——选什么场景？怎么定义任务？怎么用最少的资源跑通闭环？

大多数企业还处在这个阶段。很多公司的商业化说白了还是"政府项目加科研设备采购加展演活动"，真正生产级的商业化落地极少。

阶段二：聚焦垂直场景，大量数据驱动迭代。

参考自动驾驶的经验，不同场景底层技术差异不大，关键是数据量和训练量。一个具体场景能干什么不能干什么，边界清楚了，ROI才可计算。

但问题跟着来了：遥操作数据采集投入大，直接商业回报不明确，单靠企业撑不住。于是各地政府开始下场——北京石景山的人形机器人训练场、上海的"麒麟"训练场、天津的帕西尼数据工厂……据不完全统计，国内已建成或计划在建的训练场超过20家，公开披露的10家总面积超过4万平方米。

可这些训练场面临数据孤岛问题。一个训练场的数据换到另一个机器人上用不了，标准化缺失让公共基础设施的价值打了折扣。

阶段三：海量数据实现高阶功能闭环。

这是个更远的未来。数据量级上来、标准体系建立后，可能出现"智能即服务"的商业模式——硬件标准化，利润变薄，但市场急剧扩大。用户像在应用商店买软件一样订阅机器人技能。一个庞大的开发者群体会应运而生。

报告描绘了这样一个场景：云端有智能孵化与调度中心，用全球机器人反馈的数据在数字孪生环境里持续训练；边缘侧负责实时协同和隐私计算；机器人本体变成通用移动计算平台，按需加载技能包。

听起来有点科幻。但逻辑链条是成立的。

报告最后的判断很冷静：这不是ChatGPT时刻式的突变，是一场以五年、十年、二十年为尺度的渐进演进。最终胜出的，可能不仅是技术领先者，更是那些能理解产业节奏、找准自身生态位、在复杂风险里构建持续迭代能力的企业。

本文基于亿欧智库6月即将发布的《2026年中国具身智能数据采集与数据产业发展展望》报告核心内容撰写，完整版涵盖六大章节、3+代表企业分析、关键数据集对比，及完整的机会风险评估框架。更多核心内容可关注亿欧智库官网。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

具身智能的"数据饥渴"：三条采集路线竞合，商业化拐点何时到来？

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

马斯克幼子装扮“火”了 衣服包包都是中国造

马斯克幼子装扮“火”了 衣服包包都是中国造

争议抽象天王山，和季后赛最稳定中锋

何九华官宣当爸！全程不提孩子妈

李强会见美国工商界代表

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

海南楼市新政要出！拟调公积金贷款额度，最高可贷168万！

与“AMD+AMG”赛道相见，英特尔、迈凯伦F1车队达成战略合作

老师的绩效也随工资发了，领导好像不太能拿捏老师们了！

孤独症特教老师的工作，远不止“教说话”!（下）

马斯克说会谈很顺利黄仁勋点赞库克比耶

马斯克幼子装扮“火”了衣服包包都是中国造

马斯克幼子装扮“火”了衣服包包都是中国造

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布