摸底人形机器人“数据荒”：业内人称呈抢购状态，大型需求方“有多少要多少”|真实场景

摸底人形机器人“数据荒”：业内人称呈抢购状态，大型需求方“有多少要多少”

2026-04-20 13:20:11　来源: 时代周报

广东举报

分享至

本文来源：时代周报作者：朱成呈闫晓寒

100多支战队、300余台人形机器人、超人类世界纪录的成绩，刚结束的北京亦庄人形机器人半程马拉松再掀热度。

与进步明显的运动控制相比，数据之渴正成为影响人形机器人“大脑”进步的关键障碍。

生成式AI把“写作”“辅助办公”等能力推向高点之后，物理AI正尝试迈进更难的一步，走进真实世界。不过，与互联网语料天然可获取不同，物理世界的数据既稀缺，也难以标准化，这使得具身智能从一开始就面临“无米之炊”。

3月16日，英伟达推出物理AI数据工厂。该数据工厂的核心逻辑是：希望通过一套参考架构，统一并自动化训练数据的生成、增强和评估流程，从而降低大规模训练物理AI系统的成本、时间和复杂性。“物理AI是AI革命的下一个前沿，其成功的关键在于生成海量数据的能力。”英伟达高管直言。

相比之下，国内企业的切入点更贴近落地路径。

“一个机器人只要在真实的环境里面运行，它每时每刻都在感知、推理、决策、控制，这背后都是持续的token的流动。”4月17日，智元联合创始人彭志辉在一场演讲中表示。在他看来，未来的机器人既会是一个执行器，也会是一个流量的入口，机器劳动者也是连接AI的模型与物理世界的接口，谁能率先把这个闭环跑通，谁就有机会定义下一代的生产力的平台。

这一判断对应着智元机器人的另一种路径：将数据供给本身定义为新的生产力的基础设施。其旗下公司觅蜂科技4月16日发布的一站式物理AI数据服务平台，试图以平台化方式提供数据生成、处理与调用能力，使数据像水电一样成为可持续供给的资源。

从英伟达试图用仿真“制造数据”，到智元机器人尝试以平台化方式“运营数据”，中美头部企业正在不同路径上回应同一个问题：如何让数据供给跟上机器走入现实世界的速度。

物理AI数据供不应求

物理AI数据有多稀缺？有业内人士表示，物理AI数据量仅为大语言模型的十万分之一。这一数量级差距，并非简单的“积累时间不够”，而是由数据生成机制的根本差异所决定。

“人形机器人与大语言模型之间在数据训练上存在显著落差。”TrendForce集邦咨询分析师曾伯楷向时代周报记者表示，大语言模型可通过网络文本进行大规模搜集与清洗，训练语料动辄达到数兆token，且具备高度可扩展性。相较之下，人形机器人所需的是结合视觉、动作、强制反馈与时序决策的‘具身数据’，取得成本高、标注困难，且高度依赖实体运行与场景覆盖。”

供给约束迅速传导至需求端。多位从业者的直观感受是，数据市场正呈现出近似“现货抢购”的状态。

“实际接触下来，大型需求方普遍是‘你有多少我就要多少’，甚至是‘什么时候有我就马上要’。”觅蜂科技董事长兼CEO姚卯青在接受包括时代周报在内的媒体采访时表示，当前数据供给明显跟不上需求增长，市场处于典型的供不应求阶段。

在姚卯青看来，数据的属性正在发生变化。从辅助性资源，转变为类似算力的基础生产要素。“数据会像算力一样，成为一种通用的底层资源，同时也具备投资属性和回报周期。”

从需求结构看，当前主要买方集中在几类主体：一是处于技术前沿的大模型团队，二是布局具身智能的海内外科技公司，三是快速迭代中的初创企业。尽管规模与资金实力不同，但共性在于对数据的高度依赖与紧迫需求。

这种格局与早期AI算力市场较为相似。在模型尚未收敛、应用路径尚不清晰的阶段，产业链利润率最先体现在“基础设施”环节。算力如此，数据亦然。

姚卯青将其归纳为一种“先行逻辑”：在技术探索期，只有足够规模的数据，才能支撑模型训练、方案验证与场景试错，进而推动应用的出现与扩散。

仿真与现实的鸿沟

国金证券研报认为，破解人形机器人“大小脑”成熟度低的问题根源在于数据。

根据数据金字塔理论，底层数据量庞大的互联网数据获取门槛最低，数量最多，但质量良莠不齐，同时缺乏物理语义对齐；中层仿真合成数据和人类视角的VR轨迹数据由于可以高效生成，获取成本不高，但仿真与现实之间存在不可忽视的物理差距，质量一般介于真实数据与互联网数据之间；上层真机数据一般通过遥操作采集，物理精准、任务语义完整，在任务泛化和精度要求上具有无可替代的价值，但获取成本高、标注难、数量少。

英伟达的解法是仿真数据，结合NVIDIA Cosmos 世界基础模型与 Omniverse 仿真技术，在虚拟世界中生成海量符合真实物理规则的合成数据。

但即便如此，仿真数据的边界依然清晰。

“仿真对真实世界的替代性仍存在边界，尤其在涉及精细操作、接触力学与长时序交互时，现实环境中的噪声、不确定性与极端情境，仍难以被完整建模，最终仍需真实数据进行校准与验证。”曾伯楷指出，产业实务上并不将仿真视为“替代”，而是“前置放大器”与“加速器”。为避免低质量仿真数据导致模型学习偏误，关键在于建立系统性的风险控制机制，如通过少量高质量真实数据进行迁移与微调，以及建构死循环数据回收流程，将实际运行中的失败案例回馈至训练系统。

换言之，仿真可以“扩展边界”，但无法“替代落地”。

从数据供给侧来看，市场也在形成分层结构。姚卯青向时代周报记者表示，目前公司并未将仿真数据作为主要交易品类。

在具体供给结构上，企业正根据需求动态调整产能。以觅蜂平台为例，其数据来源覆盖真机遥操作、无本体采集以及仿真数据等多种范式，但当前重心明显向成本更低、效率更高的“无本体采集”倾斜。

姚卯青透露，在公司年度约千万小时的数据规划中，超过60%至70%将来自无本体采集，真机数据则维持在200万至300万小时规模，用于高精度任务训练。

这一结构本身，正是现实约束的映射：在规模与真实性之间，行业仍不得不反复权衡。

曾伯楷认为，随着世界模型与行动模型的发展，未来一个重要方向，是让模型具备“辨识仿真与现实差异”的能力，而非单纯依赖数据一致性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.