本文来源:时代周报 作者:朱成呈 闫晓寒
![]()
100多支战队、300余台人形机器人、超人类世界纪录的成绩,刚结束的北京亦庄人形机器人半程马拉松再掀热度。
与进步明显的运动控制相比,数据之渴正成为影响人形机器人“大脑”进步的关键障碍。
生成式AI把“写作”“辅助办公”等能力推向高点之后,物理AI正尝试迈进更难的一步,走进真实世界。不过,与互联网语料天然可获取不同,物理世界的数据既稀缺,也难以标准化,这使得具身智能从一开始就面临“无米之炊”。
3月16日,英伟达推出物理AI数据工厂。该数据工厂的核心逻辑是:希望通过一套参考架构,统一并自动化训练数据的生成、增强和评估流程,从而降低大规模训练物理AI系统的成本、时间和复杂性。“物理AI是AI革命的下一个前沿,其成功的关键在于生成海量数据的能力。”英伟达高管直言。
相比之下,国内企业的切入点更贴近落地路径。
“一个机器人只要在真实的环境里面运行,它每时每刻都在感知、推理、决策、控制,这背后都是持续的token的流动。”4月17日,智元联合创始人彭志辉在一场演讲中表示。在他看来,未来的机器人既会是一个执行器,也会是一个流量的入口,机器劳动者也是连接AI的模型与物理世界的接口,谁能率先把这个闭环跑通,谁就有机会定义下一代的生产力的平台。
这一判断对应着智元机器人的另一种路径:将数据供给本身定义为新的生产力的基础设施。其旗下公司觅蜂科技4月16日发布的一站式物理AI数据服务平台,试图以平台化方式提供数据生成、处理与调用能力,使数据像水电一样成为可持续供给的资源。
从英伟达试图用仿真“制造数据”,到智元机器人尝试以平台化方式“运营数据”,中美头部企业正在不同路径上回应同一个问题:如何让数据供给跟上机器走入现实世界的速度。
物理AI数据供不应求
物理AI数据有多稀缺?有业内人士表示,物理AI数据量仅为大语言模型的十万分之一。这一数量级差距,并非简单的“积累时间不够”,而是由数据生成机制的根本差异所决定。
“人形机器人与大语言模型之间在数据训练上存在显著落差。”TrendForce集邦咨询分析师曾伯楷向时代周报记者表示,大语言模型可通过网络文本进行大规模搜集与清洗,训练语料动辄达到数兆token,且具备高度可扩展性。相较之下,人形机器人所需的是结合视觉、动作、强制反馈与时序决策的‘具身数据’,取得成本高、标注困难,且高度依赖实体运行与场景覆盖。”
供给约束迅速传导至需求端。多位从业者的直观感受是,数据市场正呈现出近似“现货抢购”的状态。
“实际接触下来,大型需求方普遍是‘你有多少我就要多少’,甚至是‘什么时候有我就马上要’。”觅蜂科技董事长兼CEO姚卯青在接受包括时代周报在内的媒体采访时表示,当前数据供给明显跟不上需求增长,市场处于典型的供不应求阶段。
在姚卯青看来,数据的属性正在发生变化。从辅助性资源,转变为类似算力的基础生产要素。“数据会像算力一样,成为一种通用的底层资源,同时也具备投资属性和回报周期。”
从需求结构看,当前主要买方集中在几类主体:一是处于技术前沿的大模型团队,二是布局具身智能的海内外科技公司,三是快速迭代中的初创企业。尽管规模与资金实力不同,但共性在于对数据的高度依赖与紧迫需求。
这种格局与早期AI算力市场较为相似。在模型尚未收敛、应用路径尚不清晰的阶段,产业链利润率最先体现在“基础设施”环节。算力如此,数据亦然。
姚卯青将其归纳为一种“先行逻辑”:在技术探索期,只有足够规模的数据,才能支撑模型训练、方案验证与场景试错,进而推动应用的出现与扩散。
仿真与现实的鸿沟
国金证券研报认为,破解人形机器人“大小脑”成熟度低的问题根源在于数据。
根据数据金字塔理论,底层数据量庞大的互联网数据获取门槛最低,数量最多,但质量良莠不齐,同时缺乏物理语义对齐;中层仿真合成数据和人类视角的VR轨迹数据由于可以高效生成,获取成本不高,但仿真与现实之间存在不可忽视的物理差距,质量一般介于真实数据与互联网数据之间;上层真机数据一般通过遥操作采集,物理精准、任务语义完整,在任务泛化和精度要求上具有无可替代的价值,但获取成本高、标注难、数量少。
英伟达的解法是仿真数据,结合NVIDIA Cosmos 世界基础模型与 Omniverse 仿真技术,在虚拟世界中生成海量符合真实物理规则的合成数据。
但即便如此,仿真数据的边界依然清晰。
“仿真对真实世界的替代性仍存在边界,尤其在涉及精细操作、接触力学与长时序交互时,现实环境中的噪声、不确定性与极端情境,仍难以被完整建模,最终仍需真实数据进行校准与验证。”曾伯楷指出,产业实务上并不将仿真视为“替代”,而是“前置放大器”与“加速器”。为避免低质量仿真数据导致模型学习偏误,关键在于建立系统性的风险控制机制,如通过少量高质量真实数据进行迁移与微调,以及建构死循环数据回收流程,将实际运行中的失败案例回馈至训练系统。
换言之,仿真可以“扩展边界”,但无法“替代落地”。
从数据供给侧来看,市场也在形成分层结构。姚卯青向时代周报记者表示,目前公司并未将仿真数据作为主要交易品类。
在具体供给结构上,企业正根据需求动态调整产能。以觅蜂平台为例,其数据来源覆盖真机遥操作、无本体采集以及仿真数据等多种范式,但当前重心明显向成本更低、效率更高的“无本体采集”倾斜。
姚卯青透露,在公司年度约千万小时的数据规划中,超过60%至70%将来自无本体采集,真机数据则维持在200万至300万小时规模,用于高精度任务训练。
这一结构本身,正是现实约束的映射:在规模与真实性之间,行业仍不得不反复权衡。
曾伯楷认为,随着世界模型与行动模型的发展,未来一个重要方向,是让模型具备“辨识仿真与现实差异”的能力,而非单纯依赖数据一致性。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.