4月16日,智元的人还没下班,京东的通稿已经发出,小米的机器人视频正在剪辑——三家公司在同一天,用三种姿势扑向同一个靶心:具身智能的数据基建。
这不是巧合,是发令枪响。数据,这个AI时代最老套的词,正在机器人领域掀起最残酷的战争。
![]()
一张图看懂:数据价值的真实金字塔
行业有个流传甚广的误会:数据越多越好,堆量就是正义。
真相很残酷。清华大学丁贵广团队的《具身智能数据采集与处理综述》给出了一组数字:超过90%的采集数据,在未经精细化处理前,根本没法直接喂给模型。重复动作、失败没标注、传感器噪声、没有物理反馈——这些"脏数据"占了绝大多数。
所以金字塔的底座很宽,但塔尖极窄:
最底层是原始采集数据,量大但价值低;中间层是清洗标注后的可用数据,已经筛掉九成;最顶层是高价值精炼数据——带有物理反馈的失败案例、多模态对齐的精准标注、能跨场景迁移的通用样本。
自动驾驶有天然优势:几百万辆车在路上跑,影子模式自动回传。机器人没有这种"数据印钞机"。采集靠人工、场景靠搭建、失败靠运气——成本动辄数十万每小时。
这就是为什么三家公司同一天动手。他们争的不是谁采得多,是谁能先建成"数据炼油厂",把原油变成高标号汽油。
三种打法,三种野心
智元选择做平台。发布数据服务平台,定义接口,制定规则,抽佣变现。听起来像淘宝?不,更像安卓——谁用我的格式,谁就进了我的生态。
帕西尼、光轮、巨身这些头部数据厂商的态度很关键。一位行业人士判断:「这不是合作,是夺权之战。」平台模式的核心不是短期赚钱,是网络效应和生态锁定。前期亏损换主导权,后期靠增值服务(清洗、标注、仿真测试)盈利。
京东的路子完全不同。物流场景就是它的矿场,仓储机器人每天产生的数据闭环自用。一位接近京东的人士透露,这些数据「大概率不会开放给智元或其他厂商」。场景壁垒即数据壁垒,诸侯割据,各建城墙。
小米的逻辑类似。工厂数据、供应链数据、生态链数据——这些才是雷军的底牌。宣发机器人进展是面子,守住数据入口是里子。
三家的战略分野清晰:智元想做行业标准制定者,京东小米想做场景数据垄断者。没有对错,只有赌大小。
合成数据:是帮手还是杀手?
群核科技在这个战场扮演了一个微妙角色。它的核心技术是AI物理合成数据——从真实数据中学习物理规律,再生成符合物理规则的新数据。不需要搭场景,不需要真机,失败案例想造多少造多少。
成本对比很刺激:真机采集数十万每小时,合成数据接近零边际成本。
但别急着下结论。目前合成数据仍无法完全替代顶层真机数据,精密装配、力控操作这些核心场景,物理反馈的精度还不够。短期是互补,长期是替代——这个"长期"有多远,取决于群核们的技术迭代速度。
一个有趣的博弈:如果合成数据真的足够好,谁还愿意花大价钱做真机采集?群核和智元们,表面是合作伙伴,底层是替代关系。
标准战争:数据格式的隐形皇冠
现在的行业标准,还停留在"测试标准"阶段——规定机器人怎么跑分,不规定数据怎么存、怎么传、怎么标。
真正的战争在暗处:谁的数据格式成为行业默认标准?
历史有参照。Google的Protocol Buffers、Facebook的Thrift——这些技术名词背后,是生态主导权的争夺。数据格式即权力,接口标准即护城河。
智元的平台野心,核心就在于此。但它面临一个尴尬现实:数据交易市场根本没起来。合规、确权、定价机制全部缺失,所谓的"平台抽佣"更多是纸面战略。目前的真实模式是"卖数据+卖服务",跟普通数据商没本质区别。
一位投资人算了笔账:2026年一季度具身智能领域融资超30起、约200亿元,百亿估值公司已达13家。但真实成交价远低于数万元/小时的纸面报价,「很多订单是公关性质的展示采购,真正买单的是投资机构,本质上是To LP。」
瑞银证券分析师也注意到,大量出货流向科研机构和数据采集中心,而非真实的工厂替代需求。
泡沫、安全与合规:三条未爆的引线
行业共识已经形成:一半以上的百亿估值公司最终会消失。下一个泡沫破裂点,属于那些只会堆数据量、没有数据引擎、没有场景壁垒的玩家。
Demo好看没用,能自动迭代失败案例才是壁垒。
物理安全是另一条引线。机器人采集时伤人、执行时毁物、被劫持后越狱执行危险动作——全球首个具身安全评测基准AGENTSAFE已经发布,但行业整体还在补课。
数据合规更棘手。机器人在家庭、工厂采集的数据,权属归谁?隐私怎么保护?跨境传输怎么管?制度框架仍在建设中,这意味着今天的数据积累,明天可能面临合规重估。
终局:两条路线,一场持久战
需要澄清的是,所谓"中国重场景、美国重通用"的分野,更多是战略侧重点和资源禀赋的差异,而非泾渭分明的路线。
特斯拉的Optimus同样高度依赖超级工厂的真实场景数据;中国的智源研究院等机构也在大力投入通用具身大模型。两条路线不会完全融合,但会相互渗透。
短期看,中国在场景落地和硬件供应链上占优;长期看,美国在底层模型、仿真引擎和生态标准上领先。这种分化也让泡沫、安全、合规风险呈现出不同的地域特征。
4月16日的三家动作,宣告了数据基建时代的开启。但这不是建设竞赛,是定义权战争。
谁的数据格式成为标准,谁掌控生态。谁先跑通"数据→模型→数据"的飞轮,谁就能让对手的追赶成本高到无法竞争。
未来几年,赢家不是做出最炫酷Demo的公司,而是最先建成数据精炼厂、最先跑通自动迭代闭环、最先抢占标准生态位的那一个。
具身智能不是算力战争,不是模型战争,是数据飞轮的战争。而数据飞轮,只有少数人能转起来——2026年一季度200亿融资、13家百亿估值公司的热闹背后,这个数字可能不超过三家。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.