![]()
2026年5月1日,国际劳动节。特斯拉宣布Optimus Gen-3在加州弗里蒙特工厂启动量产,为了给这条新产线腾地方,砍掉了Model S和Model X的生产线——两款奠基旗舰,就此退场。
四个月前,黄仁勋在CES上宣告“物理AI的ChatGPT时刻即将到来”。他将AI演进划分为四个阶段:感知AI、生成式AI、代理AI、物理AI。再聪明的ChatGPT也无法直接进入物理世界,物理AI需要理解重力、摩擦、惯性和因果关系,问答之外,需要他们能在真实世界中搬动物体。
如果说AI 1.0的关键词是“对话”,那么2.0的关键词是“动手”。
但“动手”的前提是“学会”。而数据端上,某种程度来说机器人正在挨饿。
会跑会跳,不会叠衣服
2025年除夕,16台宇树H1机器人穿大花棉袄登上央视春晚扭秧歌,130多个舞蹈动作全由AI强化学习训练完成。14亿人第一次在最大众的场景里看到人形机器人“表演”。一年之后,我们在春晚舞台上看到了机器人做出更高难度的舞蹈动作,在机器人马拉松上,机器人们也再次刷新纪录。
这恰好暴露了行业最尴尬的现实:机器人“小脑发达、大脑不足”,擅长跑跳翻滚等运动控制,却无法完成叠衣服、擦桌子、给老人喂药这些真正实用的任务。产业停留在“炫技”阶段,原因不是算法不够好,而是数据不够多。
训练一个通用具身大模型需要数千万小时以上高质量真实数据,全球行业存量仅数十万小时,缺口超过95%。研发端月均需求约120万小时,全行业月产出仅25至30万小时——月供给不足需求的四分之一,模型训练长期“断粮”。真机采集1小时仅产20条有效轨迹,数据格式不统一,跨机器人本体复用率低,精度、规模、成本三者难以兼得。
LLM时代,互联网上几乎无穷的文本语料喂饱了大语言模型。但具身智能需要的不是文字,而是人类在物理世界中搬、拿、捏、擦、叠、扶的真实动作轨迹。这种数据不在互联网上,必须一帧一帧从真实场景中采出来。2026年被行业共识定义为“具身智能数据元年”——不是因为技术有了跃迁,而是所有人终于承认:没有数据,一切免谈。
![]()
2025年被称为人形机器人工厂工人元年,但“炫技”到实用仍有鸿沟
最大的铲子,不在硅谷
历史上每一轮淘金热都证明了同一件事:最先赚到钱的往往不是挖金子的人,而是卖铲子的人。AI 1.0时代,英伟达卖的是算力铲子。AI 2.0时代,瓶颈从算力迁移到了数据——谁能大规模、低成本、高精度地采集和处理物理世界的操作数据,谁就握住了新铲子的手柄。
2026年4月,京东发布了一套覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,试图从源头破解这道难题。
采集端,京东自研的JoyEgoCam头戴设备仅重220克,双目4K/60fps,重投影误差小于0.2像素,内置车规级IMU,让数据从源头就具备毫米级精度。但硬件只是起点,真正的壁垒在规模——京东计划发动最多60万人参与采集:内部10万员工覆盖仓储、物流、家政、零售等自有场景,外部50万行业人员延伸至保洁、康养、农务、服装加工等场景,仅宿迁一地就有超过10万市民参与。这可能是人类历史上规模最大的物理世界数据采集行动。
产能目标同样激进:两年内积累1000万小时人类真实场景视频数据加100万小时机器人本体数据。
采集只是第一步。京东在数据处理端同样下了重注:JoyBuilder训练平台通过软硬件深度调优,将1亿条以上数据的千卡训练时间从15小时压缩到22分钟,提速40倍,整体效率较开源社区版本提升3.5倍。以自采数据为核心训练的具身大模型JoyAI-RA,真机实验成功率达到73.5%,超过业内多个前沿模型——模型反哺数据标注与采集策略,形成“越用越强”的飞轮。
京东还同步上线了数据交易平台,首批定向开放2000小时高精标注数据集,几十家头部企业和高校在对接。这一步的意义不只是商业化,更在于建立数据流通标准——当前行业数据格式不统一、接口不兼容,数据孤岛是制约整个生态的隐性成本。
为什么是京东?3600多座仓库、全国物流网络、20万合作药房、1万多线下门店、5万多自运营保洁师——这些不是为具身智能准备的资产,但恰好构成了最丰富的物理世界操作场景库。在社区居家场景,采集员在日常家务中完成擦桌叠衣、整理收纳;在养老康养场景,记录协助老人起身、移乘、喂药的照护动作;在农务场景,覆盖果蔬采摘的手眼协调轨迹和田间不规则地形的行走避障。这些数据指向的不是实验室里的理想化操作,而是真实世界里充满意外、噪声和变化的人类行为。
EgoScale的研究已经证明:海量人类第一视角视频是训练机器人灵巧操作的“富矿”,并且存在可预测的缩放定律——看的视频越多,机器人就越聪明。京东的基建逻辑正是建立在这条定律之上。
![]()
2025年全球人形机器人出货量前六名全部来自中国,量产规模领先
棋盘上的位置
把视野拉回整个产业。2025年全球人形机器人出货量前六名全部来自中国,智元以5168台登顶,宇树4200台紧随其后。宇树净利率35%,科创板IPO已获上交所受理;智元的人形机器人已在比亚迪、蔚来完成百台级部署,用工成本低于人工。Optimus Gen-3核心零部件70%来自中国供应商。
政策层面,“具身智能”已写入政府工作报告,北京设立1000亿元政府投资基金,上海目标2027年核心产业规模突破500亿元。李想在5月的播客中判断:自动驾驶是具身智能上半场,人形机器人是下半场,两个赛道各具五万亿美金规模。
在LLM赛道上,中国始终处于追赶位置——算力受限于芯片封锁,基础模型能力受限于与OpenAI和Anthropic的差距。但当竞赛从“大脑”转向“身体”时,棋盘上的位置发生了变化。140多家人形机器人企业、6家百亿估值独角兽、全球领先的出货量——如果下一轮AI造富的重心从软件迁移到硬件,从算法迁移到机电一体化,中国的产业禀赋恰好处于新价值链的中央。
而在这条价值链上,一个更隐蔽的判断正在成形:造机器人身体的企业已经浮出水面,但喂饱机器人大脑的数据基建,可能才是更深层的瓶颈资产。硬件铲子已经被定价,数据铲子才刚刚被看见。
当然,“恰好”这个词本身就值得警惕。1999年的互联网泡沫中,Pets.com和Amazon的股票同时暴涨,前者归零,后者成为万亿美元公司。A股市场上,年营收2.87万元的公司因脑机概念股价翻倍,不涉及脑机接口研发的企业连续涨停——泡沫与信号同时存在,关键在于分辨谁卖的是真铲子,铲子真能用。
当机器人开始替代劳动者时,造那具机器身体的人、编写那颗机器大脑的人,以及喂饱那颗大脑的人——谁手里握着真铲子?这或许是未来五年最值得追踪的问题。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.