AI 2.0时代，谁在制造“真铲子”|人形|机器人|真实世界

AI 2.0时代，谁在制造“真铲子”

2026-05-26 16:42:17　来源: 光锥观察

山东举报

分享至

2026年5月1日，国际劳动节。特斯拉宣布Optimus Gen-3在加州弗里蒙特工厂启动量产，为了给这条新产线腾地方，砍掉了Model S和Model X的生产线——两款奠基旗舰，就此退场。

四个月前，黄仁勋在CES上宣告“物理AI的ChatGPT时刻即将到来”。他将AI演进划分为四个阶段：感知AI、生成式AI、代理AI、物理AI。再聪明的ChatGPT也无法直接进入物理世界，物理AI需要理解重力、摩擦、惯性和因果关系，问答之外，需要他们能在真实世界中搬动物体。

如果说AI 1.0的关键词是“对话”，那么2.0的关键词是“动手”。

但“动手”的前提是“学会”。而数据端上，某种程度来说机器人正在挨饿。

会跑会跳，不会叠衣服

2025年除夕，16台宇树H1机器人穿大花棉袄登上央视春晚扭秧歌，130多个舞蹈动作全由AI强化学习训练完成。14亿人第一次在最大众的场景里看到人形机器人“表演”。一年之后，我们在春晚舞台上看到了机器人做出更高难度的舞蹈动作，在机器人马拉松上，机器人们也再次刷新纪录。

这恰好暴露了行业最尴尬的现实：机器人“小脑发达、大脑不足”，擅长跑跳翻滚等运动控制，却无法完成叠衣服、擦桌子、给老人喂药这些真正实用的任务。产业停留在“炫技”阶段，原因不是算法不够好，而是数据不够多。

训练一个通用具身大模型需要数千万小时以上高质量真实数据，全球行业存量仅数十万小时，缺口超过95%。研发端月均需求约120万小时，全行业月产出仅25至30万小时——月供给不足需求的四分之一，模型训练长期“断粮”。真机采集1小时仅产20条有效轨迹，数据格式不统一，跨机器人本体复用率低，精度、规模、成本三者难以兼得。

LLM时代，互联网上几乎无穷的文本语料喂饱了大语言模型。但具身智能需要的不是文字，而是人类在物理世界中搬、拿、捏、擦、叠、扶的真实动作轨迹。这种数据不在互联网上，必须一帧一帧从真实场景中采出来。2026年被行业共识定义为“具身智能数据元年”——不是因为技术有了跃迁，而是所有人终于承认：没有数据，一切免谈。

2025年被称为人形机器人工厂工人元年，但“炫技”到实用仍有鸿沟

最大的铲子，不在硅谷

历史上每一轮淘金热都证明了同一件事：最先赚到钱的往往不是挖金子的人，而是卖铲子的人。AI 1.0时代，英伟达卖的是算力铲子。AI 2.0时代，瓶颈从算力迁移到了数据——谁能大规模、低成本、高精度地采集和处理物理世界的操作数据，谁就握住了新铲子的手柄。

2026年4月，京东发布了一套覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施，试图从源头破解这道难题。

采集端，京东自研的JoyEgoCam头戴设备仅重220克，双目4K/60fps，重投影误差小于0.2像素，内置车规级IMU，让数据从源头就具备毫米级精度。但硬件只是起点，真正的壁垒在规模——京东计划发动最多60万人参与采集：内部10万员工覆盖仓储、物流、家政、零售等自有场景，外部50万行业人员延伸至保洁、康养、农务、服装加工等场景，仅宿迁一地就有超过10万市民参与。这可能是人类历史上规模最大的物理世界数据采集行动。

产能目标同样激进：两年内积累1000万小时人类真实场景视频数据加100万小时机器人本体数据。

采集只是第一步。京东在数据处理端同样下了重注：JoyBuilder训练平台通过软硬件深度调优，将1亿条以上数据的千卡训练时间从15小时压缩到22分钟，提速40倍，整体效率较开源社区版本提升3.5倍。以自采数据为核心训练的具身大模型JoyAI-RA，真机实验成功率达到73.5%，超过业内多个前沿模型——模型反哺数据标注与采集策略，形成“越用越强”的飞轮。

京东还同步上线了数据交易平台，首批定向开放2000小时高精标注数据集，几十家头部企业和高校在对接。这一步的意义不只是商业化，更在于建立数据流通标准——当前行业数据格式不统一、接口不兼容，数据孤岛是制约整个生态的隐性成本。

为什么是京东？3600多座仓库、全国物流网络、20万合作药房、1万多线下门店、5万多自运营保洁师——这些不是为具身智能准备的资产，但恰好构成了最丰富的物理世界操作场景库。在社区居家场景，采集员在日常家务中完成擦桌叠衣、整理收纳；在养老康养场景，记录协助老人起身、移乘、喂药的照护动作；在农务场景，覆盖果蔬采摘的手眼协调轨迹和田间不规则地形的行走避障。这些数据指向的不是实验室里的理想化操作，而是真实世界里充满意外、噪声和变化的人类行为。

EgoScale的研究已经证明：海量人类第一视角视频是训练机器人灵巧操作的“富矿”，并且存在可预测的缩放定律——看的视频越多，机器人就越聪明。京东的基建逻辑正是建立在这条定律之上。

2025年全球人形机器人出货量前六名全部来自中国，量产规模领先

棋盘上的位置

把视野拉回整个产业。2025年全球人形机器人出货量前六名全部来自中国，智元以5168台登顶，宇树4200台紧随其后。宇树净利率35%，科创板IPO已获上交所受理；智元的人形机器人已在比亚迪、蔚来完成百台级部署，用工成本低于人工。Optimus Gen-3核心零部件70%来自中国供应商。

政策层面，“具身智能”已写入政府工作报告，北京设立1000亿元政府投资基金，上海目标2027年核心产业规模突破500亿元。李想在5月的播客中判断：自动驾驶是具身智能上半场，人形机器人是下半场，两个赛道各具五万亿美金规模。

在LLM赛道上，中国始终处于追赶位置——算力受限于芯片封锁，基础模型能力受限于与OpenAI和Anthropic的差距。但当竞赛从“大脑”转向“身体”时，棋盘上的位置发生了变化。140多家人形机器人企业、6家百亿估值独角兽、全球领先的出货量——如果下一轮AI造富的重心从软件迁移到硬件，从算法迁移到机电一体化，中国的产业禀赋恰好处于新价值链的中央。

而在这条价值链上，一个更隐蔽的判断正在成形：造机器人身体的企业已经浮出水面，但喂饱机器人大脑的数据基建，可能才是更深层的瓶颈资产。硬件铲子已经被定价，数据铲子才刚刚被看见。

当然，“恰好”这个词本身就值得警惕。1999年的互联网泡沫中，Pets.com和Amazon的股票同时暴涨，前者归零，后者成为万亿美元公司。A股市场上，年营收2.87万元的公司因脑机概念股价翻倍，不涉及脑机接口研发的企业连续涨停——泡沫与信号同时存在，关键在于分辨谁卖的是真铲子，铲子真能用。

当机器人开始替代劳动者时，造那具机器身体的人、编写那颗机器大脑的人，以及喂饱那颗大脑的人——谁手里握着真铲子？这或许是未来五年最值得追踪的问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.