风向突变！巨头死磕“大脑”，资本疯投“卖铲人”|牛顿|算法|机器人|人工智能

风向突变！巨头死磕“大脑”，资本疯投“卖铲人”

2026-05-07 12:10:05　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：具身之家Robots）

作者| 拂晓子

来源 | 具身之家Robots（ID：zscy006）

在具身智能的投资叙事中，我们听惯了关于“百万元成本降至数万元”的硬件大跃进。

但当潮水退去，从业者和投资人才猛然惊醒：无论减速器和电机关节做得多么精巧，决定一个机器人能否走进千家万户的，从来不是它的“肌肉”有多强，而是它的“大脑”是否真正懂得这个世界的游戏规则。

“赛博大脑”与“现实引力”的碰撞

今天的人工智能，正处在一个极具割裂感的历史节点。

在纯数字的真空中，大语言模型（LLM）已经无所不能：它可以瞬间写出上万行的完美代码，可以高分通过极其严苛的医学和法律考试。

但如果你把这颗处于智商巅峰的“大脑”接入一台机械臂，让它去厨房里完成“把生鸡蛋打入碗中”的任务，它极有可能会捏爆鸡蛋，或者一拳砸碎瓷碗。

这种强烈的反差，在学术界被称为“莫拉维克悖论”：

对计算机而言，实现高阶的逻辑推理只需要极少的算力，但要实现人类一岁婴儿那种无意识的感知和运动技能，却需要极其庞大的计算资源。

为什么会这样？

因为 LLM 读遍了人类互联网上的亿万卷藏书，它懂广义相对论，懂《红楼梦》，但它偏偏没有感受过“引力”与“摩擦力”。

它不知道生鸡蛋的脆度，不知道衣服折叠时的柔性形变，更不知道两个物理实体无法同时穿透彼此。

为了抹平这种虚拟算力与物理现实之间的“虚实鸿沟”，全球具身智能的精英们正在向一个终极技术奇点发起冲锋——世界模型。

从“条件反射”到“脑内推演”

要理解世界模型，我们不妨借用诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》中提出的经典框架：人类的认知分为“系统 1”和“系统 2”。

过去几年，哪怕是目前最先进的纯视觉-语言-动作模型（VLA），本质上也只是在给机器人训练“系统 1”（直觉与条件反射）。

它看到一个杯子，基于过去被投喂的数据，形成肌肉记忆去抓取。

这种模式的致命伤在于“极窄的泛化能力”——一旦杯子被移到了一个透明玻璃挡板后，机器人的“系统 1”依然会驱使它径直抓过去，最终撞碎玻璃。它只是在做像素级的模式匹配，并不理解动作背后的物理因果。

而“世界模型”，则是为机器人强行植入“系统 2”（逻辑推演与沙盘模拟）。

拥有世界模型的机器人，在面对未知环境时，大脑里自带一个“物理引擎模拟器”。

在电机运转的零点几秒前，它已经在脑海中完成了无数次虚拟试错：

“如果直接伸手，会发生碰撞，任务失败。”

“如果绕开挡板，以 2 牛顿的力抓取，杯子表面有水，大概率会滑落。”

“如果以 5 牛顿的力绕后抓取，任务完美闭环。”

从死记硬背的肌肉记忆，跨越到未雨绸缪的脑内推演。这是机器人告别工厂流水线的“熟练工”身份，走向真正通用人工智能（AGI）的必经之路。

谁在打造真正的“机器大脑”？

当前，全球顶尖实验室和科技巨头都在押注世界模型，但“登月”的路线却分化成了四大派系。理清这些派系，我们才能看清商业落地的真实距离：

1. 物理仿真派（务实者的基本盘）

以 NVIDIA 的 Isaac 为代表。他们试图用严谨的数学公式把重力、碰撞体积写进虚拟环境。

这对于刚性物体（如螺丝装配）极其有效，是目前工业机械臂的最爱。

但在面对柔软衣物、未知的非结构化家庭环境时，复杂的微观物理规律极难被纯公式完美模拟。

2. 视频生成派（震撼的幻术师）

以 OpenAI 的 Sora 为代表。只要输入文本，就能生成极其逼真的物理世界视频。

它是绝佳的影视工具，但对机器人毫无用处。Sora 只是学到了光影和像素的排列规律，画面里并没有真实的“XYZ 三维坐标”和“受力反馈”。

用它来控制机械臂，就像看着皮影戏去开飞机一样危险。

3. 原生 3D 与隐空间派（未来的探索者）

以前沿学者李飞飞的 World Labs 和 Yann LeCun 的 V-JEPA 为代表。前者试图从底盘构建带物理属性的 3D 资产；后者则主张抛弃无用的视觉细节，直接在“隐空间”里预测核心物理状态的改变（比如只预测“杯子碎了”，而不计算玻璃渣的飞溅轨迹）。

这代表了极高的计算效率和学术前瞻性，但目前仍处于早期实验室阶段。

4. 统一动作模型 UAM（离落地最近的“圣杯”）

这是目前顶级 VC 疯狂加注的赛道，以 Physical Intelligence (PI) 、英伟达的 DreamZero 为代表。

它们打破了界限，将“视频预测（大脑做梦）”和“电机指令控制（小脑执行）”直接交织在一起。

模型不仅预测未来的物理画面，还同时输出实现该画面所需的扭矩和关节角度。彻底消除了视觉与控制之间的摩擦损耗，是当前实现人形机器人泛化的最快解法。

为什么光有算法大脑还不够？

然而，作为理性的产业观察者，我们必须戳破一个纯算法侧的浪漫幻想。

就算我们今天立刻获得了一个完美的世界模型，机器人的商业化依然会撞上一堵“看不见的物理墙”。

第一堵墙是“传感器的感知分辨率”。

世界模型推演得再完美，得出结论“需要用 1.2 牛顿的力捏住草莓”，但如果机器人的指尖缺乏高精度的视触觉传感器，它对物理世界的感知就是麻木的。

“没有末端的高精触觉，大脑的推演就是无源之水”。

硬件的感知上限，锁死了算法的推演下限。

第二堵墙是“边缘算力与延迟的生死线”。

给机器人装上“系统 2”进行复杂的沙盘推演，意味着极大的计算负荷。

人类可以在 1 秒钟内判断水杯是否倾倒，但机器人要在水杯坠落的 0.1 秒内完成“感知-推演-拦截”的闭环。

这种极低延迟的要求，注定不能完全依赖云端大模型的网速，而极度考验机器人端侧芯片的并发计算能力。

软硬耦合的底层工程能力，远比单纯跑通一个 Demo 要艰难得多。

真实数据的“种子”与合成数据的“化肥”

在这场世界模型的军备竞赛中，有一条最底层的铁律：极其聪明的模型，需要极其昂贵的燃料——数据。

这里的逻辑曾让很多投资人感到迷惑：世界模型既然能“自我模拟推演”，为什么各家公司还要花大价钱去现实中采集数据？

事实上，这背后是一个“种子与化肥”的递进逻辑：

第一阶段（0 到 1）：寻找真实数据的“第一桶金”。

算法再天才，也不能凭空捏造物理规律。在世界模型“懂事”之前，必须依靠人类穿戴动捕设备、使用遥操作台，投喂海量带有真实物理反馈（力度、摩擦力、阻尼感）的数据。

这些昂贵的真实数据是“种子”，它决定了世界模型智商的底线。

第二阶段（1 到 100）：开启合成数据的“无限飞轮”。

当世界模型通过真实数据掌握了底层的“物理常识”后，它就化身为一台低成本试错的“数据印钞机”。

它可以自己给自己出题，在虚拟空间里合成成千上万种光照、材质下的互动数据（化肥）。

谁率先跨过第一阶段，谁就能用边际递减的“算力成本”彻底替代高昂的“人工数采成本”，对传统玩家形成降维打击。

终局博弈与当前的“掘金逻辑”

站在投资和产业布局的视角，“世界模型”为我们描绘了一条极其清晰的价值演进路线。

在未来的终局里，那些只能组装硬件本体、依靠传统手工调参控制算法的公司，将不可避免地沦为“机器人的富士康”。

真正的暴利和行业话语权，将历史性地集中在那些掌握“世界模型+软硬闭环全栈能力”的寡头手中。

但在那个终极“圣杯”被摘下之前，我们当下面临的最迫切痛点是什么？

是极其匮乏的“第一桶物理交互数据”。

因此，在这场通往具身 AGI 的淘金热中，短期内最具确定性的商业爆发点，反而是那些“卖铲子的人”：

高精度硬件“铲子”：能够极其顺滑、低成本采集人类操作数据的遥操设备外骨骼；以及赋予机器人感知能力的六维力矩传感器、高精度触觉传感器。

服务型“铲子”：专门针对具身智能交互数据进行采集、清洗、标注的专业外包团队（现实世界的数据采集团队）。

在伟大的 AI 大脑彻底理解现实引力之前，这场隐秘却残酷的“数据抢夺暗战”已经悄然打响。

各路资本与极客会如何在这条泥泞的“卖水”赛道上厮杀的？

我们将在下一期原创中，为您深度拆解具身智能的“数据军备竞赛”，敬请期待。

cjm321666（微信）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

风向突变！巨头死磕“大脑”，资本疯投“卖铲人”

白酒大逃杀

美贸易代表:中国在很大程度上限制大量美商品对华出口

美贸易代表:中国在很大程度上限制大量美商品对华出口

詹姆斯生涯第6次0-3困境：今年会被横扫吗

大S女儿玥儿开通账号，用烟花缅怀母亲

DeepSeek融资，改写所有人的估值

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

低价甩卖！海口这个地标商业，无人接盘！

今年最好看的衬衫竟然是它？太减龄了！

《影之刃零》PS5实体版预售引热议 玩家担心偷跑

伊朗革命卫队深夜警告

轴距加长/智驾拉满阿维塔07L定位大五座SUV

《影之刃零》PS5实体版预售引热议玩家担心偷跑