来源:市场资讯
(来源:具身之家Robots)
作者| 拂晓子
来源 | 具身之家Robots(ID:zscy006)
![]()
在具身智能的投资叙事中,我们听惯了关于“百万元成本降至数万元”的硬件大跃进。
但当潮水退去,从业者和投资人才猛然惊醒:无论减速器和电机关节做得多么精巧,决定一个机器人能否走进千家万户的,从来不是它的“肌肉”有多强,而是它的“大脑”是否真正懂得这个世界的游戏规则。
01
“赛博大脑”与“现实引力”的碰撞
今天的人工智能,正处在一个极具割裂感的历史节点。
在纯数字的真空中,大语言模型(LLM)已经无所不能:它可以瞬间写出上万行的完美代码,可以高分通过极其严苛的医学和法律考试。
但如果你把这颗处于智商巅峰的“大脑”接入一台机械臂,让它去厨房里完成“把生鸡蛋打入碗中”的任务,它极有可能会捏爆鸡蛋,或者一拳砸碎瓷碗。
这种强烈的反差,在学术界被称为“莫拉维克悖论”:
对计算机而言,实现高阶的逻辑推理只需要极少的算力,但要实现人类一岁婴儿那种无意识的感知和运动技能,却需要极其庞大的计算资源。
为什么会这样?
因为 LLM 读遍了人类互联网上的亿万卷藏书,它懂广义相对论,懂《红楼梦》,但它偏偏没有感受过“引力”与“摩擦力”。
它不知道生鸡蛋的脆度,不知道衣服折叠时的柔性形变,更不知道两个物理实体无法同时穿透彼此。
为了抹平这种虚拟算力与物理现实之间的“虚实鸿沟”,全球具身智能的精英们正在向一个终极技术奇点发起冲锋——世界模型。
02
从“条件反射”到“脑内推演”
要理解世界模型,我们不妨借用诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中提出的经典框架:人类的认知分为“系统 1”和“系统 2”。
过去几年,哪怕是目前最先进的纯视觉-语言-动作模型(VLA),本质上也只是在给机器人训练“系统 1”(直觉与条件反射)。
它看到一个杯子,基于过去被投喂的数据,形成肌肉记忆去抓取。
这种模式的致命伤在于“极窄的泛化能力”——一旦杯子被移到了一个透明玻璃挡板后,机器人的“系统 1”依然会驱使它径直抓过去,最终撞碎玻璃。它只是在做像素级的模式匹配,并不理解动作背后的物理因果。
而“世界模型”,则是为机器人强行植入“系统 2”(逻辑推演与沙盘模拟)。
拥有世界模型的机器人,在面对未知环境时,大脑里自带一个“物理引擎模拟器”。
在电机运转的零点几秒前,它已经在脑海中完成了无数次虚拟试错:
“如果直接伸手,会发生碰撞,任务失败。”
“如果绕开挡板,以 2 牛顿的力抓取,杯子表面有水,大概率会滑落。”
“如果以 5 牛顿的力绕后抓取,任务完美闭环。”
从死记硬背的肌肉记忆,跨越到未雨绸缪的脑内推演。这是机器人告别工厂流水线的“熟练工”身份,走向真正通用人工智能(AGI)的必经之路。
03
谁在打造真正的“机器大脑”?
当前,全球顶尖实验室和科技巨头都在押注世界模型,但“登月”的路线却分化成了四大派系。理清这些派系,我们才能看清商业落地的真实距离:
1. 物理仿真派(务实者的基本盘)
以 NVIDIA 的 Isaac 为代表。他们试图用严谨的数学公式把重力、碰撞体积写进虚拟环境。
这对于刚性物体(如螺丝装配)极其有效,是目前工业机械臂的最爱。
但在面对柔软衣物、未知的非结构化家庭环境时,复杂的微观物理规律极难被纯公式完美模拟。
2. 视频生成派(震撼的幻术师)
以 OpenAI 的 Sora 为代表。只要输入文本,就能生成极其逼真的物理世界视频。
它是绝佳的影视工具,但对机器人毫无用处。Sora 只是学到了光影和像素的排列规律,画面里并没有真实的“XYZ 三维坐标”和“受力反馈”。
用它来控制机械臂,就像看着皮影戏去开飞机一样危险。
3. 原生 3D 与隐空间派(未来的探索者)
以前沿学者李飞飞的 World Labs 和 Yann LeCun 的 V-JEPA 为代表。前者试图从底盘构建带物理属性的 3D 资产;后者则主张抛弃无用的视觉细节,直接在“隐空间”里预测核心物理状态的改变(比如只预测“杯子碎了”,而不计算玻璃渣的飞溅轨迹)。
这代表了极高的计算效率和学术前瞻性,但目前仍处于早期实验室阶段。
4. 统一动作模型 UAM(离落地最近的“圣杯”)
这是目前顶级 VC 疯狂加注的赛道,以 Physical Intelligence (PI) 、英伟达的 DreamZero 为代表。
它们打破了界限,将“视频预测(大脑做梦)”和“电机指令控制(小脑执行)”直接交织在一起。
模型不仅预测未来的物理画面,还同时输出实现该画面所需的扭矩和关节角度。彻底消除了视觉与控制之间的摩擦损耗,是当前实现人形机器人泛化的最快解法。
04
为什么光有算法大脑还不够?
然而,作为理性的产业观察者,我们必须戳破一个纯算法侧的浪漫幻想。
就算我们今天立刻获得了一个完美的世界模型,机器人的商业化依然会撞上一堵“看不见的物理墙”。
第一堵墙是“传感器的感知分辨率”。
世界模型推演得再完美,得出结论“需要用 1.2 牛顿的力捏住草莓”,但如果机器人的指尖缺乏高精度的视触觉传感器,它对物理世界的感知就是麻木的。
“没有末端的高精触觉,大脑的推演就是无源之水”。
硬件的感知上限,锁死了算法的推演下限。
第二堵墙是“边缘算力与延迟的生死线”。
给机器人装上“系统 2”进行复杂的沙盘推演,意味着极大的计算负荷。
人类可以在 1 秒钟内判断水杯是否倾倒,但机器人要在水杯坠落的 0.1 秒内完成“感知-推演-拦截”的闭环。
这种极低延迟的要求,注定不能完全依赖云端大模型的网速,而极度考验机器人端侧芯片的并发计算能力。
软硬耦合的底层工程能力,远比单纯跑通一个 Demo 要艰难得多。
05
真实数据的“种子”与合成数据的“化肥”
在这场世界模型的军备竞赛中,有一条最底层的铁律:极其聪明的模型,需要极其昂贵的燃料——数据。
这里的逻辑曾让很多投资人感到迷惑:世界模型既然能“自我模拟推演”,为什么各家公司还要花大价钱去现实中采集数据?
事实上,这背后是一个“种子与化肥”的递进逻辑:
第一阶段(0 到 1):寻找真实数据的“第一桶金”。
算法再天才,也不能凭空捏造物理规律。在世界模型“懂事”之前,必须依靠人类穿戴动捕设备、使用遥操作台,投喂海量带有真实物理反馈(力度、摩擦力、阻尼感)的数据。
这些昂贵的真实数据是“种子”,它决定了世界模型智商的底线。
第二阶段(1 到 100):开启合成数据的“无限飞轮”。
当世界模型通过真实数据掌握了底层的“物理常识”后,它就化身为一台低成本试错的“数据印钞机”。
它可以自己给自己出题,在虚拟空间里合成成千上万种光照、材质下的互动数据(化肥)。
谁率先跨过第一阶段,谁就能用边际递减的“算力成本”彻底替代高昂的“人工数采成本”,对传统玩家形成降维打击。
06
终局博弈与当前的“掘金逻辑”
站在投资和产业布局的视角,“世界模型”为我们描绘了一条极其清晰的价值演进路线。
在未来的终局里,那些只能组装硬件本体、依靠传统手工调参控制算法的公司,将不可避免地沦为“机器人的富士康”。
真正的暴利和行业话语权,将历史性地集中在那些掌握“世界模型+软硬闭环全栈能力”的寡头手中。
但在那个终极“圣杯”被摘下之前,我们当下面临的最迫切痛点是什么?
是极其匮乏的“第一桶物理交互数据”。
因此,在这场通往具身 AGI 的淘金热中,短期内最具确定性的商业爆发点,反而是那些“卖铲子的人”:
高精度硬件“铲子”:能够极其顺滑、低成本采集人类操作数据的遥操设备外骨骼;以及赋予机器人感知能力的六维力矩传感器、高精度触觉传感器。
服务型“铲子”:专门针对具身智能交互数据进行采集、清洗、标注的专业外包团队(现实世界的数据采集团队)。
在伟大的 AI 大脑彻底理解现实引力之前,这场隐秘却残酷的“数据抢夺暗战”已经悄然打响。
各路资本与极客会如何在这条泥泞的“卖水”赛道上厮杀的?
我们将在下一期原创中,为您深度拆解具身智能的“数据军备竞赛”,敬请期待。
cjm321666(微信)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.