自变量王潜：具身智能是物理世界的独立基础模型｜MEET2026|模态|量子|序列

分享至

过去一年，具身智能领域反复被问到一个问题：它到底只是多模态模型的一个应用，还是一种全新的基础模型？

对此，自变量机器人创始人兼CEO王潜表示：

具身智能模型是物理世界的基础模型，独立于、平行于语言模型、多模态模型等虚拟世界的模型。

这一判断背后，首先是对物理世界与虚拟世界本质差异的重新认识。

语言模型和多模态模型所面对的，是高度可复现、低随机性的符号世界；而机器人所处的物理世界，则充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程。

沿用以语言和视觉为中心建立起来的建模范式，本身就存在结构性的错位。

也正因为如此，自变量机器人在实践中选择了一条更长期的路线：不把具身智能当作应用层问题，而是从模型架构、数据范式、推理方式乃至硬件形态上，系统性地重做一套“物理世界的智能底座”。

为了完整体现王潜的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会，近30位产业代表与会讨论。线下参会观众近1500人，线上直播观众350万+，获得了主流媒体的广泛关注与报道。

核心观点梳理

最近具身智能领域有一个争论：具身智能究竟应被视为应用，还是应当被定位为独立的基础模型？我们非常明确地认为，具身智能模型独立或平行于虚拟世界中的语言、多模态模型，是一种专门面向物理世界的基础模型。
物理世界的特性与虚拟世界差异巨大，尤其是物理事件存在高度随机性。
现有的模型架构、训练方法和数据能力，很难对高度随机性的现象做出充分准确的刻画。
如果以未来十年为尺度，具身智能基础模型甚至有可能反过来吞噬现有多模态模型的生存空间。
要构建一个统一的基础模型，它自然应是完全端到端的。这一点在当下某种程度上已经成为行业共识。

以下为王潜演讲全文：

具身智能模型是平行于语言模型的独立基础模型

大家好，最近具身智能领域存在一个争论：究竟要把具身智能看成是一个AI应用，还是一个独立的基础模型？

很多人会疑惑，今天所有的具身智能模型仍然是在一个多模态模型的基础上加上Action的部分，做后训练的微调，少部分有预训练，也只涉及到视觉，没有涉及到语言。

这种情况下，是不是能称之为是一个独立、专门服务于物理世界的基础模型？可能有些争议。

作为一线从业者，我们还是非常明确地认为，我们在做的具身智能模型的确就是一个完全独立于或者平行于虚拟世界中的语言模型、多模态模型的另外一个专门为物理世界使用的基础模型。

这件事情真的这么重要吗？它的确非常重要。

我们在实际使用过程中，确实碰到了以往的架构所解决不了的问题。

另外，当视角转变过来，将具身智能看作是一个独立的基础模型时。我们会发现对于模型架构、数据、包括后续产品的商业化，整个视角都会发生巨大的变化。

这也是今天虽然还是使用多模态的模型去做backbone，在其上做后训练，做微调，我们仍然还是很坚定地认为在做的是一个基础模型的最核心原因。

为什么需要一个单独的基础模型

为什么我们需要一个单独的基础模型，原因非常简单：

物理世界的特性和虚拟世界差异太大了，在物理世界中最常见的一个问题就是随机性，用相同的角度、相同的力度推一个相同的杯子，可能十次会停在十个不同的地方。

这在虚拟世界几乎是不会发生的，如果内存状态一样，跑十次代码，十次基本是相同的结果。

当然不排除有什么宇宙射线把它的比特翻转，这个情况是极少数发生的。

所有物理世界发生的事情都具有高度随机的特性。现有的模型架构、训练方法、数据，很难精确描述高度随机性的现象。

尽管今天所有的具身模型还是建立在语言和多模态模型，或者视觉模型的基础上，但语言和视觉本质上并不是特别好的一个用来描述动作、描述物理过程的工具。

一个非常明显的现象是，语言只能描述一些长序列的事情，比如发生时间在10秒钟以上的事情，如果描述一些精细的操作，如怎么炒菜还是不太现实的。

图像比语言精度好很多，但同样会面临很多问题，比如工具使用、遮挡。

大量涉及力的过程、接触的过程，没有办法靠语言和图像去做。

这就提出了一个根本性的问题：现有的模型是建立在语言和视觉模型的基础上，这样到底对不对？

很明显是不正确的。实际上我们需要某种意义上完全另起炉灶，把它重新训练成一个专门供物理世界使用的基础模型。

刚才我提到的这些，本质上都是一个问题，即物理世界的复杂性本质上不同于虚拟世界，所被压缩出来的世界的结构和虚拟世界有很大不同。

多模态模型的未来

当转变这一思路后，会给模型架构带来很多不一样的视角和观点。

其中一个非常重要，在感知和决策的层面上，之前都是沿用在虚拟世界中学习的结构。

这会带来一个实质性的问题，也是在今天多模态领域存在的一个实质性问题，就是人类在物理世界中学习和感知的方式和在虚拟世界中完全不同。

在虚拟世界中学习，比如怎么样判定一只狗是一只狗，而不是一只猫，需要在一万张图片里抽取出共同的Feature，看到一个新的图片时将这个Feature去匹配，这是统计学习到今天最常用的范式。

实际上，我们在日常生活中碰到一只狗，不是这么去学的，也不需要一万张狗的图片，只需要看到一只狗，让它转一圈，在这个过程中，便获得了一个带有因果性、时序信息的连续观察流。

同时，因为有空间位置信息，大致上能够感受得到狗的三维结构。

除此之外，我们还可以主动和狗互动，比如和它握握手，进而获得了一个和观察策略相关的观察结果，叫做Interactive Perception，过程叫做Active Perception。

在这个过程中，其实和在虚拟世界的学习方式产生了大量根本性的不同，这应该是多模态模型未来重要的发展方向。

如果还是坚持之前静态的、固定的数据的学习方式，是做不到像人类一样高效率，实现节省数据和算力的学习结果。

如果以十年为周期，具身智能的基础模型很可能会反过来吞噬现有的多模态模型的生存空间。

当前模型架构的trade off

既然要做统一的基础模型，自然是完全端到端，这在今天已经逐渐达成共识。那没有形成共识的是什么？

要做快慢系统，是因为统一模型的推理速度会变得比较慢。

我个人的看法是，这是在目前的模型架构下所采用的一种Trade off（权衡）的形式。

要根本解决模型的问题，还是需要把它当成另外一个完全不同于已有模型，专门需要考虑端侧部署和推理，在设计时就要考虑这些问题的模型，这也是自变量探索的结果。

刚才这个视频，在这种高度复杂的任务上，自变量已经很好地实现了非常快的速度，而且这个速度是要超过人类当时给它做训练，收集数据时的速度。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

完全1倍速记录，比遥操作的速度快很多，同时能维持非常好的准确率和最终效果，这个任务难度也非常高。

另外一个问题就是机器人本体泛化问题，某种意义上也是因为还在沿用过往的模型架构做机器人。

这个视频是自变量实现的非常典型的跨本体泛化任务，我们从夹爪的模型上迁移到高自由度灵巧手上，15个主动自由度，一共20个自由度的高自由度灵巧手，只用了非常少量的样本，这说明模型本质上已经学会了一些基础的物理规律，物体的基本属性，一些基本的动作模式。

【此处无法插入视频，遗憾……可到量子位公众号查看～】

这一模型可能在当时的时间点上是最领先的，也可能是唯一一个用端到端的VLA模型驱动高自由度灵巧手的例子。

另外我们希望具身模型不止是生成动作去控制机器人，还期望它是一个世界模型，这样就可以用生成出来的未来世界的状态做各种各样的事情，也希望它是Spatial intelligence，这样就可以利用三维结构。

也希望它仍然延续了VLA的语言能力，实际上自变量今天做的就是把所有的能力都放在同一个模型上，让它拥有语言能力、世界模型的能力，视频生成的能力、三维重现的能力。

在这基础上，今天的一些争论点可能并不是十分合理，很多人认为VLA和世界模型是不是互相替代的关系，或者是两个不同的技术分支。

在刚才的架构里，这些只是同一个模型不同的输出而已，是在同一个物理世界基础模型的框架下所做的不同努力，这就是一定要把具身智能模型单独分离出来，作为一个新的范式最重要的原因之一。

顺便打打广告，自变量自研的WALL-OSS，也是目前领先的开源物理世界基础模型，具备VLA模型控制机器人的能力。

同时也具备非常好的泛化和智能跟随的能力，同时能够做Subtask的区分，从而构建长序列的思维链，解决非常复杂和长序列的问题。

具身智能的Scaling Law

刚才提到了改变视角对于模型架构的变化，另一方面，改变视角对于数据的看法也更本质。

过去在大模型领域，Scaling Law是核心考虑的事情，其中数据的Scaling Law普遍被称为在机器人上最困难的事。

虽然都是要做更多、更好的数据，是否需要用虚拟数据、合成数据，还是要在真实数据里挖掘一些动作等，还是可以有更好的方法实现。

受限于时间，自变量也做了大量工作，我们认为现实世界的数据应该是最主要的来源。

我们从以往的大模型的学习中获得了一个重要的insight，就是训练还是要分阶段，所以数据也是要分阶段的，需要有预训练的数据，也需要有后训练的数据。

更重要的，我们发现了第三个Scaling Law，在后训练之后还可以在推理时做拓展，在推理时用CoT的方式、用其他推理的拓展方式，让模型表现变得更加好。

刚才有其他嘉宾提到了这个范式天然非常适合于具身智能、机器人。

我们在物理世界中是一个持续学习的过程，不会把所有的数据上传到云上，形成一个完全的批次，反过来再下载到端侧上，我们还是希望端侧上每收集到的一个新数据能够实时更新，在整个生命历程里都能够有体验学习的过程。

这应该是一个本质上优于以往集中式批次式训练的方法，当然这带来了很多额外的难度。

在体系架构上，在System上，在硬件上都会有相应的调整。但如果不把具身智能看作是一个独立的基础模型，独立的发展方向，一定还是会受制于以往在其他模态的模型里面所碰到的一些问题。

让AI来定义硬件

一个全新的学习范式，自然需要改造在物理世界中的硬件载体，在具身智能中非常核心的一点是，一定要让AI定义硬件，而不是先去制造一个完美的硬件，然后再在上面做AI的模型。

自变量坚持软硬一体同步发展，目前已经实现了两款全自研的轮式底盘人形机器人，以及高自由度的灵巧手，现在也已经开始向市场销售。

最后想说一件事情，大家普遍意义上还是有点低估了具身智能的发展和影响，普遍还是认为在AI领域语言、数学、代码这些领域要比具身智能有本质的重要性。

但这一观点有一个隐藏的Hypothesis，以前都会说有一个所谓的奇点，超过这个奇点时，一个很聪明的AGI能够发明一个更聪明的AGI，所以人类被彻底抛在后面。

但这个假设今天是不对的，我们怎么样发明一个真正聪明的AGI，甚至超越人类的ASI，是需要更多的算力，更多的芯片，更多的电力，更多的能源，更多的数据，所有这些东西都是从物理世界中来的。

怎么样在物理世界中获取更多的资源，其实在第一次工业革命时就有一个概念：所谓的机器制造机器，一台能够制造十台，十台制造一百台。

这样有一个指数级的增长，但今天我们并没有看到指数级增长发生在现实世界，模型在物理世界中并没有带来有虚拟世界这么巨大的影响，核心的一个卡点就是人手的劳动。

一切商品，一切服务都不能脱离人手的劳动这一步，这使得没有任何一个东西可以100%的依靠机器自动的做出来，除了芯片。

如果具身智能实现的话，万事万物都可以走向类似于芯片摩尔定律的发展规律。

在这个过程中，自然而然带来了更多的芯片，更多的电力，更多的数据，我们可以做一个更加聪明的ASI，从此走向一个真正意义上通用智能的未来。

我们还是认为具身智能具有本质性的重要性，同时也应该是一个独立于、平行于已有的虚拟世界模型的另外一个物理世界基础模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.