峰瑞资本李丰：具身智能要落地，可能得抄这三份作业|高维|算法|物理量|大模型|李丰(曹魏)

分享至

没有最热，只有更热。

具身智能领域从来不缺新故事。

仅在过去一个月里，英伟达发布物理 AI 模型 Cosmos；阿里发布开放式世界模型 HappyOyster；腾讯开源混元 3D 世界模型 2.0；“AI 教母”李飞飞创办的 World Labs 也在 4 月发布了 Marble 1.1 系列模型，主打大尺度 3D 场景生成。

世界模型、UMI（Universal Manipulation Interface）、物理仿真，这些曾经主要出现在学术论文中的概念，已经成为行业讨论的高频词。

4 月 23 日，在由投中主办的“第 20 届中国投资年会·年度峰会”上，峰瑞资本创始合伙人李丰直言，生成高维数据、世界模型和物理模型，是具身智能当前的三个投资热点新方向。

在他看来，这些新概念和新现象的出现，根源在于缺少数据，“具体来说，是人类从来没有积累过大量包含这些物理量和物理世界交互规律的数据，我们从来没有大规模产生过这类数据。”

而市场对生成高维数据、世界模型和物理模型等方向的热捧，本质上都是为了解决同一个问题——如何在没有这类数据的情况下，依然能解决问题，完成想要实现的各类机器人操作任务。

以下为李丰现场演讲实录，经投中网整理，转载时内容有微调——

首先恭喜投中20届年会顺利举办，也非常感谢投中的邀请。现在做投资人其实不太容易，市场上日新月异的概念太多，我们总得不停地更新知识、持续学习。

今天分享的，也只是我们自己的一些观察和想法。最近又出现了非常多的新生事物和新概念，我从中挑了几个，跟大家交流。

具身智能的三件新事：UMI、世界模型、物理模型

没有本体也能采数据：UMI 把摄像头挂上了胸口

从去年年底开始，不管是美国还是中国，都出现了无本体机器人的数据，叫 UMI（Universal Manipulation Interface）数据。

UMI 数据的生成，带来的结果就是出现了很多新机会，以及很多看似有前景的创业公司，它们会提供各种各样的数据采集设备。比如你最近看到的，有人在胸口挂个摄像头，再加上或许有触觉、或许没有触觉的设备；不管是遥操作、手上戴的机械手，还是直接用手完成各类动作，都属于这一类，也就是生成高维数据。

世界模型：几乎所有机器人公司都在讲的故事

现在更时髦的概念是世界模型，今天几乎所有机器人公司都会提到这个词。

世界模型试图通过引入新的三维数据，包含与物体接触并改变其状态的交互数据，来构建一个新的模型，看这个新模型能否更好地理解人类到底是如何与物体进行交互，并且改变物体状态的。

目前国内外有非常多新兴公司和知名企业都在涉足这个领域。国外的发展已经如火如荼，国内则算是刚刚起步。现在去看具身相关项目，基本上大家都会讲世界模型的故事。

物理模型：阳光终于照到了数学系和物理系

世界模型里还有一个稍微特别的小分支，叫物理模型。它背后的基本逻辑是：既然机器人要与物理世界交互，不如从物理世界过往的经验中借鉴。这些过往的经验，就是行业里原来所说的仿真，或者叫物理仿真。

物理仿真本身，就是我们对现实世界中存在的物理现象，进行数学和物理层面的模拟、归纳与计算。今天这个小分支，就是把这些过往被称为仿真（不管是 CAE 还是 CAD）的能力，重新融入到模型当中。

原理其实很简单，最终目的都是为了处理和理解人类如何与物理世界交互。

这和今天大家讲的大语言模型不一样：大语言模型专注于处理数字信号相关的问题，不管是数字化的文本信息、数字化的像素，还是视频信息；而现在要解决的问题是，桌上的杯子是什么情况、杯子倒了会怎么样、怎么把杯子拿起来、怎么把杯子放到别的地方——这些都属于世界模型要覆盖的内容，包含世界模型里那个小小的分支。

新故事所代表的三个方向

我们梳理这些内容，是因为它们各自代表了不同的方向。

第一类没什么争议，生成高维数据，主要是把新的数据采集方法和新的数据处理方法结合在了一起。

第二类是世界模型，目前由原来偏计算机或者大模型、做 computer vision（计算机视觉）的人在主导——不管是把计算机视觉用在人脸识别上、用在自动驾驶上，还是用在发展出大语言模型架构上。

第三类是物理模型。这个小分支里出现了很多做数学和物理的人。可以说，投资领域的曙光，或者说早期投资的故事与泡沫，终于从计算机系挪出了一部分阳光，照到了数学、物理这些领域里。

热闹背后的两大挑战

热闹背后暗藏挑战。

语言模型，预测不了物理世界

第一个挑战是语言模型。我们不从技术架构上讨论，只说核心问题——语言模型对物理世界进行预测和生成数据的能力已经不够用了。

不够用的一大表现就是，它无法预测物理世界中具体物品、具体对象的状态变化。

一个超级大模型，还是一群模型互相打配合？

还有一个挑战，就是单一模型的局限。

就像大语言模型，如果最终要做成单一模型，既要能理解人类的意图，又要能理解语义（也就是知道这个东西是什么），还要能预测和理解物理量的改变——比如把这个东西端起来、把水倒出来、把东西碰倒，还要判断这个东西是重是轻、是什么材质，以及这种材质的弹性、硬度、摩擦力是高是低，等等。

如果一个模型能像这样包揽所有事情，既能理解意图、识别对象，还要预测这些物理量，以及动作发生后物理量的变化，那这个模型最终会比现在大得多、复杂得多。

因为这是一个非常高维的任务。原来的语言模型只需要处理数字化的信息和像素，而现在要预测这么多维度的内容，假如还想用单一模型来处理，以我们人类现有的想象力来看，这会是一个超级大的模型。最后需要多少数据来训练它，它会是多么复杂、多么耗费算力、多么耗费各类能源，今天我们还不得而知，这是一个尚未有答案的问题。

另一个可能的答案是多模型融合：把各种各样的物理量转化为仿真相关的内容，让它与某一个基座模型进行交互。需要某类知识时，就调用这部分相关的能力；需要某种物理量时，就调用对应的模型。如果是这样，就会涉及到大量模型的交叉、调用与融合——而这些模型之间如何实现交叉、调用和融合，目前也没有答案。

这就是在前面三件事的基础上，已经出现的两个挑战，不管我们选择哪一条发展路径，都绕不开。

根源：我们没有这种数据积累

这个挑战的来源其实也很明确。大家看到的这些现象、新创业公司和新范式方向，根源都是一样的——没有数据。

具体来说，是人类从来没有积累过大量包含这些物理量和物理世界交互规律的数据，我们从来没有大规模产生过这类数据。

所以不管是前面提到的第一、二、三类创业方向，本质上都是为了解决同一个问题——如何在没有这类数据的情况下，依然能解决问题，完成想要实现的各类机器人操作任务。

具身智能的三角约束

如果把具身智能的目标看成一个平面坐标系，就是三个不同的方向，我把它们称之为三角约束：复杂性、成功率、泛化性。

具体来说：

1. 复杂性：要完成特别复杂的任务——这类任务对人类来说不一定复杂，但对机器人来说非常复杂。以及，这里说的不是运动相关的任务，而是操作类任务，也就是和手相关的任务。

2. 泛化性：让一个模型既能用在 A 类机器人、B 类机器人、C 类机器人上，还能适配不同的应用场景。

3. 成功率：有些场景是和实验相关的，有些是工业操作场景，再比如和剪头发、按摩相关的服务于人的场景——显然没人希望按摩时被摁断一根肋骨，也不希望剪头发时被剪秃一块，这就涉及到不同场景下的成功率问题。

我们梳理这些内容的原因，是因为现在大家看到的大部分 demo（演示版本）都离实际应用有些差距。这些 demo，都在努力证明，这个三角形的面积可以变大，可以向三个维度扩张——如果是空间坐标系，就是体积变大，在各个方向都实现扩张。

不幸的是，在我们目前能看到的有限范围内，即使是 demo 层面，大部分项目也只是在平面坐标系的三角形里，努力把其中一个角或者一个半角稍微扩张一点。我们还没有明确看到，有哪种方法能把这三个角同时向外拉很远，从而让三角形的面积大幅增大。这大概就是今天机器人操作领域的现状。

总结一下刚才讲的所有现象：在已经如火如荼的具身智能机器人创业方向上，有这样三件新事，关于这三件新事的深入讨论还不多，但相信很快，大家会开始讨论我们刚才提到的两个挑战。

今天我们讲的这些新模型，未来到底会是什么样子？是变成更大、更复杂甚至超乎我们目前想象的单一模型，还是会出现多个模型相互调用，但多模型如何融合，仍未可知？这就是挑战所在。而这些挑战出现的根源，就是今天没有足够的数据。我说的“没有”，是指没有解决这类问题所需要的、包含物理世界交互和物理量的相关数据。

此外，今天大家看到的几乎所有 demo，都在力图证明自己能把这个三角形拉大，但大部分公司在 demo 层面（而非真正意义上的应用层面）能做到的，只是把其中一个角稍微拉长，或许再把另一个半角稍微拉长。

/ 04 /

以史为鉴：三条已经走过的路

投资最让人头疼的事情是，除了提出问题，还得努力寻找解决方案。

我们目前没有明确的解决方案，只有一些以史为鉴的参考案例。

大语言模型：吃掉了人类近40 年的互联网文本

我们先以大家最熟悉的大语言模型为例。

从 2012 年深度学习热潮开始，算法的演进经历了一系列迭代——虽然从卷积神经网络（CNN）开始的这一串算法结构或算法逻辑的迭代，跟今天的大语言模型并不是在同一条路线上。

紧接着在 2014 年之后，出现了生成对抗网络（GAN）技术。随着技术范式进一步演进，后来才汇聚到了以 Transformer 为代表的大语言模型的算法逻辑。这就是算法的迭代过程。包括大模型在内的算法迭代从来不是线性的，不是大家按照顺序一步一个台阶往上爬，而是爬了两三步之后，换一个角度再爬两三步，再换一个角度继续爬。

我们再说说大语言模型的数据来源。今天我们能训练出的基座模型，很大程度上依赖于近 40 年积累的互联网文本数据。大家使用电脑大概有 30 年，使用手机大概有 15 年。在这 40 年里，我们使用这些智能设备的过程中，产生了超级庞大的文本公开数据库，这些数据就是大语言模型得以训练、并取得今天这样成果的数据来源。

要补充的是，这只是训练文本的部分。刚才我们提到，现在要训练的具身模型，需要涵盖更多维度——既有 3D 空间，又有具体物体，还包含物理量、交互方式，并希望它具备预测能力。这些事情已经远远超出了预测下一个“词”的范畴，比单纯的语言预测要复杂得多，更何况我们现在还没有开始像攒互联网文本数据那样大规模积累相关的数据。

自动驾驶：先卖你一辆车，顺手把数据收了

自动驾驶则有点特别。

今天大家在网上经常会看到争论：不同公司争论今天的自动驾驶到底要不要经过 L3 阶段？是否可以不经过 L3 直接到 L4？

为什么会有这样的争论？包括特斯拉在内，今天大部分自动驾驶技术，目前都停留在 L3 到 L4 之间，暂时还没有哪家公司能真正宣称自己已经超越了 L4——这里说的是开放路面，不是港口、矿区或者园区这类相对封闭的环境。

但自动驾驶的发展，也经历了从以规则为主，到今天最时髦的端到端（和大语言模型的架构类似）的过程。另外还有一件比较特殊的事：自动驾驶的算法迭代也不是线性的，它也不是顺着一条路一步一步走出来的，而是在几个不同的方向上来回交叉推进的。

再说说自动驾驶的数据来源，这一点就更特别了。自动驾驶的数据居然主要靠它自己获取。

以特斯拉为例，在去年以前，绝大多数人买新能源车的时候，不管它是电架构的还是混动的，大家买的是车本身。在去年或前年以前，大部分人买车还不是为了自动驾驶，而是为了省钱、好开好用、安静、加速快。而大家买车的时候，凑巧这辆车上搭载了所有的传感器，因为它是一款消费品。

打个比方大家就明白了：大家用智能手机和电脑，肯定不是为了让市场上任何一家互联网巨头获取自己的图片、文本和语音数据。但因为智能手机和电脑是大家的消费品，凑巧搭载了后置高清摄像头、麦克风阵列、GPS 芯片，所以大家在使用这些设备的过程中，产生了无数的数据为互联网巨头所用，而这些数据，也成了今天各类模型需要的数据来源。

自动驾驶的特别之处就在于，它先把自己变成了一款受欢迎的消费品，大家愿意购买。大家买车的同时，也把车上搭载的所有传感器买了回去，这些传感器产生的数据，又能拿回来帮助自动驾驶技术进行大规模的迭代。正因为这个原因，大家会发现，谁拥有的数据越多，谁的自动驾驶技术可能进步得就越快一点。

但这些数据不是它向大家购买的，而是它卖给大家一款大家需要的消费品，这款消费品上凑巧搭载了非常多的传感器，这些传感器就把驾驶数据、环境数据、车内驾驶习惯、路况状况等，转化成了自动驾驶模型训练所需的数据。

这在历史上是很少见的，它是一个自己给自己积累数据的领域——不是因为它是自动驾驶技术，而是因为它首先是一辆车。在过去十年里，大家买车不是为了买自动驾驶功能，只是为了买一辆车，而传感器是车上自带的。

AlphaFold：数据不够，先验知识来补

最后我们看 AlphaFold（蛋白质结构预测）。它的三个模型版本，也经历了不同的发展过程。当然现在它的算法结构，也和我们今天讨论的这些大模型有相关性，或者说在某种意义上是端到端的。

在发展初期，它需要借助大量已有的人类数据，或者说需要加入一些物理模型。什么是物理模型？就是我们所说的热力学、动力学。所以在 AlphaFold1 和 AlphaFold2 阶段，需要加入很多人类已经总结的先验知识，也就是一些生物规律，以及与化学、物理相关的规律和算法。

AlphaFold 的数据，起初在 AlphaFold1 阶段比较少，因为它需要的是非常专业的数据——它要解决的是一个极其具体的问题：蛋白质序列最终会如何折叠，这条长链条稳定下来之后是什么样子？

它的数据发展也经历了这样一个过程：一开始只有少量的蛋白质结构数据，这时候就需要加入较多的物理、数学模型和先验知识；后来数据多了一点，物理、化学、数学模型和先验知识就可以减少一点；数据再增多一些，这些模型和知识就再减少一点。当然，这其中还涉及很多与实验相关的工作。

AlphaFold 的发展路径的特别之处在于：它不是通过消费者积累数据，而是依靠极度专业的科研数据。但在其模型进化到今天的过程中，很长一段时间内，研究者都加入了人类的先验知识、物理模型、数学模型等，来帮助它在发展过程中解决问题。之后，随着新数据不断积累，加上大量实验的验证和校正，才发展到了今天的 AlphaFold3。今天它可能需要的物理与数学模型以及先验知识，已经稍微少了一点。

不过它凑巧是一个预测确定的单一维度课题的模型，主要目的就是解决蛋白质稳定下来之后如何折叠。它不需要像具身智能那样解决那么多维度的问题，不需要解决状态变化、对象变化、相互作用以及各种物理量等复杂问题。

/ 05 /

十年之后，答案可能在这三条路里

上面讲到的大语言模型、自动驾驶、AlphaFold，是我目前能想到的可以参考的三种事物的迭代过程。

大语言模型用了全人类积累近 40 年的数据，加上非线性的算法迭代，到今天才发展出能够处理语言相关的逻辑。

自动驾驶从 2015 年投资最热的时候开始，用了十年时间发展到今天的 L3.5 阶段，当然期间也遇到了一些不同的挑战。它的算法迭代也不是线性的，它的数据是靠自己获取的——但原因不是它让大家帮忙采集数据，只是通过卖给大家一辆车，车上凑巧搭载了这些传感器，所以它自己为自己创造了数据。

AlphaFold解决的是蛋白质结构和折叠这个专业问题，它用了大量的专业数据，解决了一个单一维度的问题，同时算法也经历了几次不同的迭代，并且在中间很长一段时间里，借助了人类的先验知识、物理模型、数学模型等，来帮助它解决发展过程中的问题。

这是三条不同的发展道路，大家可以根据自己的情况，各自选择参考答案。

今天具身智能出现的这些挑战，在十年以后，最终要么是以这三个案例中的某一个为蓝本得到解决，要么是融合这三个案例各自的优势，形成交叉性的解决方案。具体是哪一种，这是一个开放的问题——我们只能提出问题，无法给出确定的答案。

以上内容，仅供大家参考或者思考。谢谢大家。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.