独家对话逐际动力创始人张巍：具身“不够卷”、世界模型和机器人大脑|牛顿|飞轮|李丰|张巍(编剧)

分享至

两年前，逐际动力创始人兼 CEO 张巍第一次做客「高能量」播客节目时，人形机器人才刚开始热。

两年后，他再次坐回话筒前，已经走过了从学术到商业化的几轮蜕变。这两年里，具身智能从一个相对窄众的技术方向，变成资本市场最拥挤的故事之一。融资竞赛、估值水涨船高，IPO 排队，“世界模型”“机器人大脑”成为每个商业计划书里的标配。

但张巍的不少判断都反共识：这个赛道不是太卷，而是人还不够多；人形机器人不该进工厂；模型不等于大脑，大脑是一个多种模型为引擎的Agentic 操作系统。

这一期产业观察，峰瑞资本创始合伙人李丰再次邀请张巍，聊聊这两年具身智能行业到底发生了什么，以及一个从科研走到 CEO 的人，在过去几年里升维最快的是什么。

他们聊到的主要话题包括：

为什么具身赛道不卷，反而“人还不够多”？
人形机器人到底该不该进工厂？
“世界模型”到底是技术突破，还是 VLA 的拓展？
把物理公式塞进模型，到底有没有用？
会存在一个大一统的机器人通用模型吗？
模型不是大脑，那机器人的大脑到底是什么？
教授创业的五次蜕变，最难的是哪一次？

以下为对话实录，希望能为关注“具身智能、机器人、世界模型”的创业者和从业者提供一个新的思考角度，供参考。也期待能与更多创新者一起同行，欢迎投递 BP 至 bp@freesvc.com

互动福利：

假设你有一台机器人，但他反应总是慢半拍，你觉得让它帮你做什么事情时，你会因为它的“迟钝”而瞬间抓狂？欢迎在评论区和我们聊聊你的脑洞。截止 2026 年 5 月 30 日 17:00，脑洞最大的 3 位读者将获得《从头开始构建大语言模型》一书。

从零构建大模型

[美] 塞巴斯蒂安·拉施卡 / 著

覃立波、冯骁骋 / 译

中国工信出版集团、人民邮电出版社

“不卷，是人还不够多”

李丰：过去这两年，机器人没有最热，只有更热。每一次大家都觉得已经很热了，结果还有更热的事情出现。热里边有融资、有关注度，也有政府、行业和民间的热情。热无疑会带来很多好处，好处之外，这两年里，你的焦虑和困惑主要是什么？

张巍：先说行业变化。这个赛道里，大家都觉得很卷，我倒觉得不卷。我真觉得还不够多人。

李丰：你说不卷，是因为大家还没有同质化，还是因为大家在同一个问题上还没有收敛到相似的解决方案，然后开始拼效率？

张巍：因为大家总是带着互联网垂直赛道的视角来看，要看规模，相信要做第一名才能活下来。带着这个问题去看赛道，所以总会说谁会留在牌桌上、谁会赢。

但具身这个赛道，我个人觉得不能泛泛类比某一类垂直公司，它应该类比整个互联网。互联网可以有美团、阿里、字节、腾讯，垂直领域还可以有滴滴、抖音、快手，非常多。这里的机会非常大，每个人只要好好干，我觉得都能活下来，所以不存在一个卷。

李丰：那你这么说，我觉得它更像新能源车。从 2014 年以来，大家一开始质疑的是新能源车本身行不行，后来又质疑造车新势力行不行。10 年后的今天，在硬件相关的载体里，至少阶段性来看，大家都有一个生存之地。不管是造车新势力、传统企业重新开始新能源之路，还是合资车转自主品牌、燃油车转新能源，虽然一度不被看好，但大家都各自开出了各自的春天。当然它也带来了残酷现实，每年流行的新能源车牌子和产品都不太一样。你觉得机器人最终会像这样吗？

张巍：具身比新能源车这个赛道大特别多。新能源车本质上是完成从 A 到B 的出行这件事就行，而且是面向 C 端的，里面可以有很多玩家，还包括一些传统的车企，车的形态还可以发展的还有商务车、商用车、卡车、运输车，看移动底盘的话还有物流，广义上都是车。

但具身比这个广度还要广得多。所以聚焦新能源、满足出行 to C 的这个领域，它是一个相对垂直的赛道；具身是比这一个单一的使用者目标要多非常多，它是一种血液，可以渗透到各行各业，把具身智能放到车里，大家也管自动驾驶叫第一个落地的具身智能。所以，我觉得这里面可以发挥的空间是巨大的，现在远远没有收敛到一个具体目标的时候，具体目标下的用户也是一样，还没到大家去卷性价比和价格的时候，因为功能都还没有完全实现。所以整体来讲，这个空间，我觉得非常大。

李丰：那我们换一个具体的、可能会有困扰的问题。今天大家有个融资竞赛，要融到多少估值以上、多少钱以上。你是比较早进入这个行业创业的，今天大家开展融资竞赛，你拥我挤的过程中，会给你造成焦虑和困扰吗？

张巍：会有，但不太会是焦虑和困扰，因为我们在这件事情上还是有自己的原则和本质。融资 PR 这块我们相对保守，坚信价值和估值应该成一定比例，这才是健康的发展趋势。

那为什么我们也要去做融资？本质是未来在这个行业发展，资金资本化是一个重要能力。它不是可有可无的。这个赛道需要持续投入，企业以后规模化交付的过程中需要大量资金，从这个意义上说，融资是必要的。但也不是说，你想不清楚干什么，就先拿一大笔钱融进来再说，这不是我们的风格。

人形不进工厂，不断长出APP，走向家庭

李丰：大概一年以前，机器人到底为什么是人形、为什么是机器人、将来要干什么，这些问题众说纷纭。那时候你提到你们努力实现的机器人技术方向，还是让它不要下工厂打工。要不要下工厂打工这件事，从今天的技术和公司变化来看，角度会发生一些变化吗？

张巍：分两个方面看，有的是个人的选择，有的是我们对行业的判断，这两件事并不一致。

先说个人选择。我抛出过一个口号：人形不进工厂，但不是所有机器人不进。一定会有机器人服务于工业，具身也一定会在工业领域得到发展。但两条腿的人形，我们公司不把它定位成工厂里的效率工具。

我们有个 slogan 叫 "Serve people, not process"。人形机器人是服务于人，而不是服务于生产流程。它本质上不是性价比最高、效率极致优化的产物。工厂是给机器设计的，我们的人形是在给人设计的环境里为人提供服务，这是定位差别。

这不是一个对错的选择。很多形态的机器人，比如机械臂、带触觉的新型操作方式，是适合在工厂落地的。工厂里枯燥复杂、危险有害的工种，需要具身去改进，我们也不排斥。但两条腿的人形机器人，我们觉得没必要进工厂，我们也是这样去选择的。

全尺寸人形机器人Oli基于实时地形感知上楼梯

李丰：我们把这个问题再拆开一层。具身长得跟人像，它最后的功能性可以分成一体的“胳膊加腿”、更偏胳膊的操作，和更偏腿、走来走去跑来跑去的运动能力。运动会刚刚举行完，主要展示的是跑来跑去的能力。从今天的角度来看，考虑人们对机器人的关注热度和技术应用的演进，不同的上下肢能力更有可能在一段时间里分开迭代和应用，还是更有可能混在一起迭代和应用？

张巍：具身智能本质上能承载这些智能的终端载体。形态上有人形，也有把人形切一半的，我管它叫轮椅型机器人，上肢坐在轮子上的；还有只有下半身的，四足狗也好，双轮足、双足，各种形态都有。

我们做两类。第一类是通用人形，两条腿、两个胳膊，只把这一类叫人形。

为什么需要这个人形？我有一个公式，Maximize number of tasks over form factor，也就是在不改变形态的情况下，让能完成的任务种类最大化。你能服务的人类需要的任务种类最多，人形是唯一最优解。我算过，大概达到三四个类型的任务，就必须是这个形态，没有别的解。

比如想要穿过大楼的闸机口，想要取快递或者把快递放在货架上，这个构型都必须是人形，没有任何其他解，这就是最优解。而这个最优解的 objective function、cost function 是什么？是任务的种类。

其他形态，比如双臂、单臂、四足，我管这个叫 maximize over ROI，或者 maximize over 效率，也就是在某种任务限定下最大化效率。四足在某种情况下可能是最好的，或者单臂、双臂最好都有可能。所以我们还有一款产品线 "TRON"，它是基座，通过一个 SKU 组合的方式，可以达到几乎任意形态。用人形 cover 一个最通用的单一形态，用 "TRON" cover 所有其他专用形态。

李丰：作为投资人，我再好奇一下。这个行业仍然处在非常热的阶段，但最后总得落实到应用本身，产生商业价值。当然今天已经有一些商业价值，比如表演。在可见范围内，你觉得它的商业和商用价值会在其他什么地方开始呈现和兑现？

张巍：人形商业价值的展开有点非共识，要不然也没初创企业什么事了。我觉得它是逐渐长出APP的过程。

当前的表演是一种应用。客户拿它可以赚钱，它被使用起来了，不只是有sell in，还有 sell out，这件事很重要。

下一个我管它叫“动口不动手”。你看表演替代演员，演员是很值钱的。接下来不要总想着让它去干活、替代工人。其实它“动口不动手”，替代聪明人的价值更大。商业服务、导览、导购，这些领域都可以。

逐际动力全尺寸人形机器人Luna

它是一个装着语言能力的可移动顾问，有一定情绪价值，也有新的体验价值。它不改变物理世界，只交互。

我分三个阶段：无交互、弱交互、强交互。无交互就是自己比划，比如表演，按一下它就比划一圈。弱交互是语言和动作协同，动口不动手。你先看什么能被替掉，站在那里一天基本不用干活，但要动口。AI 的变革本质上是替代脑力劳动者，尤其是 mediocre 的脑力劳动者。强交互就要看某个技能的数据演进方式，包括某一类技能的预训练、后训练，整个数据成本和它创造的商业价值能不能打平，找这个方向就行了。我们也是抱着开放态度去找这种——你预训练也得会，后训练也得会，但你要摸索这个商业方向，单一技能下它能打平就可以。

李丰：我插一句。其实有很多相对新的事情，它的落地方式确实不完全跟大家预测的一样。比如拿表演举例。2015 到 2017 年的时候，投资行业非常激进地投了一堆无人机企业。那时候大疆很火，估值无穷高。后来大家觉得无人机虽然很火，但是很多场景没法用，第一个能批量应用的就是无人机做表演。刚好那时候也开始禁烟花爆竹。今天大家习以为常，无人机表演确实成了一门生意。

再往下，无人机后来通过表演提升了几个能力：飞控、协同，从几十架变成几千、几万架，成本也被打下来。加上新能源车产业链的发展又把传感器成本降低了一次，以及模型演进使控制系统迭代了一步，最后才能进入小B和偏消费者市场。同样的逻辑往下演绎，随着世界模型、自动驾驶技术的发展和成本的进一步下降，最后无人机确实能 to C。这个事可能比当年想象的多花了十来年，才等到软件硬件都迭代到这一步。机器人也许也会按照这个逻辑进化。

张巍：我觉得这个时代不能只是算怎么替人 ROI 这个事，增加一个体验的维度是非常有价值的一件事，但你要只表演，我觉得确实上限是有限的。如果像我说的它是有众多 APP 前的一步，我觉得它是 make sense 的。反正人形我们不进工厂，最终往家庭走，我觉得也是最大，也是最 exciting，也是最适合的。家里的任务，你要知道，一周洗不了几次衣服，本质上是多样性任务，不是专项型任务，所以人形这样比较好。然后商场、酒店、公司这些商业领域，也会是它最早落地的地方。

给“世界模型”去魅

李丰：最近半年最热的机器人新故事是世界模型。（延伸阅读：）

今天所有机器人公司在跟投资人讲的时候，都必须带上这个词。甚至很多跟机器人不是很相关的行业，也要把这个词放进商业计划书的一部分，比如说“我是将来世界模型中情绪的部分、情感的部分、记忆的部分”。大家都在泛用这个词。从机器人从业者和创业公司 CEO 的角度，你怎么看这个词？

张巍：总体来说，我觉得世界模型是一个值得大家期待的、具身数据 scaling law 突破的新方向，但目前还处于比较初期的状态，很多定义都相对模糊。

我先说我对它的理解。首先呢，我们谈到世界模型这四个字的时候，第一个要做的事就是对这四个字去魅。世界模型本质上就是一个“模型”，“世界”是修饰这个模型的词。从本质意义上讲，我们从小到大接触过的所有物理的、非物理的模型，都是某种意义上的世界模型，只是世界的大小、开放程度、能观测到的物理变量不同而已。

既然是个模型，它基本上就是根据当前系统的状态，也就是 state，和我们潜在能影响这个世界的行动，也就是 action，来预测未来一段时间这个世界的状态，以及状态对应的输出，也就是 observation。

具身里的世界模型，由于数据原因，observation 目前还是以视觉为主。一般是预测完成某项任务时机器人观测到的视频信息，所以它天然跟视频生成模型技术相关。

但大家发现，只预测未来的视频是不够的，因为完成不了任务。所以现在有一个新词叫 world action model，也就是世界动作模型。这个模型要同时预测未来完成任务的视频，以及这个视频所对应的行动 action，它是传统 VLA 的一个升级。

为什么火？技术层面我觉得不是什么重大突破。本质上是大家看到传统VLA 在数据 scaling 方面有局限性，世界模型给大家看到了新的数据 scaling 的希望。技术层面就是 VLA 范式的拓展。当然我个人觉得 VLA 它的定义可以更广义一点——传统意义上的 VLA 它就是用 VLM 来去做 backbone，world model 把 backbone 换成视频生成技术。这样训练机器人操作时，可以利用带时序信息的视频数据。相比单帧静态视觉信息，时序信息更能表达世界的物理规律。同时它作为一个潜在 scaling 或泛化的一个来源，视频数据肯定比真机数据更容易 scale，也更容易采集。

所以大家现在会看到非常多的公司在采人类操作视频的数据，尤其是 ego-centric 的视频数据。那不光是它容易采集，同时我们也知道互联网上有很多历史的这种视频数据，那大家也希望都能把它们用起来等等原因，技术上应该不算是什么重大突破，不然也不会有这么多人都会做。

逐际大概在2024年中期就开始探索用视频数据做操作模型的预训练，2025年初发了一个叫 VGM，video generation motion，视频生成动作，是一个典型的 world action model。去年我们还有一个很有趣的、也不错的会议论文和 CoRL 的一篇论文叫 GVF Tape，是一个非常有趣的、数据量要求不高的 world action model，当时我没用这个词，因为 NVIDIA 还没造出 world model 这个词来。

李丰：跟世界模型有关的一个问题是，它有很多不同分支。有一类是在模型中加入更多对物理世界进行预测和表达的数学公式，或者叫物理公式。也就是用人类过去对物理世界各种物理量（如重力、流体、柔体、摩擦、温度、电、质量、磁）的理解，把其中一部分用在或者加入模型里。这件事你怎么看？

张巍：这个问题目前是无法证伪的，也容易引起争论，我只谈我个人的角度。

首先要有统一的原则：加这些所有的东西，本质上都是在加数据。物理公式和我们训练的 neural network 一样，都是数据的压缩。我们认为牛顿定律也是所有运动数据的一种压缩和表征。加牛顿定律进来，本质上是把运动数据以最简约的方式加了进来。

以这种统一的数据观来看就比较清晰。那就是两件事。第一，加这些物理规律的数学公式，是不是带来新的数据增量，或者更本质一点，信息增量？我们对这个世界的理解的信息量有没有增加？第二件事就是说，它可能增加了信息——不增加我们就不干这事了——我是不是会很好的能够运用到这个增加？这本质上是一个 alignment 问题。这些其他数据的表征，和现在世界模型的表征，能不能很好地对齐？对不齐的话，那可能会起反作用。

从第一性原理看，加入这些物理规律的数学公式肯定是能带来新信息的，尤其是新模态的信息。人类抽象物理规律的过程中使用了大量非视觉的，比如电的测量、磁的测量、力的测量等模态信息，所以加它们，本质上是把这些模态的表征加了进来，是一个增量。

但最关键的问题是，这些表征很难跟世界模型的数据进行对齐，这是最难的。所以大部分用物理公式的方式，本质还是把它做成仿真，去生成更多容易跟视觉观测数据对齐的数据，再用这些数据训练世界模型。但是我想说这种对齐还是挺难的，整个 Sim to Real 就是在做这样的对齐。总体来说有用，但想很好地用起来，把物理规律跟世界模型对齐，这件事非常有挑战，没有想象中那么容易。

李丰：今天有一个非常热门的创业方向，跟这个现象同源。今天的数据，尤其是带物理量的数据，历史上几乎没有很好地积累过。所以做数据采集、加工的创业公司，变得无比火热。作为一个需要数据和迭代模型的具身公司，你怎么看这件事？

张巍：生产具身模型我认为跟制造业没什么区别。数据本质上是原材料，训练是产线，生产出来的是模型。模型本质上是数据经过采集、处理、训练，最后沉淀出来的表达方式。产线源头就是数据，经过预处理、来料检测，然后训练，最后给你一个模型。从这个角度看，各种模态信息作为原材料，丰富程度非常重要。

/ 04 /

模型不是大脑，大脑是操作系统

李丰：今天还有另外一个时髦词，就是“机器人大脑”。至少有一部分高估值企业像你们这样，都必须说自己要做的事情是机器人大脑。但这个词的定义太多样化了。你怎么看这个词？

张巍：我现在对它有比较明确的理解，当然这个理解还在不断迭代。

跟大部分人不一样的两点：第一，我不觉得模型是大脑，模型不是大脑。第二，大脑也不是模型，大脑是个操作系统，operating system，这是我的定义。

为什么我们会有 COSA Agentic OS？大脑是一个操作系统，它不光要管理记忆、存储、思考，它是个 agent。我认为它是个 Agentic OS。它要调用各种模型，包括 VLM、LLM、世界模型和各种 VLA 模型，才能完成一个任务，它也要调用很多工具。所以我们不觉得通过堆操作数据可以训练出一个大脑。本质上，它是在模型能力之上的一个操作系统。

李丰：我觉得普通听众听起来可能会觉得有点混淆。大脑是一个大模型层上的东西？

张巍：不不不。COSA 是一个大脑，但 COSA 是基于大语言模型的，它的能力也取决于你用了哪个模型。以前讲这个非常容易混淆，甚至引来非议。现在 OpenClaw 出来后，好说一点。前段时间傅盛也说了，大模型不是大脑，OpenClaw 才是大脑。我们也是这么认为的。Agentic OS 是一个大脑，大脑是一个操作系统，各种模型是脑思考、完成任务的各种工具和技能。

很多人对“技能”的理解相对比较狭义，比如机器人拿、放、拧瓶盖这些原子动作技能。但我所提的技能可以非常广。整个自动驾驶虽然现在还没实现，如果实现以后，那个模型对应的就是一个技能。这个模型跟人的脑又不是完全等价的。一个人可以很聪明，非常优秀，但就是没掌握驾驶这个技能，这也没问题。所以脑的本质还是在模型之上的一个操作系统。

李丰：这个对大部分人来讲可能有点反直觉。大部分人认为模型是大脑，COSA是操作能力或者操作能力的延伸。从你这里正好反过来。

张巍：别的我不敢说，我们对机器人大脑有一个非常清晰的架构理解，现在比较清晰，最近一年左右逐渐收敛和成熟，是一个三层架构，跟别人不太一样。

逐际动力三层技术架构

底层是小脑基础模型，小脑管运动控制，这是 System 0。它就是动，你可以认为它是个僵尸，没脑，让它怎么动它就怎么动，它得能完成你要的动作。对传统机械臂来讲，这个比较简单，传统方法就能做，但人形需要一些AI能力。

再上一层是 Humanoid VLA，人形视觉-语言-动作模型，这是 System 1，是一个高阶技能。运动必须要跟环境和任务相关，要能把眼睛看到的，和我能指挥的运动结合起来，把这件事完成。这是中间的 VLA 技能层。

再上一层是 System 2，就是 Agentic OS。它是以大模型为引擎的整个 Agentic 系统，就是我们的 COSA。

为什么这么分？你可以想一个场景：一个人躺在病床上瘫痪了，非常smart，他一动也不会动，但他能想。他有没有脑？他有脑。但他会不会动？他一动也不会动。如果我赋予他一个技能，打通那个经络，他就可以去拿一个水杯了，这就是赋予他一个 VLA 的能力。模型给了这个人一个技能，那他的脑应该是什么？我觉得是一个 OS。

再举一个例子。我现在要去楼下买杯咖啡上来。这件事情我要决策，现在有没有时间，我要做这个决策。我要出去，调用我开门的技能，调用定位导航。出门以后，我还要用一下 GPS，这个时候我不可能再训一个模型把 GPS 也训进去。所以整个组合思考，我觉得就是上层 Agentic OS 需要做的工作，而它的智力和成熟度，取决于大模型的进展。大脑最核心的还是语言模型那个东西，因为语言是思考最本质的东西，人类的思考是通过语言来完成的。

现在人形机器人可以跳舞、翻跟头，这种是一个技能，是一个事先录好动作的 Replay 。但你要让人形机器人真正能干活，“脑能指挥到身体”这件事是需要基础模型的。它不能是我看到这个杯子想这么抓，然后回去训练一个礼拜才会这么抓，那是不行的。这个需要一个不是预先编好动作，而是要什么动作就能完成什么动作，这个基础 foundation model 我们投入了很多时间、精力和数据去做，这个我觉得对于人形机器人来说是重要的。

李丰：所以这个 foundation model 更多的是跟运动控制有关的？

张巍：对。小脑的基础能力，就是它能执行你要它做的所有动作。你要什么动作，它就能给你执行出什么动作。

这跟语言的 foundation model 也是差不多的。早期的话，基本对话是预先安排好的，你问我"你好"，我回答"我在"，这种是一个预先安排的，这不是基础模型。要能对任何输入产生你想要的回复，这才是。运动的基础模型也是一样。你给我一个参考轨迹，可以认为是一个 prompt，那我能够完成这个动作。这个对上层 VLA 构建和最终完成任务来说，底层能力比较重要。

李丰：我们把技术问题先跳开，讲点别的。现在估值高的这些机器人公司都在准备以不同形式筹划进入资本市场，不管是A股还是港股，你们也在其中之列。但是从投资人视角看，如果是一个很大的热潮，它往往是以这个热潮的标志性公司上市，或者将上市也或者刚上市，作为泡沫这一轮热度的终点。不管你拿 Facebook，还是阿里巴巴在 2007 年为例。这些智能机器人公司假定在今年底、明年陆续登陆资本市场，是这一轮热潮的顶点，要怎么办？

张巍：这个行业可能跟其他行业不太一样，跟新能源汽车也不完全可比，但你刚才举的例子，可能更像新能源汽车上市的那个阶段。比如蔚小理上市的时候，并不是这个行业成熟的时候，反而跌了下来。等技术稍微好一点、大家能接受它们在资本市场的存在的时候，再上市的公司其实有一个资金聚集效应，能踩到这个浪。

李丰：换个问法。假定某一时间点，这个行业今天的热度降低了 50% 甚至更多，作为这个行业里的公司会怎么办？

张巍：各个行业都是一样的答案。但具身有个好处，我管它叫“比大模型的上限更高，比大模型的下限也更高”。上限的想象力大。做一个真正能通用的人形机器人，上限不比一个模型公司小。第二点，它也不像模型公司那样，一旦一代模型没跟上你就彻底废了。它总能找到垂直领域去用。所以在这里面，做好本分、遵循真正商业规律、带有一些技术突破的公司，都能跑出来。当前阶段我相对乐观，下限高，上限高，因为现在大家投入还没有到那么高。

以模块化为设计理念的多形态机器人TRON 2

/ 05 /

落地不用等通用模型，会剥鸡蛋不代表会开车

李丰：这些不同类型的数据，最终会使得机器人在之后 1 到 2 年变得更“垂直、受限”，也就是有边界条件、在特定场景里更快应用落地，还是更不受限，在泛化场景下更快进行模型升级和迭代？这两件事可能同时存在，但今天看更偏向哪一个？

张巍：两个是同时进展的。但我有一个不太一样的观察：具身模型落地的过程中，无论是 VLA、VA 还是世界模型，具身的落地不能跟大模型那种“先通用、再专用、再应用、再落地”的模式走。至少这是我之前的判断，现在我们也在践行。因为各个技能和各个任务之间，数据的相关度、数据的需求是非常不一样的。

李丰：能不能举个具体例子，为什么 A 和 B 的数据是非常不好相关和通用的？

张巍：语言数据是个通用模态。你写律师信还是写文稿，对整个通用模型都有帮助。但我要开车自动驾驶的数据，和我剥鸡蛋的数据，这俩放在一起训，现在还不知道会怎样，反而可能是有问题的。

在跨技能之间的数据 pipeline 里，在你不了解数据之间关系的前提下，期待堆数据来产生涌现，是一种刻舟求剑的方式，在我看来。所以我们觉得需要通用模型的能力，但这个能力是慢慢长出来的。我管它叫“通用模型与场景数据的飞轮”。在一定通用模型基础上，在垂直领域尽量去收集数据，甚至去落地。落地过程中收集到更多数据，再反哺通用模型，通用模型能力就是这么长上来的，而不是先要特别通用，然后再去落地。我个人 so far 看的是我叫通用与场景数据的飞轮，我们现在的基本也是践行这个战略。

李丰：如果最终一个通用模型按照这个飞轮迭代，最后变成一个更通用的机器人通用模型，那它的能力听起来远超过预测下一个字词，也远超过语言模型所需要的能力。那这个模型是不是可以理解为比今天的语言模型还要大很多倍，而不是今天这种几千亿参数的概率模型？

张巍：好问题。如果是那么通用的一个模型，会很大。

李丰：如果这么通用又变成这么大，将来在机器人身上用的时候可能会有一些挑战。参考今天大家用大模型，到时机器人身上堆的芯片数量、功耗，为了干一件事消耗的能源和所需要放在它身体里的计算资源，可能会超乎想象，因为要运行这么大的一个模型，还要实时性。你不能剥个鸡蛋，剥第一片的时候响两秒钟，第二片又响两秒钟，等剥完之后，我就应该已经不太饿了。所以它还要求快、要求实时，那就很难妥协了。

也许那个时候芯片也能进步，也许那个时候可控核聚变也在发展，假设随身可以带一个无穷小的可控核聚变。当然这都是科幻小说了。但听起来会有这样那样的问题和障碍。所以如果不是这样的话，会是别的什么解决方案，或者可能的发展方向？

张巍：我始终觉得是个技能。

李丰：技能是怎么被定义的？

张巍：开车是个技能，我可以不会开车，但我依然是有脑子的；剥鸡蛋也是个技能。这个技能要单独的训练数据。我不会的时候也要学。它不需要一个通用的、什么都能干的模型，它需要各种对场景落地有帮助的技能。

现在大家看不到的是，这个技能创造的商业价值，创造这个技能所需要的数据成本还有点打不平，或者说大家还没找到某一个垂直领域里能打平的案例，大家都在找。

李丰：那你这么看，自动驾驶大概也是这样。

张巍：它就是一个具身的技能，它不是一个大脑，它只是人脑的一部分，一个技能。你会剥鸡蛋，不代表会开车。

李丰：但今天的大语言模型本质上也是一个概率模型，它对词的预测是概率预测过程，所以我们并不能讲它是一个语义理解过程。它真的理解了这些内容吗？

张巍：什么是理解呢？它的理解跟咱们所谓的理解，不一定是一个理解。

如果把理解作为一个抽象定义的话，只要它能预测跟你下一个所做的事情类似或者一致，那就可以叫理解。可以做这么一个抽象定义。所以理解是很难定义清楚的。咱俩对一件事的理解，取决于我们对这件事所衍生出的东西的判断，以及决策的数据。

李丰：我觉得这里边最大的差别可能是，人想要的理解，是用极少的感官或者复合数据，达到对事情的抽象。但今天的语言模型因为是概率模型，要用超级多的数据来完成预测。

张巍：我不知道它要的数据是不是比我们多。我们其实进化了好多万年，你的脑子进化所用的这些数据，是沉淀了这么久的。我们一代代传下去，传给小孩就是通过一个 pretrained 的 model，他生下来再去学习。本质上，出生时候的脑就是一个 pretrained 的模型。这个神经网络历史上的数据量，跟大模型比是怎么个比法？因为我们每天这么聊，数据量也很大。

它的信息比我们还多。对，它是整个人类的 union。

李丰：从刚才听起来，逐际现在的产品大概分成软硬两层。硬的那层是可以多用并专用的，既可以当胳膊又可以当腿的同一套部件，同时有一个搭载了整体功能的人形。软的部分分三层，一个是更像大脑的 Agentic OS，调度使用模型和技能；另一个就是下面那一层，用新的和原来的数据训练的技能模型，底层就是能够在物理世界执行任意动作的运控基础模型。

张巍：对，我们最近也开源了一个东西，没跟丰叔说过，叫 FluxVLA Engine。我们没有把 VLA 模型开源。我觉得模型当前是用不起来的，开源对融资有帮助，但模型参数意义可能有限。我们授之以鱼不如授之以渔，把训练大模型的基座模型和 fine-tune 的整个架构开源了。

我们把“模型的生产线”开源。因为最终落地的数据和模型是属于落地垂直场景那个人的，他们需要的是我们的硬件平台和这个开源架构，他们自己要去收数据。

FluxVLA Engine工程框架图

/ 06 /

“输不起，就赢不了”

李丰：你既是在国外科研较长时间，又在国内从事科研一段时间的老师。进入创业这个行业，在整个角色转换和公司从小变大的过程中，经历了很多事情，有什么感受、经验和教训？

张巍：那特别多，全是坑。我有一个总结，教授创业需要经过五次蜕变：从学术到技术，从技术到工程，从工程到产品，从产品到商业化。

最早期的教授本质上以学术为荣。学术的本质是以一个 idea、一个想法为骄傲，发个 paper 就很高兴。然后到技术阶段，把 idea 呈现在 demo里，以这个为荣。从技术到工程，是把一个技术稳定可靠地实现，以稳定可靠为荣，这就跟 Demo 没关系了。从工程到产品，是从可靠地实现一个技术，到一个能满足用户价值的产品出现。但产品卖得越多，也可能赔得越多，所以最关键还是商业化。

至少我个人来讲，是经历了几次蜕变，要否定自己，再否定自己。

李丰：否定的概念是指转换过程中，原来这么想的事情要完全改，还是原来想法里要加一个非常重要的新权重？

张巍：是加新的维度，升维。原来那个维度太小了。在创业这件事上，学术是不重要的，技术也没有那么重要，最终商业是重要的。围绕你的商业目标，你需要什么样的技术，你得有这个能力。

当下这个阶段就像我刚才说的 VLA 找场景。你既要懂商业设计，也要对技术未来的预判相对准确，才能在未来的某个焦点上找到交集。因为它不是成熟落地的商业化，所以要对技术的轨迹曲线有预测，然后在交集上做选择。这需要一些技术实力。

李丰：那这不就是我们投资上常说的，一种是拿着锤子找钉子，一种是为一个合适的钉子，把锤子变成最适合砸它的样子。

张巍：对。当下最大的锤子是 AI。这个 AI 范式会激活很多可能性。本质要找到一些可能性，用这个技术趋势和技术的 power 去解决可能的商业价值。

回到刚才的蜕变，蜕变过程中我最大的坑，是对组织的理解。每一个变化都不是自我否定这么简单。你选的人、用的人、整个组织都要跟着迭代。你只关注技术的时候，你选的人和组织方式，跟你关心工程、关心量产时都不太一样。所以变化不是我自己变了就行，你还得有能力驾驭整个组织进行这个变化。你早期选的人和后期不太一样。

李丰：我们也看到你们在过去 4、5 年里经历了一些组织结构和人员的变动，肯定既有经验又有教训。

张巍：其实我们早期换了挺多高管的，很早就换过三四个。后来你会发现，成长就是说不要把自己看得太高——人员的选择是双向选择，大家觉得不合适要及时说出来，把这事情做好就比较好。所以这事我现在是比较坦然。最近有人提到张力离职——这是去年的事了，当时就谈好了，他可能重心放在北京，逐渐淡化公司管理，但我们相互还是比较认可，过渡得很 peaceful ，他后来也当了一段时间顾问。所以这事其实早就发生了，对我们没什么大的影响。反而是在更早期，出现这些问题的时候，是非常痛苦的。

李丰：第一次经历、第二次经历都比较痛苦。

张巍：不好意思说出来。尤其是知识分子，面子过不去。后来就比较坦然了。反而我觉得人才没有什么好坏，都是合适不合适，而且要适合当时公司的战略和匹配，这些比较关键。

李丰：因为既有互相需求和能力问题，其实还有时间跨度问题——合适通常不一定是一辈子，也有可能就是这一年、这两年。

我岔开问一个别的事。我们也投了非常多老师相关的创业。老师出来的创业者，在最开始的一个阶段，或长或短，半年、一年，有可能是两三年，容易出现一个共性现象：容易理想化，希望所有的事情、人和功能都能像解题一样一步到位。比如缺一个 A 技能和职位的人，最好就能找一个完全的A放进去，从此以后这件事就高枕无忧了。

张巍：我也经历过。我现在偶尔在某些不懂的方面，还是会有这种 wishful thinking。你希望找到一个人，然后你就不用管了。但其实你是要兜底的。

李丰：还有另外一个小挑战。有的老师创业的时候，更希望一上来找一个 CEO，这是更不容易的一件事。

张巍：这跟老师自己的定位相关。如果他就想做一个技术输出者、早期贡献者，找一个职业经理人可能也行。但如果他是大股东，过早找一个职业经理人，在 business 没有完成从 0 到 1、整个商业都还在摸索的时候，这是比较有挑战的。

李丰：或者说从某种意义上，即便要找 CEO，也应该先找一个 COO。至少有一个可以观察、调整、配合，和向上升或者向下降的空间。CEO 顶到头就没有别的职位了，但凡有一点不合适，就没有调整空间。

张巍：在一个高速发展、未完成从 0 到 1 探索的赛道，第一大股东就是 CEO。不管他自己叫不叫 CEO，叫其他人 CEO，本质上是自欺欺人。如果是成熟业务，比如我开一个奶茶店，那无所谓，可以找个店长，成熟店长。

李丰：从现象来讲，大部分情况下，能相对既称职又起作用的人选，是在一个过程当中慢慢展现或者遴选出来的。他是慢慢变成那样的，不是第一天一步到位就成为那样的。

张巍：从现象来讲是的，他是慢慢发生的。但本质上是创始人或者 1 号位对这件事的认知问题。如果他非常清楚做成这件事需要 ABCDE，每件事上的人需要具备哪些能力都能搞清楚，那他选对人把事干成的概率也是有的。

我总结的是，人总会在自己不懂的领域里被魅惑，也最容易被魅惑。希望一步到位、被一些东西蛊惑去做选择，本质上是因为他对整个商业里缺的维度比较多。也有一些成熟企业家特别容易在技术和学术上被魅惑，有一种技术崇拜。懂的人发现这人不 work。所以人会在自己最不擅长的领域里最容易被骗。

李丰：你刚才说组织能力是最核心的。最近一两年具身这个行业又非常热，年轻人大量涌进来。你们怎么想？

张巍：我们希望组织变得有活力，多招一些年轻人，多招 AI 原生的一些人。我们对“什么是年轻”是有自己的理解，不一定非得是年龄。大家拼命说00 后、90 后做 AI，我们觉得是有一定道理的，但还存在像我们这种年龄虽然大、但有少年心、少年气的人。

李丰：听起来更多的是心态和思维。

张巍：我觉得有一个不会错的——人年轻的时候确实很多东西是自然而然的，他的开放度，他的想象力很大。但我后来发现最关键一个点——开放心态的人很多，有激情的人也很多，对一个相对年纪大的人，最大的限制其实在于成就感。

李丰：有可能。

张巍：他以前管过几百亿的生意，让他做个 100 万，他找不到那个成就感。但年轻人没干过这事，他就很有动力——这件事反而是年轻人特别独有的，是很难找到的。所以我们可以把年龄放开，我们所谓的"年轻"打引号，它包括开放、包括经历，且它的成就感来源是可以因小事而高兴的。我觉得这个是我们对"年轻"最大的一个体会。（P.S.，逐际欢迎更多“年轻”人加入，一起在机器人赛道，突破边际，欢迎点击“阅读原文”查看相关岗位）

李丰：最后作为结尾。作为一个经历了 5 年创业的 CEO 和 15 年以上研究的学者，过去 5 年里，你既经历了行业特别不热和融资寒冬，又赶上了行业最热的两年，回过头去看这 5 年，有什么特别印象深刻，或者今天最想描述的感受？

张巍：自己需要学的东西还是蛮多的。每升一维或者每增加一个维度，都是一个急速的、痛苦的过程。痛苦完了会有一个享受，但还没等享受完，新的挑战又来了。你发现自己还是差。这是一个最快速度的自我修行，了解自己的缺陷，迅速补充学习和迭代。每分每秒都感觉有挑战、有压力，但回过头看，整体上又是有成就感的状态。

我最大的一个体会，这有时候跟投资人说不太好，但从我本性来讲，最大的感受升级是：我意识到一个创业公司是可以死的。我觉得这是我最大的升维。很多人是听不明白的，但我自我感受最大。输不起就赢不了，必须能接受一件事情是可以失败的。

李丰：这个可能跟你刚才讲的，把自我可以变小一点，或者说我们叫EGO。EGO 大了之后，是不能接受失败的。EGO 小一点之后，是可以接受这件事失败的。把自己看得过于重要之后，是不能接受自己失败，或者别人眼中自己失败的。

张巍：就是一定要赢一个，那个劲上来，很多情况下是适得其反的。你也很难从容地去做很多决定，看不到很多世界。接受一件事情是可以失败的，接受一个公司甚至可以死，这件事我觉得是我个人最大的成长，没有之一。这是我对创业路程最大的一个 mark。不知道是第几年，第三年还是第四年吧，在挣扎中我发现这么一件事，我就觉得很开心。

李丰：或者我们说，把底线 push 一下，就能把上限 push 一下。

张巍：输不起，就没法赢。我觉得就是这样。

（P.S. 逐际欢迎更多“年轻”人加入，一起在机器人赛道，突破边际，欢迎点击“阅读原文”查看相关岗位）

互动福利：

从零构建大模型

[美] 塞巴斯蒂安·拉施卡 / 著

覃立波、冯骁骋 / 译

中国工信出版集团、人民邮电出版社

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.