对话卓驭CTO马陆：单一垂类难养活智驾公司，颠覆者的可能来自大模型 | 智车星球|算法|机器人|自动驾驶|真实世界

分享至

AI行业创新的核心就是快，只要比别人快三个月就赢了。通用大模型公司拥有更强的算力、资源与数据优势，一旦进入物理世界，可能改变行业格局。

作者|王蕊

编辑|西子

卓驭科技 CTO 马陆，并不急于反驳外界关于“卓驭只会做低成本”的标签。

在他看来，这个评价某种程度上并不算错。过去几年，这家公司确实把大量精力放在一件事情上——如何用更小的算力、更低的成本，让更多人享受智能辅助驾驶。

但现在，他更关心的是另一件事：当自动驾驶进入大模型时代，一家以工程效率著称的公司，能否通过算力、数据和分发体系的重构，走出一条不同于行业主流的高阶智驾路径。

马陆职业生涯的底色是“机器人的眼睛”。从科罗拉多大学博尔德分校计算机系博士毕业，到在大疆创新从 0 到 1 亲手构建车载研发体系，这位拥有 14 年经验、深耕自主移动机器人领域的专家，长期在研究一个问题，如何让机器理解真实世界。

而在他看来，大模型正在改变自动驾驶行业的竞争方式。

过去，行业比拼的是功能上线速度、感知算法精度和硬件成本；而当数据驱动成为共识、端到端模型不断扩张之后，竞争开始转向另一套体系：数据规模、训练能力、评测系统以及组织效率。

算法依然是塔尖，但基建与评测系统，已成为托起塔尖的基石。

顺着这种技术路径往下推演，自动驾驶行业正在出现新的问题——商业模式、竞争边界，以及技术范式本身的变化。

在这次访谈中，马陆系统谈到了自动驾驶、大模型与物理 AI 的关系，并提出了几个判断：

AI行业创新的核心就是快，只要比别人快三个月就赢了；
算法本身重要但也没那么重要，数据、评测、基建、算力（训练资源）如果跟不上，就算拿到最顶级的算法也没用。
自动驾驶必须走向原生多模态基础大模型，语言模态将成为理解复杂环境与实现全球泛化的重要能力；
乘用车自动驾驶模型仍然是一个极端垂类模型，很难真正养活以大模型为载体的物理AI公司；
丰田从100万台到1000万台花了48年，安卓从1台到1亿台只用了2.7年，自动驾驶真正的挑战，不只是技术，而是分发，没有标准化硬件平台，再好的技术也难以快速规模化；
自动驾驶最大的潜在竞争对手，可能来自行业之外，通用大模型公司拥有更强的算力、资源与数据优势，一旦进入物理世界，可能改变行业格局；
未来的竞争，本质上是通用 AI 在真实世界中的能力扩展，自动驾驶只是“没长手的物理 AI”。
AI时代真正的护城河：一是高质量数据，二是内部内部基建，包括训练资源，三是优秀人才。组织文化、组织效率、运营使命这些看似虚的东西，反而最重要。

以下根据智车星球与马陆的访谈内容整理，有删减。

AI 落地不再是少数人的“数学游戏”

媒体：最近很多公司强调模型能力已经超过人。我最近也聊到一个算法专家，他说极端情况下线上算法可能一个人负责一个模型就行了，算法岗位的人力会不会大幅减少？

马陆：模型其实分成非常多的环节，真正能做模型架构设计、建模的人是非常少的。比如像 OpenAI 这种公司，真正的拔尖者估计也就几十个。

在卓驭里面，我们算法团队可能四五百人，真正对模型做深入改动、提出开创想法的人并不多。更多的人其实是在搞数据挖掘、做数据精细化、做场景数据评测，以及做 AI 基建。

AI 最终落地和传统想法不一样了，算法本身重要但也没那么重要，数据、评测、基建如果跟不上，就算拿到最顶级的算法也没用。

媒体：目前大模型行业的技术共识是什么？差异点又在哪里？

马陆：我觉得这个行业已经达成了非常高的共识了，就是数据驱动、要端到端、搞大模型、搞数据、搞评测，其实方案都是一模一样。

那区别在哪里呢？第一，拼速度，如果一个以AI为核心的公司，他的AI不提升了，那就完蛋了；

拼公司的文化，公司本身对AI这事情的一个包容和一个态度，整个组织是不是很AI原生的组织；

参考语言大模型行业，目前国内、国外都有顶级的大模型企业，这些企业的大模型有各自的擅长、侧重场景。消费者对不同的模型在哪些场景更强，哪些场景更弱如数家珍。各个大模型厂商拼的还是迭代速度，以及谁能尽量保持些许领先。

媒体：那质变转折的关键标志是什么？

马陆：质变的关键还是得得有原创性的工作，通俗来说就是得有好点子，以及把它实现，一旦有一个点子成功了，整个行业一两天内就都会知道。

一方面因为大模型行业相对开放，企业喜欢做开源、发论文；另一方面行业顶尖人才流动很容易，而 AI 行业创新的核心就是快，只要比别人快三个月就赢了，这也促使行业人才和想法都不闭塞。

自动驾驶走向多模态大模型

媒体：如何看待大语言模型（LLM）和世界模型（World Model）两条技术路线的未来？

马陆：人类真正想要的大模型是 AGI，是既能做脑力劳动，也能理解世界、做体力劳动的系统。

从 2020、2021 年 ChatGPT 3.0 以来，大语言模型主要做的是脑力劳动，比如语言和文本相关的工作。但语言这个东西毕竟是人类发明的，如果以文本为载体，就只能做文本相关任务，没办法做真实世界的事情。

如果要进入真实世界，有一派就认为，要多模态，特别是要以视觉为中心。从世界模型角度看，语言只是一个模态。即使没有语言，只要能感知世界，也可以通过数据映射出动作。

媒体：有些玩家明确不相信 VLA 或多模态大模型路线，他们认为这条路线未必是正确的，你怎么看？

马陆：还是要看 VLA 的含义，它每年的定义都不同。如果是问开车的时候是不是得有语言去指导动作，那我们的看法是否定的。但如果 VLA 是指多模态，特别是训练过程中模态足够多，提升模型的泛化能力、通用能力，那我们的回答是肯定的。卓驭坚信未来一到三年，行业内公司如果不往原生多模态基础大模型的方向走，很难走得远。

媒体：自动驾驶海外泛化的难题，没有语言模态的话，用强化学习能解决吗？

马陆：普通人在海外开车不需要专门泛化几千公里、上万公里，核心原因是人类可以通过阅读不同国家的交通法，了解不同国家的交规要求，进而让自己的驾驶行为适配不同国家的法律法规。在这里语言模态发挥了关键作用，显著降低了人类在不同国家开车的难度。

媒体：自动驾驶里的世界模型到底是什么？自动驾驶行业当前模型与大语言模型的关键差距在哪里？

马陆：行业确实有很多争论和说法。我觉得世界模型最起码是对世界的本质有预测能力，看到一个环境，能对未来做出较准确的预测。而要构建这种预测，模型需要对环境的语义等有较高水平的理解。

如果看现在的自动驾驶行业，会发现它并没有大模型该具备的一些特征。比如把中国的自动驾驶系统拿到印度、欧洲或者非洲，大概率不能用，要泛化，要重新采集数据。

但大语言模型没有这个问题，全世界语言都能支持。因为它有更多的数据，是一个通用的大模型。

自动驾驶模型本质上还是一个垂类里的一个非常之垂类的模型。参数上，如果没有带语言模态，只是视觉模态，通常情况下连1个B（十亿）都到不了。而今天语言大模型没有700多个B，1100个B，根本就没人看。这说明大模型这个方向就会越来越大，参数越来越多。

媒体：能不能理解为卓驭相信的是规模越来越大、模态越来越多的一条路线？

马陆：卓驭相信的是通用的多模态原生大模型这条路线。

媒体：所以这里面必须要有语言模态？

马陆：我认为 L（语言Language）是一个很有帮助、很有用的东西，要保证它的通用性，就需要有一个 L。特别是在训练阶段，L 对于模型的泛化性、通用性有很大的帮助。但我们希望它是一个原生的大模型，而不是拿现有的大模型简单剪裁。

媒体：自研一个原生的多模态大模型，有什么要求？

马陆：这是一个很高的门槛，资源投入是夸张的。

媒体：理想当时说他们一年可能投 20 亿，之后每年至少 50 亿投入到这个方向。这个判断你怎么看？

马陆：我认为理想的说法是对的。就算只是继续叠端到端的方案，要把模型体验做好，你要让模型体验越来越好，你就要越来越端；越来越端，就要越来越大的模型；模型越大，就需要更多 AI 训练，训练费用很容易就突破十个亿。

“自动驾驶垂类养活不了AI公司”

媒体：不管是大模型公司还是智能驾驶公司，拼速度意味着领先三个月，这是不是说明研发投入是无底洞，回报又从哪来？最大的挑战是什么？

马陆：这个行业确实投入很大，但回报可以参考大模型公司。国内的智谱 AI、Mini Max 等大模型公司市值已经 3000～4000 亿港币，海外对标公司更是千亿甚至万亿美金起步。

大模型公司能有高回报，一是跨垂类应用容易，能颠覆大量以文本处理为基础的职业；二是 AI 分发渠道方便，有手机、电脑就能使用。而自动驾驶产品分发非常困难，因为没有标准化硬件平台。

如果没有快速分发渠道，就算今天做出 L5，从 1 台到 100 万台，需要多少年？丰田从年销量100万台到年销量 1000 万台花了 48 年。安卓从 1 台到 1 亿台只用了 2.7 年，所以分发体系非常关键。

媒体：端到端这条路线有没有上限？比如模型大到一定程度之后，能力提升就很小了？

马陆：从业务视角看，我们为了把自动驾驶这个垂类做好，从规则到半规则，再到数据驱动的端到端，会发现单靠这一个垂类很难养活企业。

语言大模型公司市值高，核心是能跨垂类应用，可以瞬间进入很多行业，因为模型足够通用。

而单靠辅助驾驶，一套软件卖给主机厂，一套卖几千块，就算一年卖一百万套，也就是几十亿收入。但训练端到端模型，一年可能就要花掉10亿，更别说训练基础模型了。

以数据驱动的自驾模型有一个特点，你要把一个垂类做好，就必须遵循数据驱动，把模型参数搞大，把能力搞强，走着走着，你会发现已经走进了通用大模型范式了，这是一个客观规律。

所以模型越做越大之后，就会出现一个选择：要么死守一个领域，要么跨领域。

所以我们去年宣布做空间智能移动机器人，也做卡车自动驾驶，现在六家头部重卡客户基本都拿下了，同时也在做 Robotaxi。我们认为未来一切“可以动的东西”，我们都可以做。

最危险的对手可能在行业之外

媒体：未来 AI 公司会不会形成数字世界和物理世界两个阵营？

马陆：短期内，十年内一定是分开的。但是放长到二三十年，两个阵营会合并成一个万能 AI，因为两者的技术方法本质上是一样的。

如果问我，最担心的颠覆者是谁，我觉得也不一定是我们的同行，说不定是大模型公司，比如国内的阿里、字节，国外的 OpenAI 等等。从技术范式角度，它们有算力和投入的优势，只是现在做的还是那种数字世界的，高价值的产品业务场景，但凡有机会，肯定会跨行的。

媒体：所以与其说是这个赛道的几个玩家互相赛跑，不如说是自动驾驶跟大模型公司这个阵营在赛跑。

马陆：18、19年，有很多那种专家垂类模型搞AI医生，后面这些公司都没了。去年年底除了个阿里的阿福，也能看病，也挺火爆的。很有意思的一个点是，一个通用的模型公司，可能就一不小心就做出了一个垂类上非常之厉害产品。

媒体：反正垂类就会被颠覆。会不会自动驾驶也是这个命运？

马陆：不奇怪，自动驾驶本质是解决移动问题，做着做着就会走向通用移动问题，只要遵循数据驱动的方式，就会进入大模型的范式，需要持续加机器、加数据、堆资源，而回报也会很丰厚，能在多个垂类落地。

现在国内某些刚上市不久的大模型公司市值，已经超过了国内所有自动驾驶公司的总和，核心就是通用大模型能解决的问题更多，当下也找不到一个垂类数字 AI 公司能打得过通用模型公司。

算力的成本账

媒体：自动驾驶公司有自研芯片的必要吗？

马陆：这取决于公司的定位、能力和投入，语言大模型公司里有一些做了自研芯片，尤其是训练芯片的定制化，因为一年芯片采购成本巨大，也有很多公司用公有云服务也做得很好。

那对于卓驭来说，现在我们确实还是用第三方芯片比较多，今年也会找一些优秀的芯片公司，做一些芯片的定制。目前不倾向于自己花大价钱研发芯片，但也不是 100% 排除这个选项，如果自研，会倾向于自研过千TOPS的大算力芯片。

媒体：我们的VLA得用多大的算力？

马陆：真正的通用的这个模型至少1000T以上。

媒体：有说法称小鹏 VIA2.0 的能力得益于自研软硬件的适配，用第三方芯片的话算法和软件能力不能发挥到 100%，这个说法成立吗？

马陆：对我们来说没有这个问题。自研芯片要考虑商业逻辑，首先是业务量够不够大，摊销能不能做好，高通、英伟达做车载芯片，是因为手机、服务器、游戏机等主营业务的 IP 能分摊成本，车载业务投入几乎可以忽略。

如果业务量不大，自研的就是专用芯片，也有市场。另外自研芯片要能带来技术加持，比如自建 IP 并持续优化，如果做不到，自研芯片更多只是为了避免被卡脖子。

媒体：自动驾驶端测算力的需求会呈现什么样的上涨趋势，是算法等算力还是算力等算法？

马陆：现在数据驱动的范式已经明确了，在这个范式下，对算力的投入是没有上限的，不吃亏。

前几年规则时代，堆了算力也可能用不上，而现在数据驱动时代，算法迭代很快，可能当下买的车是几百 T 算力，过一年自动驾驶能力就跟不上了。

但如果车的算力有 2000T，虽然当下没完全发挥，但后续公司通过算法迭代、OTA 升级，就能把算力的价值发挥出来。

自动驾驶只是“没长手的物理 AI”

媒体：现在的具身智能是18年的自动驾驶，还是08年的自动驾驶？

马陆：可能是18、19年吧，很火的。但是我觉得具身智能客观上在做物理AI，但是现在很多公司不一定真的在做，他可能只是做个本体，因为做真正可落地的物理AI 太烧钱了。

我觉得自动驾驶往后发展，它也是个物理AI的一个能力分支，它只是没长手而已。

媒体：所以卓驭什么时候能突破自动驾驶这个赛道，扩展到包括具身智能？

马陆：已经有内部明确的计划，应该很快会在一些场合讲。当然我们更希望聚焦物理AI的移动能力。

媒体：卓驭做物理 AI 大脑的商业模式是什么？

马陆：有很多种方式，比如我们昨天公布的一个具身智能客户，我们给他提供计算平台。我们希望今年会向更多具身智能公司推这个开发平台，因为传感器驱动、底层软件，我们已经做得非常好了，而且产品是车规级的品质。

媒体：这是不是也说明，现在具身智能赛道的很多公司，是不是没有大模型能力或优秀的算法能力？

马陆：有很多具身智能公司在研究大模型的范式，前沿研究不需要太多资源投入，但如果要把技术商业化，一年投三五十亿都未必能做出来，而且这只是起步，后续投入会越来越多。

从自动驾驶到更广泛的移动场景

媒体：自动驾驶各垂直场景里面也有很大区别吗？比如乘用车做卡车自动驾驶，是不是难度很大？

马陆：其实只是不了解而已，卓驭一开始也觉得卡车自动驾驶很难，做了之后发现并不难，三五十个人，做一年就能把卡车自动驾驶业务做起来。核心工作就两类，一是适配硬件接口，这是传统工作，AI 无法替代；二是让模型在卡车场景泛化，如果模型足够通用，这一步都可以省去，剩下的就是做标准化平台的分发，只是目前各家硬件接口都不一样。

媒体：有说法认为卡车赛道没有 L2、L3 的立足之地，只有终局 L4。卡车车企为什么认可卓驭的 L2/L3 方案？

马陆：我们去年找卡车车企时，车企一开始也觉得辅助驾驶没什么用，降不了成本，而且传统的 ADAS 方案只要两三千块，我们的方案动辄过万。

但车企领导体验后发现，我们的方案能做到 1000 公里接管一次甚至更低甚至不接管，能显著降低驾驶员的疲劳感，还能减少事故、降低务工成本，还有自动调速省油的功能，卡车省油 5%-7%，体验后车企就觉得这个方案有很大用处，只是之前没人做而已。

媒体：卓驭现在多少人？

马陆：仅卓驭有1800多人。

媒体：那这1800多人的这个公司，需要跨多少个垂类、场景，多大的装机量规模？

马陆：我们当前乘用车定点的车型已经超过 100 款，加上商用车等会更多，今年会有更多合作车型。

卓驭做自动驾驶不想只做 L2，除了早年和大众合作的双 TDA4 芯片产品，现在都是 VH 起步，都有高速领航和城市领航，定点的车型几乎都是高阶自动驾驶方案。

7月即将量产世界模型方案

媒体：Robotaxi 赛道有两个阵营，一个是 Waymo、小马、文远这类，依赖世界模型、规则、地图，追求万无一失。另一个是特斯拉阵营，从 L2 出发，用多模态大模型提升泛化性，文远还说 L2 永远做不成 L4，这个护城河真实存在吗？

马陆：现阶段他们的护城河一定是存在的。比如 Waymo 内部有先进的端到端方案，但北美跑的车还是用更传统的方案，因为它现有的 L4 商业模式能持续扩张，公司经营状况良好，没有必要颠覆自己的技术。国内小马的 Robotaxi 在深圳也做得不错，从商业角度，有可持续扩张的模式，就没必要冒然更换技术。除非出现新的玩家，比如特斯拉的 FSD 能在中国全面落地，这些公司才会面临巨大压力。

L4 不仅是技术问题，还涉及运营、体验、安全等多个维度，在模型能力足够好之前，不存在能在任何地方使用的 L4，所以现在公司做 L4 追求万无一失是必要的，技术只是其中一部分，甚至占比不到一半。

媒体：卓驭相信哪一条？

马陆：我们是后来者，没有什么历史包袱，我们现在走的还是偏大模型的路线。

媒体：这条路线第一个突破的会是特斯拉吗？

马陆：很有可能。

媒体：前两天我们发现这么一件事，一条正常的路，但是它中间有火车通过的铁轨。这种场景要解决的话，特斯拉和Waymo的方法肯定不一样，谁能解决的效率更高，肯定是特斯拉吗？

马陆：那看你是怎么评价效率了。Waymo 这类用规则的方法，打个补丁就能解决。

特斯拉的数据驱动方法有不同类型，一种是采集铁轨相关数据解决单一场景，另一种是让模型拥有更高维的理解能力，像人类一样，即便没在驾驶场景见过铁轨，也能通过互联网数据、文本数据知道铁轨的含义并做出应对，这种方法更强大，能应对从没见过的场景，而要做到这一点，视觉数据预训练需要结合大量互联网数据，还要实现和文本的对齐。

媒体：我们这套新系统叫端到端4.0，仍然不叫VLA？

马陆：端到端 4.0 继承了去年的一段式端到端技术，强调可解释性，感知、预测、决策、规划等环节是可控的，这个技术架构到到 4.0 就很难迭代架构了，剩下的迭代更多是通过数据驱动提升模型能力，因为它已经做到横向纵向的所有体验都是数据驱动的。

今年北京车展我们会发布全新的模型架构，这个架构内部不用跑感知模块，没有检测等感知相关玩法，传感器数据进去，一个模型直接出轨迹，是非常纯粹的大模型方案。

媒体：卓驭的端到端 4.0 什么时候会完成历史使命，被新方案替代？

马陆：如果一切进展顺利，7、8月会把新一代技术范式部署到 8650、8775 等平台，并实现量产，今年内会推动所有车企切换成新方案，通过软件推送的方式完成升级。

卓驭的护城河

媒体：国内自动驾驶公司和特斯拉的差距有多大，这个差距会怎么变化，国内梯队多久能追上？

马陆：之前看差距大概两年，2025 年看差距一年，现在看差距大概九个月，差距在持续缩小，但再往下缩小会比较难，因为需要按照大模型的范式持续堆资源。特斯拉不仅 FSD 做得好，还在做大模型和相关训练机器，多模态的融合做到了极致，这也是它的优势。

媒体：国内自动驾驶公司之间的竞争很激烈，这种竞争会在什么时间收敛，未来行业格局有什么判断？

马陆：行业竞争去年已经有收敛的趋势，今年会进一步收敛，不超过四五年，一定会有公司做出通用的物理 AI，至少是移动类别的，具备强大的通用移动能力。如果这家公司出现，单纯做自动驾驶的公司大概率会被淘汰。

做出这个通用物理 AI 的公司，有可能是互联网大模型巨头，它们去年的技术进步非常快，从技术范式角度，它们切入物理 AI 领域有优势。

媒体：那卓驭的护城河是什么？

马陆：越是做科技的公司，组织文化、组织效率、运营使命这些看似虚的东西越重要，能让员工愿意做事、朝着同一个方向努力很关键。当下卓驭经过多年深耕，有比较强的软硬件一体能力、工程能力、产品化能力以及 AI 数据驱动能力。另外到了物理AI 时代，卓驭其实也容易跟上，毕竟我们是机器人出身，比所有竞对都更懂机器人。

在新的 AI 时代，我们还需要大力补足 AI 能力，而 AI 时代真正的护城河，一是能持续积累的高质量数据，二是公司内部的基建，三是能持续想出新算法的优秀人才，而算法本身是不断变化的，很难成为护城河。

媒体：卓驭过去主打低算力硬件平台的产品，这些积累会不会没用，甚至后续没法维护？

马陆：过去卓驭在低算力平台做产品，用的是专家系统的思路，通过专家优化在小算力上实现功能，而到了 AI 时代，数据驱动成为主流，思路会发生变化，所以从去年年底开始，我们会更多推 700T、1500T 等大算力的方案。

过去的积累并非没用，在低算力方案的研发中，卓驭积累了交付能力、硬件能力、外部合作关系和供应链能力，这些能力在硬件分发上能发挥很大作用，而且我们多年积累的驾驶数据也是不错的资产。

媒体：有说法称卓驭低成本做得很厉害，但只会做低成本，没有高端的技术壁垒，怎么回应这个说法？

马陆：倒也没想反驳。我们的使命愿景是为所有人提供轻松安全的出行体验，基于这个目标，卓驭想让更多用户用上自动驾驶，而中国 70% 以上的车都是 20 万以内的，所以我们过去想尽一切办法在低算力、低成本的平台上做自动驾驶方案，也就给外界留下了只会做低成本的印象。

其实我们是算力优化能力最强的自动驾驶公司，不是做不了最高级别的技术，只是之前没有把大算力的高端方案拿出来展现，而且行业里存在“营销厉害就叫技术厉害”的问题，导致了这种谣言。

今年明年，大家会看到我们的大算力方案和更厉害的技术产品，大模型时代的趋势就是大算力、大参数、大模型，我们也会朝着这个方向走。

最真诚的智能汽车报道

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.