![]()
![]()
AI行业创新的核心就是快,只要比别人快三个月就赢了。通用大模型公司拥有更强的算力、资源与数据优势,一旦进入物理世界,可能改变行业格局。
作者|王蕊
编辑|西子
卓驭科技 CTO 马陆,并不急于反驳外界关于“卓驭只会做低成本”的标签。
在他看来,这个评价某种程度上并不算错。过去几年,这家公司确实把大量精力放在一件事情上——如何用更小的算力、更低的成本,让更多人享受智能辅助驾驶。
但现在,他更关心的是另一件事:当自动驾驶进入大模型时代,一家以工程效率著称的公司,能否通过算力、数据和分发体系的重构,走出一条不同于行业主流的高阶智驾路径。
马陆职业生涯的底色是“机器人的眼睛”。从科罗拉多大学博尔德分校计算机系博士毕业,到在大疆创新从 0 到 1 亲手构建车载研发体系,这位拥有 14 年经验、深耕自主移动机器人领域的专家,长期在研究一个问题,如何让机器理解真实世界。
而在他看来,大模型正在改变自动驾驶行业的竞争方式。
过去,行业比拼的是功能上线速度、感知算法精度和硬件成本;而当数据驱动成为共识、端到端模型不断扩张之后,竞争开始转向另一套体系:数据规模、训练能力、评测系统以及组织效率。
算法依然是塔尖,但基建与评测系统,已成为托起塔尖的基石。
![]()
顺着这种技术路径往下推演,自动驾驶行业正在出现新的问题——商业模式、竞争边界,以及技术范式本身的变化。
在这次访谈中,马陆系统谈到了自动驾驶、大模型与物理 AI 的关系,并提出了几个判断:
AI行业创新的核心就是快,只要比别人快三个月就赢了;
算法本身重要但也没那么重要,数据、评测、基建、算力(训练资源)如果跟不上,就算拿到最顶级的算法也没用。
自动驾驶必须走向原生多模态基础大模型,语言模态将成为理解复杂环境与实现全球泛化的重要能力;
乘用车自动驾驶模型仍然是一个极端垂类模型,很难真正养活以大模型为载体的物理AI公司;
丰田从100万台到1000万台花了48年,安卓从1台到1亿台只用了2.7年,自动驾驶真正的挑战,不只是技术,而是分发,没有标准化硬件平台,再好的技术也难以快速规模化;
自动驾驶最大的潜在竞争对手,可能来自行业之外,通用大模型公司拥有更强的算力、资源与数据优势,一旦进入物理世界,可能改变行业格局;
未来的竞争,本质上是通用 AI 在真实世界中的能力扩展,自动驾驶只是“没长手的物理 AI”。
AI时代真正的护城河:一是高质量数据,二是内部内部基建,包括训练资源,三是优秀人才。组织文化、组织效率、运营使命这些看似虚的东西,反而最重要。
以下根据智车星球与马陆的访谈内容整理,有删减。
AI 落地不再是少数人的“数学游戏”
媒体:最近很多公司强调模型能力已经超过人。我最近也聊到一个算法专家,他说极端情况下线上算法可能一个人负责一个模型就行了,算法岗位的人力会不会大幅减少?
马陆:模型其实分成非常多的环节,真正能做模型架构设计、建模的人是非常少的。比如像 OpenAI 这种公司,真正的拔尖者估计也就几十个。
在卓驭里面,我们算法团队可能四五百人,真正对模型做深入改动、提出开创想法的人并不多。更多的人其实是在搞数据挖掘、做数据精细化、做场景数据评测,以及做 AI 基建。
AI 最终落地和传统想法不一样了,算法本身重要但也没那么重要,数据、评测、基建如果跟不上,就算拿到最顶级的算法也没用。
媒体:目前大模型行业的技术共识是什么?差异点又在哪里?
马陆:我觉得这个行业已经达成了非常高的共识了,就是数据驱动、要端到端、搞大模型、搞数据、搞评测,其实方案都是一模一样。
那区别在哪里呢?第一,拼速度,如果一个以AI为核心的公司,他的AI不提升了,那就完蛋了;
拼公司的文化,公司本身对AI这事情的一个包容和一个态度,整个组织是不是很AI原生的组织;
参考语言大模型行业,目前国内、国外都有顶级的大模型企业,这些企业的大模型有各自的擅长、侧重场景。消费者对不同的模型在哪些场景更强,哪些场景更弱如数家珍。各个大模型厂商拼的还是迭代速度,以及谁能尽量保持些许领先。
媒体:那质变转折的关键标志是什么?
马陆:质变的关键还是得得有原创性的工作,通俗来说就是得有好点子,以及把它实现,一旦有一个点子成功了,整个行业一两天内就都会知道。
一方面因为大模型行业相对开放,企业喜欢做开源、发论文;另一方面行业顶尖人才流动很容易,而 AI 行业创新的核心就是快,只要比别人快三个月就赢了,这也促使行业人才和想法都不闭塞。
自动驾驶走向多模态大模型
媒体:如何看待大语言模型(LLM)和世界模型(World Model)两条技术路线的未来?
马陆:人类真正想要的大模型是 AGI,是既能做脑力劳动,也能理解世界、做体力劳动的系统。
从 2020、2021 年 ChatGPT 3.0 以来,大语言模型主要做的是脑力劳动,比如语言和文本相关的工作。但语言这个东西毕竟是人类发明的,如果以文本为载体,就只能做文本相关任务,没办法做真实世界的事情。
如果要进入真实世界,有一派就认为,要多模态,特别是要以视觉为中心。从世界模型角度看,语言只是一个模态。即使没有语言,只要能感知世界,也可以通过数据映射出动作。
媒体:有些玩家明确不相信 VLA 或多模态大模型路线,他们认为这条路线未必是正确的,你怎么看?
马陆:还是要看 VLA 的含义,它每年的定义都不同。如果是问开车的时候是不是得有语言去指导动作,那我们的看法是否定的。但如果 VLA 是指多模态,特别是训练过程中模态足够多,提升模型的泛化能力、通用能力,那我们的回答是肯定的。卓驭坚信未来一到三年,行业内公司如果不往原生多模态基础大模型的方向走,很难走得远。
媒体:自动驾驶海外泛化的难题,没有语言模态的话,用强化学习能解决吗?
马陆:普通人在海外开车不需要专门泛化几千公里、上万公里,核心原因是 人类可以通过阅读不同国家的交通法,了解不同国家的交规要求,进而让自己的驾驶行为适配不同国家的法律法规。在这里 语言 模态发挥了关键作用,显著降低了人类在不同国家开车的难度。
媒体:自动驾驶里的世界模型到底是什么?自动驾驶行业当前模型与大语言模型的关键差距在哪里?
马陆:行业确实有很多争论和说法。我觉得世界模型最起码是对世界的本质有预测能力,看到一个环境,能对未来做出较准确的预测。而要构建这种预测,模型需要对环境的语义等有较高水平的理解。
如果看现在的自动驾驶行业,会发现它并没有大模型该具备的一些特征。比如把中国的自动驾驶系统拿到印度、欧洲或者非洲,大概率不能用,要泛化,要重新采集数据。
但大语言模型没有这个问题,全世界语言都能支持。因为它有更多的数据,是一个通用的大模型。
自动驾驶模型本质上还是一个垂类里的一个非常之垂类的模型。参数上,如果没有带语言模态,只是视觉模态,通常情况下连1个B(十亿)都到不了。而今天语言大模型没有700多个B,1100个B,根本就没人看。这说明大模型这个方向就会越来越大,参数越来越多。
媒体:能不能理解为卓驭相信的是规模越来越大、模态越来越多的一条路线?
马陆:卓驭相信的是通用的多模态原生大模型这条路线。
媒体:所以这里面必须要有语言模态?
马陆:我认为 L(语言Language) 是一个很有帮助、很有用的东西,要保证它的通用性,就需要有一个 L。特别是在 训练阶段,L 对于模型的泛化性、通用性有很大的帮助。但我们希望它是一个原生的大模型,而不是拿现有的大模型简单剪裁。
![]()
媒体:自研一个原生的多模态大模型,有什么要求?
马陆:这是一个很高的门槛,资源投入是夸张的。
媒体:理想当时说他们一年可能投 20 亿,之后每年至少 50 亿投入到这个方向。这个判断你怎么看?
马陆:我认为理想的说法是对的。就算只是继续叠端到端的方案,要把模型体验做好,你要让模型体验越来越好,你就要越来越端;越来越端,就要越来越大的模型;模型越大,就需要更多 AI 训练,训练费用很容易就突破十个亿。
“自动驾驶垂类养活不了AI公司”
媒体:不管是大模型公司还是智能驾驶公司,拼速度意味着领先三个月,这是不是说明研发投入是无底洞,回报又从哪来?最大的挑战是什么?
马陆:这个行业确实投入很大,但回报可以参考大模型公司。国内的智谱 AI、Mini Max 等大模型公司市值已经 3000~4000 亿港币,海外对标公司更是千亿甚至万亿美金起步。
大模型公司能有高回报,一是跨垂类应用容易,能颠覆大量以文本处理为基础的职业;二是 AI 分发渠道方便,有手机、电脑就能使用。而自动驾驶产品分发非常困难,因为没有标准化硬件平台。
如果没有快速分发渠道,就算今天做出 L5,从 1 台到 100 万台,需要多少年?丰田从年销量100万台到 年销量 1000 万台花了 48 年。安卓从 1 台到 1 亿台只用了 2.7 年,所以分发体系非常关键。
媒体:端到端这条路线有没有上限?比如模型大到一定程度之后,能力提升就很小了?
马陆:从业务视角看,我们为了把自动驾驶这个垂类做好,从规则到半规则,再到数据驱动的端到端,会发现单靠这一个垂类很难养活企业。
语言大模型公司市值高,核心是能跨垂类应用,可以瞬间进入很多行业,因为模型足够通用。
而单靠辅助驾驶,一套软件卖给主机厂,一套卖几千块,就算一年卖一百万套,也就是几十亿收入。但训练端到端模型,一年可能就要花掉10亿,更别说训练基础模型了。
以数据驱动的自驾模型有一个特点,你要把一个垂类做好,就必须遵循数据驱动,把模型参数搞大,把能力搞强,走着走着,你会发现已经走进了 通用大模型范式了,这是一个客观规律。
所以模型越做越大之后,就会出现一个选择:要么死守一个领域,要么跨领域。
所以我们去年宣布做空间智能移动机器人,也做卡车自动驾驶,现在六家头部重卡客户基本都拿下了,同时也在做 Robotaxi。我们认为未来一切“可以动的东西”,我们都可以做。
![]()
最危险的对手可能在行业之外
媒体:未来 AI 公司会不会形成数字世界和物理世界两个阵营?
马陆:短期内,十年内一定是分开的。但是放长到二三十年,两个阵营会合并成一个万能 AI,因为两者的技术方法本质上是一样的。
如果问我,最担心的颠覆者是谁,我觉得也不一定是我们的同行,说不定是大模型公司,比如国内的阿里、字节,国外的 OpenAI 等等。从技术范式角度,它们有算力和投入的优势,只是现在做的还是那种数字世界的,高价值的产品业务场景,但凡有机会,肯定会跨行的。
媒体:所以与其说是这个赛道的几个玩家互相赛跑,不如说是自动驾驶跟大模型公司这个阵营在赛跑。
马陆:18、19年,有很多那种专家垂类模型搞AI医生,后面这些公司都没了。去年年底除了个阿里的阿福,也能看病,也挺火爆的。很有意思的一个点是,一个通用的模型公司,可能就一不小心就做出了一个垂类上非常之厉害产品。
媒体:反正垂类就会被颠覆。会不会自动驾驶也是这个命运?
马陆:不奇怪,自动驾驶本质是解决移动问题,做着做着就会走向通用移动问题,只要遵循数据驱动的方式,就会进入大模型的范式,需要持续加机器、加数据、堆资源,而回报也会很丰厚,能在多个垂类落地。
现在国内某些刚上市不久的大模型公司市值,已经超过了国内所有自动驾驶公司的总和,核心就是通用大模型能解决的问题更多,当下也找不到一个垂类数字 AI 公司能打得过通用模型公司。
算力的成本账
媒体:自动驾驶公司有自研芯片的必要吗?
马陆:这取决于公司的定位、能力和投入,语言大模型公司里有一些做了自研芯片,尤其是训练芯片的定制化,因为一年芯片采购成本巨大,也有很多公司用公有云服务也做得很好。
那对于卓驭来说,现在我们确实还是用第三方芯片比较多,今年也会找一些优秀的芯片公司,做一些芯片的定制。目前不倾向于自己花大价钱研发芯片,但也不是 100% 排除这个选项,如果自研,会倾向于自研过千TOPS的大算力芯片。
![]()
媒体:我们的VLA得用多大的算力?
马陆:真正的通用的这个模型至少1000T以上。
媒体:有说法称小鹏 VIA2.0 的能力得益于自研软硬件的适配,用第三方芯片的话算法和软件能力不能发挥到 100%,这个说法成立吗?
马陆:对我们来说没有这个问题。自研芯片要考虑商业逻辑,首先是业务量够不够大,摊销能不能做好,高通、英伟达做车载芯片,是因为手机、服务器、游戏机等主营业务的 IP 能分摊成本,车载业务投入几乎可以忽略。
如果业务量不大,自研的就是专用芯片,也有市场。另外自研芯片要能带来技术加持,比如自建 IP 并持续优化,如果做不到,自研芯片更多只是为了避免被卡脖子。
媒体:自动驾驶端测算力的需求会呈现什么样的上涨趋势,是算法等算力还是算力等算法?
马陆:现在数据驱动的范式已经明确了,在这个范式下,对算力的投入是没有上限的,不吃亏。
前几年规则时代,堆了算力也可能用不上,而现在数据驱动时代,算法迭代很快,可能当下买的车是几百 T 算力,过一年自动驾驶能力就跟不上了。
但如果车的算力有 2000T,虽然当下没完全发挥,但后续公司通过算法迭代、OTA 升级,就能把算力的价值发挥出来。
自动驾驶只是“没长手的物理 AI”
媒体:现在的具身智能是18年的自动驾驶,还是08年的自动驾驶?
马陆:可能是18、19年吧,很火的。但是我觉得具身智能客观上在做物理AI,但是现在很多公司不一定真的在做,他可能只是做个本体,因为做真正可落地的物理AI 太烧钱了。
我觉得自动驾驶往后发展,它也是个物理AI的一个能力分支,它只是没长手而已。
媒体:所以卓驭什么时候能突破自动驾驶这个赛道,扩展到包括具身智能?
马陆:已经有内部明确的计划,应该很快会在一些场合讲。当然我们更希望聚焦物理AI的移动能力。
媒体:卓驭做物理 AI 大脑的商业模式是什么?
马陆:有很多种方式,比如我们昨天公布的一个具身智能客户,我们给他提供计算平台。我们希望今年会向更多具身智能公司推这个开发平台,因为传感器驱动、底层软件,我们已经做得非常好了,而且产品是车规级的品质。
媒体:这是不是也说明,现在具身智能赛道的很多公司,是不是没有大模型能力或优秀的算法能力?
马陆:有很多具身智能公司在研究大模型的范式,前沿研究不需要太多资源投入,但如果要把技术商业化,一年投三五十亿都未必能做出来,而且这只是起步,后续投入会越来越多。
从自动驾驶到更广泛的移动场景
媒体:自动驾驶各垂直场景里面也有很大区别吗?比如乘用车做卡车自动驾驶,是不是难度很大?
马陆:其实只是不了解而已,卓驭一开始也觉得卡车自动驾驶很难,做了之后发现并不难,三五十个人,做一年就能把卡车自动驾驶业务做起来。核心工作就两类,一是适配硬件接口,这是传统工作,AI 无法替代;二是让模型在卡车场景泛化,如果模型足够通用,这一步都可以省去,剩下的就是做标准化平台的分发,只是目前各家硬件接口都不一样。
媒体:有说法认为卡车赛道没有 L2、L3 的立足之地,只有终局 L4。卡车车企为什么认可卓驭的 L2/L3 方案?
马陆:我们去年找卡车车企时,车企一开始也觉得辅助驾驶没什么用,降不了成本,而且传统的 ADAS 方案只要两三千块,我们的方案动辄过万。
但车企领导体验后发现,我们的方案能做到 1000 公里接管一次甚至更低甚至不接管,能显著降低驾驶员的疲劳感,还能减少事故、降低务工成本,还有自动调速省油的功能,卡车省油 5%-7%,体验后车企就觉得这个方案有很大用处,只是之前没人做而已。
![]()
媒体:卓驭现在多少人?
马陆:仅卓驭有1800多人。
媒体:那这1800多人的这个公司,需要跨多少个垂类、场景,多大的装机量规模?
马陆:我们当前乘用车定点的车型已经超过 100 款,加上商用车等会更多,今年会有更多合作车型。
卓驭做自动驾驶不想只做 L2,除了早年和大众合作的双 TDA4 芯片产品,现在都是 VH 起步,都有高速领航和城市领航,定点的车型几乎都是高阶自动驾驶方案。
7月即将量产世界模型方案
媒体:Robotaxi 赛道有两个阵营,一个是 Waymo、小马、文远这类,依赖世界模型、规则、地图,追求万无一失。另一个是特斯拉阵营,从 L2 出发,用多模态大模型提升泛化性,文远还说 L2 永远做不成 L4,这个护城河真实存在吗?
马陆:现阶段他们的护城河一定是存在的。比如 Waymo 内部有先进的端到端方案,但北美跑的车还是用更传统的方案,因为它现有的 L4 商业模式能持续扩张,公司经营状况良好,没有必要颠覆自己的技术。国内小马的 Robotaxi 在深圳也做得不错,从商业角度,有可持续扩张的模式,就没必要冒然更换技术。除非出现新的玩家,比如特斯拉的 FSD 能在中国全面落地,这些公司才会面临巨大压力。
L4 不仅是技术问题,还涉及运营、体验、安全等多个维度,在模型能力足够好之前,不存在能在任何地方使用的 L4,所以现在公司做 L4 追求万无一失是必要的,技术只是其中一部分,甚至占比不到一半。
媒体:卓驭相信哪一条?
马陆:我们是后来者,没有什么历史包袱,我们现在走的还是偏大模型的路线。
媒体:这条路线第一个突破的会是特斯拉吗?
马陆:很有可能。
媒体:前两天我们发现这么一件事,一条正常的路,但是它中间有火车通过的铁轨。这种场景要解决的话,特斯拉和Waymo的方法肯定不一样,谁能解决的效率更高,肯定是特斯拉吗?
马陆:那看你是怎么评价效率了。Waymo 这类用规则的方法,打个补丁就能解决。
特斯拉的数据驱动方法有不同类型,一种是采集铁轨相关数据解决单一场景,另一种是让模型拥有更高维的理解能力,像人类一样,即便没在驾驶场景见过铁轨,也能通过互联网数据、文本数据知道铁轨的含义并做出应对,这种方法更强大,能应对从没见过的场景,而要做到这一点,视觉数据预训练需要结合大量互联网数据,还要实现和文本的对齐。
媒体:我们这套新系统叫端到端4.0,仍然不叫VLA?
马陆:端到端 4.0 继承了去年的一段式端到端技术,强调可解释性,感知、预测、决策、规划等环节是可控的,这个技术架构到到 4.0 就很难迭代架构了,剩下的迭代更多是通过数据驱动提升模型能力,因为它已经做到横向纵向的所有体验都是数据驱动的。
今年北京车展我们会发布全新的模型架构,这个架构内部不用跑感知模块,没有检测等感知相关玩法,传感器数据进去,一个模型直接出轨迹,是非常纯粹的大模型方案。
媒体:卓驭的端到端 4.0 什么时候会完成历史使命,被新方案替代?
马陆:如果一切进展顺利,7、8月会把新一代技术范式部署到 8650、8775 等平台,并实现量产,今年内会推动所有车企切换成新方案,通过软件推送的方式完成升级。
![]()
卓驭的护城河
媒体:国内自动驾驶公司和特斯拉的差距有多大,这个差距会怎么变化,国内梯队多久能追上?
马陆:之前看差距大概两年,2025 年看差距一年,现在看差距大概九个月,差距在持续缩小,但再往下缩小会比较难,因为需要按照大模型的范式持续堆资源。特斯拉不仅 FSD 做得好,还在做大模型和相关训练机器,多模态的融合做到了极致,这也是它的优势。
媒体:国内自动驾驶公司之间的竞争很激烈,这种竞争会在什么时间收敛,未来行业格局有什么判断?
马陆:行业竞争去年已经有收敛的趋势,今年会进一步收敛,不超过四五年,一定会有公司做出通用的物理 AI,至少是移动类别的,具备强大的通用移动能力。如果这家公司出现,单纯做自动驾驶的公司大概率会被淘汰。
做出这个通用物理 AI 的公司,有可能是互联网大模型巨头,它们去年的技术进步非常快,从技术范式角度,它们切入物理 AI 领域有优势。
媒体:那卓驭的护城河是什么?
马陆:越是做科技的公司,组织文化、组织效率、运营使命这些看似虚的东西越重要,能让员工愿意做事、朝着同一个方向努力很关键。当下卓驭经过多年深耕,有比较强的软硬件一体能力、工程能力、产品化能力 以及 AI 数据驱动能力。另外到了 物理AI 时代,卓驭其实也容易跟上,毕竟我们是 机器人出身,比所有竞对都更懂机器人。
在新的 AI 时代,我们还需要大力补足 AI 能力,而 AI 时代真正的护城河,一是能持续积累的高质量数据,二是公司内部的基建,三是能持续想出新算法的优秀人才,而算法本身是不断变化的,很难成为护城河。
媒体:卓驭过去主打低算力硬件平台的产品,这些积累会不会没用,甚至后续没法维护?
马陆:过去卓驭在低算力平台做产品,用的是专家系统的思路,通过专家优化在小算力上实现功能,而到了 AI 时代,数据驱动成为主流,思路会发生变化,所以从去年年底开始,我们会更多推 700T、1500T 等大算力的方案。
过去的积累并非没用,在低算力方案的研发中,卓驭积累了交付能力、硬件能力、外部合作关系和供应链能力,这些能力在硬件分发上能发挥很大作用,而且我们多年积累的驾驶数据也是不错的资产。
媒体:有说法称卓驭低成本做得很厉害,但只会做低成本,没有高端的技术壁垒,怎么回应这个说法?
马陆:倒也没想反驳。我们的使命愿景是为所有人提供轻松安全的出行体验,基于这个目标,卓驭想让更多用户用上自动驾驶,而中国 70% 以上的车都是 20 万以内的,所以我们过去想尽一切办法在低算力、低成本的平台上做自动驾驶方案,也就给外界留下了只会做低成本的印象。
其实我们是算力优化能力最强的自动驾驶公司,不是做不了最高级别的技术,只是之前没有把大算力的高端方案拿出来展现,而且行业里存在“营销厉害就叫技术厉害”的问题,导致了这种谣言。
今年明年,大家会看到我们的大算力方案和更厉害的技术产品,大模型时代的趋势就是大算力、大参数、大模型,我们也会朝着这个方向走。
最真诚的智能汽车报道
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.