智驾路线暗战升级：元戎启行理想向左，华为博世向右|李想|周光|算法|理想汽车|自然语言

智驾路线暗战升级：元戎启行理想向左，华为博世向右

2025-09-01 14:46:44　来源: 汽车公社

上海举报

分享至

近日的两场发布会，再次引发业界对智驾路线的争论和思考。

一是，元戎启行正式发布全新一代辅助驾驶平台DeepRoute IO 2.0，以及自研的VLA（Vision-Language-Action，视觉语言动作模型），融合视觉感知、语义理解与动作决策三大核心能力。据悉，元戎启行已达成5个定点合作项目，首批量产车即将进入市场。

“虽然目前VLA仍处于早期，相当于‘幼年期’，但它的技术上限已经远超传统端到端方案。新一代架构需要新一代芯片支持，这不是CNN时代可比的。”面对自动驾驶路线之争，元戎启行CEO周光如此阐述了VLA的优势和远景（参数丨图片）。

二是，华为乾崑媒体日现场，华为智能汽车解决方案BU CEO靳玉志接受了媒体采访，并针对“辅助驾驶最终技术路线”进行了回答。在他看来，华为不会采用VLA，WA（World Action，世界行为模型）才是能真正实现自动驾驶的终极方案。

靳玉志认为，华为更看重WA，中间省掉VLA的language环节，让vision成为一个代表，它可能来自于声音，可能来自vision，也可能来自于触觉。这个路径目前看起来非常难，但能实现真正的自动驾驶。

当智能化进入下半场，辅助驾驶赛道已是刺刀见红，不同技术路线的竞争日趋激烈——以理想、小鹏和元戎启行为代表的企业押注VLA，一跃从“端到端时代”迈入“VLA新纪元”，而以华为为代表的企业则更看重WA，认为VLA增加了不必要的中间环节。

那么，究竟谁能最终胜出？

“VLA的下限，超过端到端上限”

元戎启行是业界最早布局VLA、也是进展最快的玩家，在创始人周光看来，VLA的面世是一个跨时代的进展，它标志着自动驾驶正式进入大模型时代。下半年，元戎启行的VLA模型即将量产上车，这将成为公司技术发展的一个重要里程碑。

从技术层面，周光将VLA模型称为“基于GPT的端到端模型”，与传统的CNN端到端模型有本质区别。CNN架构自2012年发展至今，GPT则是基于Transformer大模型架构，两者在参数量、数据处理等方面差异显著。

周光认为，BEV视角存在先天局限，就像玩坦克大战，墙后的物体一旦无法被看到，系统就会认为“不存在”。可现实中，真实的视角更像CS（游戏《反恐精英》），司机会借助毫米波雷达等传感器，或凭借对空间遮挡关系的理解，采取谨慎策略通过复杂场景——

这并非要“穿墙透物”，而是必须提升对高级语义和空间关系的理解能力，这一点，恰恰是CNN端到端系统难以实现的。

另一方面，VLA有其护城河。

“VLA融合了语言模型，具备强大的思维链能力，能摆脱传统端到端模型的黑盒难题，并将信息串联、分析，从而推理出因果关系。此外，它天然集成海量知识库，泛化能力更强，能够更好地适应复杂多变的真实道路环境。”

第一代端到端系统正逐渐触及性能瓶颈，当前以CNN为载体的模型，无论用多少数据或额外训练手段，其提升空间已非常有限。正因为端到端有其上限与瓶颈，才有更多玩家大胆探索，押注VLA赛道，从长远上解决端到端的难题。

周光介绍了VLA模型的四大核心功能。

分别是：空间语义理解、异形障碍物识别、文字类引导牌理解和记忆语音控车，这些功能将根据实际部署节奏逐步释放。

其中，空间语义理解是最新版本的最大亮点，该功能可在视野受限的动态或静态盲区环境中（如公交车遮挡、复杂路口、桥洞等）感知潜在风险，主动对盲区进行“预防性预判”。系统可在风险出现前提前减速、稳妥通行，具备高度拟人化的防御性驾驶策略，为用户带来更安心的出行体验。

其余三项能力，异形障碍物识别能使系统能够识别并灵活应对如施工锥桶、超载小货车等非结构化障碍；文字类引导牌识别让系统“看懂路标”，准确解析潮汐车道、公交专用道等文字信息；记忆语音控车功能支持自然语言指令交互，并逐步学习用户偏好，带来更具个性化与拟人化的驾驶体验。

VLA模型，真正的难点是什么？

在周光看来，最难的是思维链（Chain of Thought，CoT）和长时序推理，当然，这也是VLA真正的核心能力。思维链是这类架构的基本要求，没有它，模型就不能算是真正的VLA。

VLA模型具备思维链能力，支持长时序推理，短期记忆依靠视频帧，长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史，语言是对现实的高效压缩。正因为能够进行长时序分析，VLA可以处理更复杂路况，完成更深层次的推理。

VLA的另一个优势，是海量知识库。通过互联网规模的数据蒸馏与训练，模型积累了丰富的常识，而这是CNN或BEV端到端系统所不具备的。

培育“新物种”，道阻且长

“更准确地说，VLA的本质，是基于GPT的端到端模型，目前坚持投入大算力的公司，包括小鹏，其实都在朝这个方向走。比如特斯拉，最新芯片算力达2500TOPS，CNN模型根本不需要如此大规模的算力，只有GPT架构才需要大参数和大算力支持。”

周光认为，CNN模型参数量有限，而GPT架构天然适合扩展，这才是未来方向。

VLA与第一代端到端最根本的区别，是模型架构变了——从CNN转向GPT。训练方法比如是否引入RL，只是策略问题，CNN架构本身无法实现类似人类的推理和泛化能力。

理想的思路，和元戎启行是一致的。

李想把理想汽车的辅助驾驶划分为三个阶段——第一阶段是该公司2021年起自研依赖规则算法和高精地图的辅助驾驶，类似“昆虫动物智能”；第二阶段，是2023年开始研究、并于2024年正式推送的端到端+VLM辅助驾驶，接近“哺乳动物智能”；第三个阶段则是VLA，它将正式开启“人类智能”阶段，通过3D和2D视觉组合，完整地看到物理世界，而非VLM仅能解析2D图像。

“端到端模型像猴子开车，它能够学习人类行为，但并不理解物理世界。”李想的这个比喻，直接指出了端到端目前的缺陷，为了让智能驾驶“越开越像人”，理想汽车选择推翻此前的架构，自研VLA司机大模型。

值得一提的是，李想和周光都持同一个观点，即VLA不是一个突变的过程，而是一个进化的过程。

周光在采访时表示，从规则算法、端到端1.0到VLA模型，车企或供应商想自研辅助驾驶系统，都无法直接切入VLA，从有图、无图、端到端到VLA模型，每个阶段都无法跳过，整个发展过程必不可少，最多只能压缩某些阶段的时间，但不可能完全绕过。正因为此，他才坚定地认为，VLA模型的下限，其实已经超过端到端方案的上限。

以数据门槛为例，周光曾分析说，一家智驾公司至少要交付上万辆车，才能做端到端1.0（即端到端+VLM），而想要做到一个模块的VLA架构，则需要10万辆级的量产车才行。

李想也曾在一次采访中表态，如果一家企业连规则算法都做不好，那他们根本不知道怎么去做端到端；类似的，如果一家公司无法将端到端做到一个非常极致的水平，那么，他们连VLA怎么去训练都不知道。

面对VLA的火热，华为拒绝跟风。

靳玉志在近日的媒体发布会时强调，VLA依赖视觉和语言的中转，而WE直接省略语言环节。“WA直接通过行为端，或者说，直接通过vision这样的信息输入控车，而不是把各种各样的信息转成语言，再通过语言大模型来控制车。这里的 vision只是一个代表，它可能来自于声音，可能来自于视觉，也可能来自触觉。”

博世智能驾控中国区总裁吴永桥也在世界人工智能大会上表态，博世目前对VLA落地难度有清醒认知，公司依旧将战略重心押注在“一段式端到端”（One-stage End-to-End）技术路径上。

自动驾驶的终局会是怎样？

智能驾驶还远远没有完善的时候，大家都在用自己的思路，探索不同的技术路线，豪赌下一个蓝海。可以确定的是，无论是选择VLA路线的元戎启行和理想们，还是选择走WA路线的华为们，都深知长期主义的重要性。

正如周光在采访环节表示，现阶段，元戎启行还是聚焦于解决0到1的问题，先确保核心能力落地，再优化用户体验。元戎启行将VLA称为“新物种”，而这场培育“新物种”的万里长征，后面依旧道阻且长。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.