新一轮智驾PK，迈入实战时刻|算法|大模型|智驾pk|自然语言

新一轮智驾PK，迈入实战时刻

2025-08-28 04:37:13　来源: 虎嗅APP

北京举报

分享至

出品丨虎嗅汽车组

作者丨李赓

头图丨AI生成

如果不是年初官方按下智驾宣传的“急停键”，近期“智驾”或许早已再次被炒上了天。

原因无他，只因中国最头部的一批智驾势力，几乎都选择了在近期落地自己最新的智驾能力：

理想汽车借i8上市，推送 “VLA 司机大模型”；
Momenta携手智己，完成R6飞轮大模型上车；
元戎昨天（8月26日）发布了自己的VLA大模型；
小鹏今天（8月27日）的新P7发布会上发布自己全新的VLA大模型；
华为透露9月即将推送的ADS 4。

如此整齐划一的步调，不禁让人想起上一次“端到端”模型引领的行业浪潮。但这一次，变革的深度与广度，已有过之而无不及。这轮竞赛为何集中爆发？各家命名不同的模型背后，隐藏着怎样的技术分野？新一代智驾，究竟“聪明”在了哪里？

本期《智驾雷达》VOL.5，我们就来提前“纵览”一下智驾圈即将发生的这一轮竞赛，并尝试为你先讲清楚其中的脉络。

新一轮智驾竞赛，时候到了

首先是第一个问题：为什么行业内的动作如此集中？虎嗅汽车综合多家智驾势力的信息，总结出了四大关键驱动力：

监管加强和舆情时间拖后了部分公司的既定节奏；
各家公司智驾技术和产品，最底层是AI最底层的创新突破，时间起点相近；
将AI底层技术套用到智驾上，需要相当多的训练和调整投入，需要的时间周期相对固定；
各家公司都看到了这一轮智驾能力提升的潜力，对其他家优先发布技术和产品担心，基本都选择了先发布“基础版”再优化的思路。

其中最重要的必然是第4点。元戎启行CEO周光在昨天的发布会上就专门表示：VLA模型（当前版本）的下限已超过端到端（可以简单理解为2024年中的大模型技术水平）的上限，未来会越来越好。

周光也在现场通过PPT解释出了这个趋势的底层原因：相比第一代“端到端”，VLA大模型实际上去掉了规控时代留下的“环节”（不再在大模型中划分感知、定位导航、预测、规划等环节），不再是单个环节内一个CNN模型，最后再将多个模型拉通形成一个“大模型”。而是从传感器到控制端只有一个完整的模型。

其次是模型本身从CNN（早期AI围棋、人脸识别等应用的底层技术）为底层核心升级为Transformer（就是GPT等大语言模型崛起的核心底层技术）为核心，大幅提升了智驾大模型对人类大脑的模仿学习能力。

这种技术深层次的改变，让VLA具备了思维链（CoT）能力，模型本身不再是一个从感知输入（视觉）到控制输出（行为）的 “黑箱”，而是通过引入语言作为媒介，模仿人类驾驶员的思考模式，将复杂的驾驶决策分解为一系列连贯、有逻辑的中间推理步骤。

同是端到端模型，VLA也获得了能力上的大幅提升：

增强决策的逻辑性和可靠性：面对复杂或罕见的（长尾）路况，具备Cot能力的VLA模型能够一步步分析：“识别校车，需减速慢行”>“检测到路边儿童，存在突然横穿马路的风险”>“综合判断。这种分步推理远比单一的、直觉式的端到端输出更为可靠和安全；
提升系统的可解释性和透明度：Cot将模型的决策依据以人类可以理解的语言形式展现出来。极大地帮助了研发人员进行模型的调试和优化，也为事故追溯、责任界定提供了清晰的依据，从而增强了用户和监管机构对自动驾驶系统的信任；
提升模型的泛化能力和处理复杂场景的能力：通过在海量数据中学习推理逻辑，Cot使得VLA模型能够举一反三，将学到的驾驶知识和常识应用到从未见过的新场景中。它不再是单纯地记忆驾驶行为，而是学会了“如何思考”，让应对现实世界中层出不穷的复杂交通状况成为了可能。

除了VLA路线，目前华为和蔚来主推的是另一条路线：世界模型。后者虽然更强调“海量使用云端模拟的数据、来让大模型‘理解’世界而学会驾驶”，但其最底层的世界模型仍需要Transformer技术驱动。华为此前在和和浙大、港科大的相关科研成果中，多次提到这一点。

新一代模型，让AI“学会害怕”？

理论上的强大，最终要靠体验说话。在对元戎启行VLA模型的实际测试中，最令人印象深刻的，是其“防御性驾驶”能力的提升。

周光用了一个非常人性化的词来形容这种能力——“让AI学会害怕”。这种“害怕”并非迟疑，而是一种高级的智能表现：像人类驾驶员一样，对潜在风险保持先验性的警觉。

在深圳常见的立交桥下辅道，人车混行，视野狭窄，VLA模型会持续进行自我推理，主动将车速降至绝对安全的范围。

在被花坛遮挡视线的路口，当感知到对向车道有电瓶车高速驶来，它的驾驶决策会立刻从“控速”升级为“主动降速”，预留出足够的反应空间。

在丁字路口的汇入场景，VLA也能在没有驶入路口之前，提前分析识别，降低车速再进行汇入车流的动作，避免因为车速过快导致车辆被迫拐入其他车道。

在老城区复杂的十字路口，它能综合天气、路边违停、行人动态等信息，推理出潜在风险，以一种近乎“敬畏”的姿态，缓慢而安全地通过。

总而言之，新模型的体验提升并非体现在某个单一功能上，而是一种综合性的飞跃——更顺滑的控车、更果断的反应和贯穿全程的“安全感”。尽管在极端场景（全程共两次，一次是在盲区状况下低速变道遇到了施工路段，另一次是路口临停车多导致转向过晚）下仍需人类接管，但那种驾驶时“心里有底”的信任感，是此前任何系统都难以给予的。

值得一提的是，因为文字指令的关系，这套智驾系统已经可以用语音进行基础性的操作，例如“请开快、开慢一点”等指令能够被系统接收，并以决策的形式给到操纵端。VLA也已经可以直接读取交通标识上的文字说明，并且按照指示优化驾驶（例如有些路口左转红灯可以进待行区）。

接下来的智驾竞赛，将会如何展开？

在昨天的发布会交流环节上，周光自己表示：VLA目前还没有完全实现思维链（CoT），目前这一技术路线的得分也只是到6而已（满分10分），还有大量的优化要做。

接下来的主要任务主要是两项，一是持续收集和丰富自有测试车队、量产车数据，以及生成数据；另一个是看清技术趋势，持续完善VLA的后训练，不断优化大模型的表现。

对于行业接下来的发展，周光也提了一些观点，其中最重要的三点是：

VLA的成本差异主要在芯片，具体的成本差异不确定，但目前来看15万元以上的车型都可以适配，10万元级别的车型通过优化也有机会搭载；
早期的智驾芯片主要针对CNN设计优化，VLA模型应用之后，芯片一定会加强对Transformer的支持，尤其是在FP4、FP6等精度的算力优化上；
如果车企或供应商想自研辅助驾驶系统，也很难跳过从规则算法、端到端1.0到VLA模型的过程，每个发展过程有自己的Know-How。顶多可以压缩某些阶段的时间，但不可能完全绕过。

如何让AI真正地“理解”并“敬畏”真实世界，从“会开车”到“会思考”，智驾技术和产品正悄然迈入一个新的实战时刻。

本文来自虎嗅，原文链接：https://www.huxiu.com/article/4742364.html?f=wyxwapp

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.