网易首页 > 网易号 > 正文 申请入驻

为什么很多车企都青睐VLA模型?

0
分享至

[首发于智驾最前沿微信公众号]就在最近,小鹏发布了第二代视觉—语言—动作(VLA)模型。其实随着自动驾驶技术的发展,行业正处于从手工规则体系向物理世界大模型的深层跨越。早期的自动驾驶方案高度依赖于模块化的架构设计,将感知、预测与规划拆分为独立的环节。

但随着行驶场景复杂度的增加,模块间信息流失和规则局限导致的瓶颈日益凸显。其实不仅仅是小鹏,理想、吉利等车企也都将VLA模型用于量产车,为何那么多车企都依赖VLA模型?

相较于模块化,VLA有何优势?

传统的自动驾驶架构采用级联设计。传感器采集数据后,由感知模块进行目标检测与语义分割,输出物体标签;随后,预测模块计算周围参与者的可能轨迹;规划模块再根据预设的数学模型生成车辆的行驶路线。

在这种模式下,任何前端感知的微小误差都会在后续环节中被放大,且由于各模块之间采用的是预定义的手工接口,系统很难捕捉到环境中微妙的非结构化信息。



模块化架构示意图,图片源自:网络

VLA模型的引入彻底改变了这一流程。视觉—语言—动作模型(Vision-Language-Action,VLA)本质上是一种端到端的智能系统,它通过统一的神经网络将多模态感知与高层逻辑推理、底层动作执行融为一体。

其核心价值是将原本相互独立的感知模块(看)、逻辑模块(想)与执行模块(做)在同一个语义空间内完成了对齐。与传统的自动驾驶系统相比,VLA不仅能够识别环境中的像素点或几何结构,更能理解这些信号背后的语义逻辑。

VLA模型由视觉编码器、大语言模型(LLM)骨干网络以及动作解码器三个核心组件构成。视觉编码器将摄像头采集的多视角图像转化为高维的特征向量,这些向量包含了环境的空间布局与物体特征;LLM骨干网络则作为决策中心,利用预训练过程中积累的海量世界知识对视觉特征进行逻辑加工;动作解码器则将这些抽象的推理结果转化为如转向角度、加减速数值等具体的物理动作。



VLA架构示意图,图片源自:网络

这种一体化的映射方式使得系统能够以一种更接近人类认知的方式来处理驾驶任务。在人类驾驶过程中,大脑并不会先在意识里标出每一个行人的精确坐标再进行计算,而是基于对场景的整体理解(如“这个行人可能要过马路”)直接产生避让动作。VLA模型通过共享的Transformer架构,对语言、视觉和动作模态进行协同编码,构建了统一的语义空间,实现了从感知理解到动作决策的无缝衔接。

语言转译重要吗?

看到诸多文章介绍小鹏第二代VLA模型时,都提及其去掉了“语言转译”这一环节,那语言转译到底有什么作用?对于自动驾驶来说重要吗?

所谓语言转译,是指将视觉信号“翻译”成自然语言描述(例如“前方路口有交警在指挥”),然后再根据这段文字描述推导出动作指令。这种设计在早期是为了借用大语言模型的逻辑推理能力,但随着技术向量产端推进,其弊端也愈发明显。

自然语言虽然适合表达抽象逻辑,但在描述极其复杂的三维物理世界时,其精度可能不足。将高维的、连续的视觉流压缩成离散的文字标签,不可避免地会丢失大量的空间细节和运动趋势。

此外,在VLA的训练中,研发人员需要为海量的视频数据配上详尽的人工旁白,告诉模型画面中发生了什么,以及为什么要做这个动作。这种“保姆式”的监督学习不仅成本高昂,且标注的速度远远无法满足模型进化的需求。



图片源自:网络

小鹏第二代VLA模型之所以拆掉语言这根“拐杖”,转向了更极致的自监督学习模式,是因为在这种体系下,模型可以直接从原始视频和真实的驾驶轨迹中学习,只要有视频输入和对应的物理动作输出,模型就能自主学习其中的因果关系,无需人工中间介入。

去语言化还可以大幅提升系统的实时性。在自动驾驶中,毫秒级的延迟决定了安全性。VLA模型因为存在多步推理(视觉->语言->动作),计算链路长,有时难以满足毫秒级的响应要求。若将视觉信号直接映射为动作,则可以消除中间解码和生成的耗时。

为了实现这一目标,动作的表征方式也将发生变化,将连续的轨迹预测转化为离散的动作Token,并整合进大模型的词表,是目前可行的路径之一。通过这种方式,动作生成就像语言预测下一个单词一样,能够充分复用大模型已有的序列建模能力。

这种从“语言理解”向“物理直觉”的转变,实际上是自动驾驶向更高级智能形式的演化。它可以让模型变成一个拥有多年驾龄、通过肌肉记忆进行决策的老司机。

VLA的优势在哪里?

自动驾驶的技术发展,已经让自动驾驶系统在高速路或城市路段有了较好的表现,现在最难处理的其实是“长尾场景”。所谓长尾,是指那些在正常行驶中极少出现、难以通过穷举规则覆盖的极端情况,像是马路上突然出现的异形掉落物、复杂的施工路障、交警不规范的手势指挥等都属于长尾场景。

在传统架构中,遇到此类未见过的场景,感知模块可能会报错,或者规控模块会因为没有匹配的规则而采取僵硬的紧急制动。

VLA模型的优势在于它将“理解”引入驾驶决策。基于大规模预训练的大模型拥有强大的知识库和情景理解能力。举个例子,即便模型没有在训练集中见过某种特定形状的施工围栏,但它通过在互联网海量数据中学习到的通识知识,能够理解“红白相间的物体通常代表障碍物”或者“身穿反光背心的人通常是工作人员”。



图片源自:网络

这种基于知识的决策模式,使得VLA能够处理复杂的交互逻辑。在潮汐车道或无图小路等场景下,VLA可以分析周围车辆的意图和环境的细微变化,做出更拟人化的规划。它不会仅是避让障碍物,而是能够理解“此时前车减速可能是为了礼让行人”,从而提前做出预判,避免了传统系统常见的频繁急刹或顿挫感。

VLA模型还具备“双系统思维”的能力。它既能通过快速路径实现类似于本能的驾驶反应(快思考),也能在遇到极端复杂情况时,调动增强的推理逻辑进行深度分析(慢思考)。这种灵活性确保了系统在保证效率的同时,拥有处理高难度决策的上限。

为了解决长尾数据的稀缺性,有些技术方案还引入了“世界模型”(World Models)。世界模型可以被看作是自动驾驶系统的“模拟大脑”,它能够预测动作对未来的影响,并仿真出大量极端的、在现实中难以收集的危险场景进行自我训练。VLA与世界模型的结合,可以让自动驾驶从“在现实中试错”转向“在想象中进化”。

这种能力的提升,意味着自动驾驶系统正在从一个“称职的司机”向“智慧的驾驶专家”转变。VLA不仅解决了“怎么开”的问题,更在底层逻辑上解决了“为什么这么开”的理解问题。

VLA落地的难点在哪里?

大模型一般需要拥有数十亿甚至数百亿的参数,要在车载嵌入式平台上实现毫秒级的推理响应,需要非常多的工程优化。

混合专家架构(MoE)可以将模型拆分为多个专业领域的小模块,在每一时刻仅激活最相关的部分专家,可以在不牺牲模型容量的前提下,大幅降低推理时的计算量。理想就将32B的大模型蒸馏为3.2B的MoE架构,成功部署在Thor芯片上。



图片源自:网络

推理步数的压缩也很关键,传统的路径生成需要多次迭代(如Diffusion模型),而通过引入流匹配(Flow Matching)等算法,可以将原本10步的推理过程压缩至2步甚至1步,从而在10Hz的帧率下实现完整的交互响应。此外,混合精度推理(如INT8/FP8/FP4)和底层算子魔改,也可以进一步利用硬件的有效性能。

虽然VLA模型作为“大脑”负责复杂的认知决策,但行业普遍共识是需要保留一个经过严格验证的传统控制系统作为“安全基座”。这种混合架构确保了即使大模型在某些罕见情况下出现幻觉或推理错误,底层的安全网也能守住最后一道防线。

最后的话

VLA的普及标志着自动驾驶数据竞争重心的转移。以前,企业比拼的是人工标注的数据量;而现在,竞争的核心变成了算力储备、世界模型的仿真效率以及对大规模无标签视频数据的利用能力。

VLA从逻辑理解到物理行动的闭环,不仅加速了端到端技术的成熟,也让自动驾驶系统距离真正的“拟人化”更近了一步。随着算法、算力和数据三要素的持续提升,基于VLA架构的物理人工智能将在更广泛的移动场景中展现其价值,重塑未来出行的安全与效率标准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塔利班规定:男子可殴打妻子但不得致重伤

塔利班规定:男子可殴打妻子但不得致重伤

特约前排观众
2026-03-04 00:10:03
舒淇米兰街头随性出街 简约穿搭气质绝了

舒淇米兰街头随性出街 简约穿搭气质绝了

述家娱记
2026-03-03 11:52:24
太惨烈!影院经理哭诉:整个二月就靠一部电影活命

太惨烈!影院经理哭诉:整个二月就靠一部电影活命

东方不败然多多
2026-03-04 07:54:05
吴桂贤为何好命?大起大落的人生之路,守住良知底线

吴桂贤为何好命?大起大落的人生之路,守住良知底线

混沌录
2026-01-29 23:47:04
体制内情商高能带来啥意外惊喜?网友:别在地铁看,别问我为什么

体制内情商高能带来啥意外惊喜?网友:别在地铁看,别问我为什么

带你感受人间冷暖
2026-02-24 01:03:13
世上没有后悔药!下半身"贪婪"的任素汐,现状印证王菲评价

世上没有后悔药!下半身"贪婪"的任素汐,现状印证王菲评价

秋姐居
2026-02-27 17:16:02
噩耗!利物浦7200万新援官宣手术,《队报》实锤:本赛季彻底报销

噩耗!利物浦7200万新援官宣手术,《队报》实锤:本赛季彻底报销

田先生篮球
2026-03-03 22:56:55
“特朗普以为靠军事震慑中方,然而…”

“特朗普以为靠军事震慑中方,然而…”

观察者网
2026-03-03 14:22:08
15万人撤离,千亿项目烂尾!光伏集体血亏,未来将何去何从?

15万人撤离,千亿项目烂尾!光伏集体血亏,未来将何去何从?

胖福的小木屋
2026-03-03 17:03:43
帕森斯:在我心里詹姆斯就是GOAT,无论怎么排都只有他和乔丹

帕森斯:在我心里詹姆斯就是GOAT,无论怎么排都只有他和乔丹

懂球帝
2026-03-04 11:56:23
不要轻易做手术!医生提醒:62岁后,这5类手术可尽量避免

不要轻易做手术!医生提醒:62岁后,这5类手术可尽量避免

今日养生之道
2026-02-15 14:14:53
美知名学者警告:中东战火或将失控,“爆发世界大战并非不可能”

美知名学者警告:中东战火或将失控,“爆发世界大战并非不可能”

中国青年报
2026-03-03 14:53:26
最受好评iPhone出炉:第一名竟是6年前的小屏神机

最受好评iPhone出炉:第一名竟是6年前的小屏神机

快科技
2026-03-04 07:22:06
如果伊朗倒下,中国将受到重创?别急,中国已备好三条退路

如果伊朗倒下,中国将受到重创?别急,中国已备好三条退路

荷兰豆爱健康
2026-03-03 19:32:58
美军阵亡6人,击落伊朗轰炸机!乱打海湾国家让特朗普都感到意外

美军阵亡6人,击落伊朗轰炸机!乱打海湾国家让特朗普都感到意外

鹰眼Defence
2026-03-03 18:07:38
火箭噩耗!轰下22+12+4主控末节伤退,本就残缺的阵容彻底难了

火箭噩耗!轰下22+12+4主控末节伤退,本就残缺的阵容彻底难了

现代小青青慕慕
2026-03-04 09:38:55
除夕夜我备满桌菜被婆婆踹倒,丈夫默默扶起我:妈,以后靠你自己吧

除夕夜我备满桌菜被婆婆踹倒,丈夫默默扶起我:妈,以后靠你自己吧

奶茶麦子
2026-03-03 19:29:10
李雨桐爆料波及13位明星!胡彦斌薛之谦因爱结仇,周杰伦何炅躺枪

李雨桐爆料波及13位明星!胡彦斌薛之谦因爱结仇,周杰伦何炅躺枪

萌神木木
2026-03-03 12:09:34
现货黄金跌超4% 现货白银跌超12%

现货黄金跌超4% 现货白银跌超12%

证券时报
2026-03-03 19:51:16
狗仔曝31岁白鹿和24岁陈鑫海热恋?2人相差7岁,曾舜晞只是烟雾弹

狗仔曝31岁白鹿和24岁陈鑫海热恋?2人相差7岁,曾舜晞只是烟雾弹

好贤观史记
2026-03-02 21:15:49
2026-03-04 13:27:00
智驾最前沿
智驾最前沿
自动驾驶领域专业的技术、资讯分享平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。
373文章数 11关注度
往期回顾 全部

汽车要闻

比亚迪元PLUS遭导弹袭击 车辆未起火/乘员均生还

头条要闻

从霍尔木兹海峡到地中海 伊朗首度攻击欧盟国家

头条要闻

从霍尔木兹海峡到地中海 伊朗首度攻击欧盟国家

体育要闻

“头铁”拼图在NBA也有生存环境

娱乐要闻

迪丽热巴转机滞留迪拜 错过巴黎时装周

财经要闻

伊朗,正在打破特朗普的幻想

科技要闻

新MacBook Pro首发M5 Pro/Max芯片 17999起

态度原创

旅游
手机
亲子
健康
公开课

旅游要闻

擂响“东方第一鼓”雅集翰墨绘团圆,浦东元宵游园会劲展“动”“静”中国韵

手机要闻

W8周:OPPO、荣耀、vivo线下中端机销量比比看

亲子要闻

30岁女子患有巨阴症,能不能怀上小孩?医生:主要看4个方面

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版