网易首页 > 网易号 > 正文 申请入驻

李想下重注的VLA,到底能不能干掉端到端?

0
分享至

伴随着各路头部智驾企业奋力攻坚L3,视觉语言动作模型VLA替代了去年大火的端到端方案。

那么,作为新的算法架构,VLA相较于之前方案的进步到底在哪里呢?

当小甜甜变成了牛夫人,昔日的座上宾就有可能被冷落在一边。

2024年,整个本土车圈还是开口端到端,闭口端到端,似乎要跟端到端爱到沧海桑田、海枯石烂。

进入2025年,这些渣男们就变了脸,开始将VLA呼作小甜甜。

其实,从算法的形式上来看,VLA也是视频入、轨迹出的端到端方案。

相较于更早之前的分模块方案,端到端方案的本质是以深度神经网络DNN取代分模块方案中的规则代码,以一个完整的神经网络的形式从自动驾驶算法的输入端(以视觉为主的各类传感器信息)直接贯通到输出端(行驶轨迹)。

不过,传统端到端神经网络的架构为基于判别式AI的BEV+OCC+AI Planning小模型,而VLA虽然在形式上仍然是神经网络架构,但其架构已经升级为基于生成式AI的多模态大模型。

小模型到大模型的转变是当前这波轰轰烈烈的AI热潮的主旋律,智能辅助驾驶行业的主流模型架构由端到端小模型升级为端到端大模型,也不过是追求大时代的脚步罢了,没什么好稀奇的。

参考元戎启行的说法,传统端到端方案是只具备专业领域能力的端到端1.0,视觉语言动作模型是具备跨越多个领域通识能力的端到端2.0。

端到端小模型到端到端大模型、端到端1.0到端到端2.0的核心转变与整个AI领域小模型到大模型的转变一脉相承。

AI模型在GPT出现前后的转变在于出现了基于海量数据学习、灌注世界知识的大语言模型,智驾模型在VLA模型出现前后的转变同样在于引入了大语言模型。

或者可以这样认为,VLA是在原本的V-A模型中引入了L,由V-A演变成了V-L-A,如果在这里列一个数学公式,就是V-L-A = V-A + L。

爱因斯坦说过,一切都应该尽可能地简单,但也不能过于简单。

简单地理解VLA模型和传统端到端方案的区别就是,传统端到端方案相当于在视觉动作VA模型,引入大语言模型L(LLM),VA+L=VLA,表示VLA是引入了大语言模型能力的进阶版端到端。

如果简单照搬,以理想汽车为代表的双系统方案指的是端到端系统1+视觉语言模型系统2。

系统1是视觉动作模型VA,系统2是视觉语言模型VL,VA+VL=VLA,是不是意味着理想汽车的双系统方案也能带来类似VLA模型的能力表现?

答案当然是包不同经常挂在嘴边的“非也,非也。”

从神经网络的形式来看,端到端系统1的输入端是以视觉为主的传感器信息,输出端是行驶轨迹。

视觉语言模型系统2的输入端是2D视觉信息、导航信息,输出端是文本而非轨迹。

VLA的输入端是视觉为主的传感器信息、2D视觉信息、3D视觉信息、导航信息、语音指令信息,输出端是文本和行驶轨迹。

从面向智能辅助驾驶应用的神经网络形式来看,系统1和VLA模型均为(传感输入)端到(控制输出)端神经网络,而视觉语言模型2因其输出端并非轨迹,导致其并非端到端神经网络!

其结果就是,无论是端到端系统1还是作为被称为端到端2.0的视觉语言动作模型,其在神经网络架构上均能实现全程可导。

来自驾驶车队的海量数据和来自世界模型的高质量生成数据,都可以通过反向传播推动神经网络的参数更新和能力进步。

而视觉语言模型因为其并不直接输出轨迹,导致无法受益于真实数据和生成数据的驱动。

全程可求导和非全程可求导的区别在于,无论是数据驱动的端到端还是知识驱动的VLA,都能高效率、低成本地通过自动化的数据闭环实现驾驶场景数据驱动,而视觉语言模型无法借助数据闭环,实现高效率、低成本的数据驱动。

废话放在一边,直接开门见山。

在算法架构层面,VLA引入了大语言模型,在算法形式层面,VLA保持了从传感输入到轨迹输出的端到端神经网络形式。

那么,在能力层面,相较于第一代的端到端、第二代的端到端+VLM,VLA带来了哪些升级呢?

这当然要从大语言模型谈起。

和端到端1.0相比,VLA最为重要的转变在于引入了大语言模型。

大语言模型带来了理解能力和生成能力的双重升级。

具体到对驾驶场景的理解能力上,传统端到端方案缺乏对场景语义的深层解析,VLA能够构建多层次的语义特征,捕捉数据中的复杂模式,这种来自大语言模型的逻辑推理能力可以实现对复杂交通场景的语义化理解。

在传统端到端方案的基础上,VLA模型具备融合复杂交通标志、交警和行人手势、交警口令等多模态信息的整合能力,打开了自动驾驶系统根据临时交通标志、交警手势灵活性驾驶的潜力。

具体到驾驶轨迹的输出能力上,VLA模型引入了CoT思维链,可以像特斯拉和蔚来的车端世界模型中的“视觉思维链”那样,对未来场景进行各种预演和长时间推理。

根据对未来一段时间内场景状态的预测和实际场景状态的偏差,对思维链进行动态调整,修正预测偏差。

世界模型或视觉思维链这种先预判、再根据执行动作和场景感知进行策略修正的做法,非常吻合人类司机驾驶行为中的认知模式。

此外,VLA模型在预训练阶段吸收了互联网规模数据中包含的交通规则、车辆运动学、物理规律,可以生成更精确、更符合交规的驾驶轨迹。

VLA模型在强化学习阶段可以根据司机接管行为和人类偏好进行模型强化,可生成更具安心感和舒适感的驾驶轨迹。

总之,由于LLM的嵌入,VLA实现了更精细的场景感知、更准确的语义理解、更符合人类认知模式和偏好的轨迹。

相较于之前的端到端方案,VLA模型在一定程度上实现了性能跃迁。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
穿衣不自由!女解说被批裙子太短 全身涂黑上镜回击

穿衣不自由!女解说被批裙子太短 全身涂黑上镜回击

游民星空
2026-04-12 12:56:12
鲁比奥再撤销伊朗精英绿卡,将其驱逐出境,撤销人数或高达4000人

鲁比奥再撤销伊朗精英绿卡,将其驱逐出境,撤销人数或高达4000人

山河路口
2026-04-12 00:55:26
上海植物园猥亵惯犯落网!被抓6次,仍嬉皮笑脸毫无羞耻心太可恶

上海植物园猥亵惯犯落网!被抓6次,仍嬉皮笑脸毫无羞耻心太可恶

行者聊官
2026-04-12 15:46:42
长谈21小时未果,万斯离开前竖大拇指,特朗普关键时刻看格斗赛 ,伊朗:不着急

长谈21小时未果,万斯离开前竖大拇指,特朗普关键时刻看格斗赛 ,伊朗:不着急

红星新闻
2026-04-12 15:44:23
“我相信蔚来ES9会取得和ES8一样的成功”

“我相信蔚来ES9会取得和ES8一样的成功”

汽车公社
2026-04-11 08:34:15
反映66盏路灯不亮,却被威胁“先拘留15天”:湖南男子的真实遭遇

反映66盏路灯不亮,却被威胁“先拘留15天”:湖南男子的真实遭遇

听心堂
2026-04-12 14:50:13
东风日产NX8动了理想的蛋糕,李想气的朋友圈飙脏话

东风日产NX8动了理想的蛋糕,李想气的朋友圈飙脏话

智电汽车.
2026-04-12 10:48:15
特朗普转发“海军封锁”伊朗的文章

特朗普转发“海军封锁”伊朗的文章

环球网资讯
2026-04-12 13:47:13
山西吕梁中院一法官被曝在其办公室内猥亵案件当事人,警方已立案

山西吕梁中院一法官被曝在其办公室内猥亵案件当事人,警方已立案

大风新闻
2026-04-12 14:55:09
全国几十家法院、检察院援引不存在的《印章管理办法》发布公告

全国几十家法院、检察院援引不存在的《印章管理办法》发布公告

追月数星
2026-04-12 11:20:28
11天9次密集发声!伊朗新领袖“冒死接班”一月未露面,突然全面亮剑

11天9次密集发声!伊朗新领袖“冒死接班”一月未露面,突然全面亮剑

国是直通车
2026-04-11 19:48:07
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
3大腿神的最强组合!我全都要!

3大腿神的最强组合!我全都要!

贵圈真乱
2026-04-12 10:43:38
扛不住了?巴拿马总统突然发声,对中国说了句让所有人意外的话

扛不住了?巴拿马总统突然发声,对中国说了句让所有人意外的话

近史博览
2026-04-12 05:12:17
iPhone 17 突然降价,4月12日,现货开卖!

iPhone 17 突然降价,4月12日,现货开卖!

科技堡垒
2026-04-12 11:43:16
46岁黄金配角赵达官宣结婚!曾与殷桃谈婚论嫁 今娶1.8米美女总裁

46岁黄金配角赵达官宣结婚!曾与殷桃谈婚论嫁 今娶1.8米美女总裁

一娱三分地
2026-04-12 00:19:18
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
4-1!2亿巨星暴走,亚马尔独造3球,巴萨一箭双雕,皇马四大皆空

4-1!2亿巨星暴走,亚马尔独造3球,巴萨一箭双雕,皇马四大皆空

我的护球最独特
2026-04-12 02:35:50
终于和解,成龙与房祖名惠州亲密同游,修复关系全靠孙子与钞能力

终于和解,成龙与房祖名惠州亲密同游,修复关系全靠孙子与钞能力

一盅情怀
2026-04-10 15:41:48
马斯克版“微信”来了,iPhone下载需谨慎!

马斯克版“微信”来了,iPhone下载需谨慎!

果粉之家
2026-04-12 12:57:47
2026-04-12 17:59:00
燃擎频道 incentive-icons
燃擎频道
中国汽车自媒体前30强!
8686文章数 231288关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊朗不接受美"红线" 消息人士:美在谈判决策上犯了错

头条要闻

伊朗不接受美"红线" 消息人士:美在谈判决策上犯了错

体育要闻

五大联赛首冠出炉?拜仁或提前4轮卫冕德甲

娱乐要闻

46岁赵达官宣结婚!曾与殷桃谈婚论嫁

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
亲子
艺术
本地
公开课

教育要闻

Q开头的单词!

亲子要闻

“孩子都8岁了 一定要分床睡”,医生分享:如果孩子长期不和家人分床,“会影响性格发育、情商发育 很难培养独立性”

艺术要闻

书法“初学者”如何选帖?这3大重点一定要牢牢记住!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版