网易首页 > 网易号 > 正文 申请入驻

为什么把VLA直接放上自动驾驶汽车没那么容易?

0
分享至

[首发于智驾最前沿微信公众号]在自动驾驶领域,经常会有技术提出将VLA(视觉—语言—动作模型)应用到自动驾驶上。VLA的作用就是把看、懂、决策三件事交给一个大模型,摄像头看到画面,模型用“视觉+语言”去理解场景和意图,最后直接输出要不要转向、踩刹车这样的动作。这个模型的好处显而易见,模型能用更丰富的语义理解来辅助决策,理论上更灵活、更接近“人怎么想就怎么做”的需求。但从实际落地和安全角度看,直接将自动驾驶汽车的行驶全部交给VLA,又有很多现实的难点和坑。

边缘场景或将难以理解

大模型是靠大量数据学会“看”和“说”,但自动驾驶强调的是不能能“看”,更要能做对事。交通环境中常见的场景很容易被模型学会,但真正危险的往往是那些如临时摆放的异物、非常规施工标识、突然冲出来的行人、凹陷或湿滑的路面、以及复杂的多车交互等不常见的极端情况。把这些长尾场景都采集齐全几乎不可能,尤其是要配套高质量的动作标签(也就是在那些场景下“应该怎么做”)更是难上加难。

对于边缘场景,有些技术方案提出使用仿真帮忙补样本,但仿真和真实世界总有差距。光照、材质、行人行为建模都很难完全拟合现实。有时在仿真里“得分高”的策略,也可能利用了仿真里的漏洞,如果这些策略到了真车上反而会危险。对于大模型学习还有一点不容忽视,用于训练控制的标签必须是物理可实现的。不是所有人为操作示例都适合直接当作监督信号;一些看起来“聪明”的人为反应其实依赖于人类的直觉和肉体补偿(比如猛打方向时人的身体补偿),模型直接模仿这些反而可能超出车辆动力学极限。

因此单靠堆数据和堆算力,无法把所有可能的危险都消灭掉。更可行的做法是把VLA用来补强语义理解和异常检测,而不是把完全的控制权一次性托付给它。把它当成能给出“高层建议”的大脑,而由经过验证的低级控制器来做最终执行,会安全得多。

能想出来不等于能做得到

语言模型擅长推理和生成,但车辆有明确的物理约束。一个优秀的驾驶“想法”可能需要的转向角、加速度或车体倾斜等要求,有些在现实中可能根本实现不了。若不把这些物理约束强行嵌入到输出环节,模型又有可能提出不可行或危险的轨迹。对于这类问题,要么在模型输出端加上物理约束或后验校正,要么把动作空间离散化让模型只选“有限个可行动作”。前者可以保持流畅性但增加工程复杂度,后者虽然简单但牺牲了自然和效率。

还有就是时序问题。自动驾驶的控制回路有严格的频率和延迟要求。若模型在算力受限的车端运行太慢,或者把重要推理放在云端遇到网络波动,决策就会基于旧画面来执行,这反而会带来驾驶风险。那种“决策滞后于现实”的情况,比决策错误还危险。很多常见的解决思路是“快思维+慢思维”架构,小而稳定的模型在车端做基础感知和闭环控制,复杂的语义推理和策略优化放在后台或云端,只在非关键时刻下提供建议。但这要求架构设计非常严谨,必须保证背景推理的结论不会在关键时刻破坏即时控制路径。

训练端到端系统常用的方法之一是强化学习或带有奖励的优化。若奖励函数设计不当,模型可能学到在训练或仿真中高分但现实里危险的策略。比如会利用某些规则漏洞快速完成任务,或者在仿真里靠冒险动作取胜。解决这类问题需要把安全约束显式纳入训练目标,或采用混合监督(让模型既学专家示范也学安全约束),还要在训练里引入更多对抗和扰动场景。但这些措施会显著抬高训练成本和验证复杂度。

其实对于模型来说,算力和成本也是需要直面的问题,更大的模型意味着更贵、更耗电、更热、需要更强的散热设计,这直接影响整车成本和可靠性。这就要求厂商采用“既省钱又靠谱”的折中方案,而不是盲目堆模型参数。

黑箱很难过审,责任也难界定

传统自动驾驶系统将感知、预测、规划、控制等各模块分得非常清晰,各模块可以单独验收、打桩测试、形式化验证。端到端的VLA可以把这些环节耦合在一起,提升效率,但出问题时也很难追根溯源。监管机构、保险公司和法律体系更信任可审计、可重放、可证明的决策路径。一个不能解释为何在某一时刻紧急转向或未能刹停的黑箱模型,在面对事故调查和责任认定会极为不利。

这就要求必须设计日志机制、关键中间态保存和可回溯的决策证据。把VLA用于生成解释性文本(例如“由于前方有临时施工牌,我建议减速”)是一条可行路径,但这种解释必须真实可验证,不能只是后置拼凑的“借口”。此外,形式化安全约束和保证性测试在端到端系统里更难做,需要新的验证方法论和更多的试验数据,短期内法规适配也是一道门槛。

视觉好用但不会在所有场景都看清

VLA的名字里有个“V”(视觉),这意味着相机会是主传感器。相机能提供丰富的语义信息,但在弱光、逆光、雾霾、雨雪或被遮挡时,它的表现会明显下降。雷达和激光雷达在测距和穿透性上有优势,但它们给出的信息不是“语义友好”的,对于“这是谁/这块牌子意味着什么”的解释不如视觉直观。把视觉的语义理解和雷达/激光雷达的物理量整合起来,是一件技术上复杂但很有必要的事。

此外,同样的视觉目标在不同城市或国家外观可能差别很大,标准交通标识、路面材质、车辆样式都不同。模型的跨域迁移需要大量本地化数据和细致的微调,不然在新环境中容易出问题,就像特斯拉FSD在国内使用初期,其表现也并不是很好。简而言之,要让大模型做到“放车就能跑遍全世界”,现阶段还不现实。

如何安全地把控制权还给人?

VLA最大的优势之一是能用自然语言和人互动,这对用户体验很重要。但自然语言含糊和歧义性极高。用户可能给出矛盾或不完整的指令,系统必须在理解意图与遵守安全约束之间平衡。还有一个更现实的情况是,系统在遇到边缘场景时,如何安全地把控制权还给人?人被动从乘客身份到主动接管需要时间和注意力切换,如果这个过程设计不当,就会增加风险。因此,需要明确接管触发条件、足够的时间窗和清晰的提示方式,同时在设计上尽量减少对用户即时高复杂度决策的依赖。

对于消费者来说,对自动驾驶汽车的信任也非常关键。一次危险的动作就可能毁掉用户对系统的信心。要建立信任,系统需要持续可靠且能解释自己的行为。VLA在解释性输出方面有天然优势,但前提是解释必须准确、可验证,并且易于理解。

可落地的折中策略

鉴于VLA模型不可不去面对的这些挑战,现阶段最务实的做法是渐进式、混合式落地。把VLA用在语义理解、异常检测、场景注释、人机交互等对实时性不那么敏感但对语义能力要求高的功能上,让它成为“智能的助手”;对于关键的高频控制仍然交给经过验证的低级控制器。还有一种思路就是把VLA当作慢思维:在后台做长时间的策略优化、驾驶风格学习和复杂场景分析,再把受限的结论以可解释且受约束的方式下发给车端控制系统。

对于商用化的模型,还必须设计好回退机制、日志与可审计模块,并把它们写进每一次版本的验收标准。数据采集策略要优先覆盖那些影响安全的长尾场景,仿真和现实测试要结合进行,验证体系要能给出可量化的安全证据而不是单纯的性能曲线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

一加盟商此前控诉被闭店,沪上阿姨称涉事加盟商制假售假获刑

南方都市报
2026-05-31 14:26:27
普京下达禁令,断供立即生效,航油不卖中国,欧盟启动应急方案

普京下达禁令,断供立即生效,航油不卖中国,欧盟启动应急方案

爱看剧的阿峰
2026-06-03 05:56:50
身价过百亿,坐拥北京一条街,出门私人飞机,京圈内的富婆都有谁

身价过百亿,坐拥北京一条街,出门私人飞机,京圈内的富婆都有谁

历史伟人录
2026-04-28 17:50:14
63岁大妈:给我儿子100万买房,就做你老伴,大爷:你还18岁吗?

63岁大妈:给我儿子100万买房,就做你老伴,大爷:你还18岁吗?

拾代谈生活
2026-06-03 08:24:06
55岁的阿姨,旅游时贪图新鲜感出轨,回到家后十分痛苦

55岁的阿姨,旅游时贪图新鲜感出轨,回到家后十分痛苦

惟来
2026-06-02 10:27:09
董璇晒三世同堂照为女儿庆生,高云翔和父母全出镜,对酒窝很宠溺

董璇晒三世同堂照为女儿庆生,高云翔和父母全出镜,对酒窝很宠溺

笑谈历史阿晡
2026-06-03 02:52:21
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
“冤不冤?”内蒙古,一女子还在哺乳期,就开始做上门按摩服务

“冤不冤?”内蒙古,一女子还在哺乳期,就开始做上门按摩服务

阿振观点
2026-06-01 20:09:42
雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰夹着尾巴逃了

雷达全瞎、通信中断、直升机降不下来,荷兰护卫舰夹着尾巴逃了

一簌月光
2026-06-03 03:18:22
何猷君婚礼誓词说佩服奚梦瑶:走到今天,是你自己一步步走出来的

何猷君婚礼誓词说佩服奚梦瑶:走到今天,是你自己一步步走出来的

韩小娱
2026-06-03 09:11:24
中美夏威夷密谈2天,谈完后才公布!真让高市早苗哭的时刻到了!

中美夏威夷密谈2天,谈完后才公布!真让高市早苗哭的时刻到了!

叹为观止易
2026-06-03 05:20:41
张柏芝案判决强制执行,王菲谢霆锋处境曝光

张柏芝案判决强制执行,王菲谢霆锋处境曝光

圆梦的小老头
2026-06-02 11:57:15
她是文强的妻子,被判刑8年,将弟弟也害了,出狱后她现状如何?

她是文强的妻子,被判刑8年,将弟弟也害了,出狱后她现状如何?

细品名人
2026-06-02 07:08:23
别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

别羡慕网红赚得多!董赤赤的下场,给所有追名逐利的人敲了警钟

法老不说教
2026-06-02 20:50:31
老两口割麦到深夜,回家想泡方便面凑合一口,进屋一看红了眼眶

老两口割麦到深夜,回家想泡方便面凑合一口,进屋一看红了眼眶

一丝不苟的法律人
2026-06-02 19:47:42
央视再曝新毒物!长期用会致癌,已流窜至全国,不少婴儿孕妇中招

央视再曝新毒物!长期用会致癌,已流窜至全国,不少婴儿孕妇中招

阿讯说天下
2026-06-03 03:30:45
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
上海丢G4发布会!卢伟表扬球员,拒谈判罚问题!弗格主动揽责!

上海丢G4发布会!卢伟表扬球员,拒谈判罚问题!弗格主动揽责!

篮球资讯达人
2026-06-02 22:41:44
江苏养老金调整或将开始,历年调整方案,3600元能涨上120元吗?

江苏养老金调整或将开始,历年调整方案,3600元能涨上120元吗?

云鹏叙事
2026-06-02 18:42:06
在人均GDP基本相同的国家中,为什么中国生育率最低?

在人均GDP基本相同的国家中,为什么中国生育率最低?

何亚福
2026-06-02 19:23:06
2026-06-03 10:52:49
智驾最前沿
智驾最前沿
自动驾驶领域专业的技术、资讯分享平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。
468文章数 11关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

头条要闻

牛弹琴:中国一邻国正在疯狂表演 严重伤害中国人感情

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
健康
游戏
艺术
公开课

家居要闻

流线型轮廓 包容多元身形

违规干细胞应用,暗藏致命隐患!

首发又无Xbox!《寂静岭:小镇陷落》ESRB评级泄露

艺术要闻

二十年前割麦的场景

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版