网易首页 > 网易号 > 正文 申请入驻

VLA有哪些难以克服的缺陷和挑战?

0
分享至

从年初开始,本土车企便开始宣传VLA,至今已经过去了半年多的时间,头部企业的VLA依然犹抱琵琶半遮面,迟迟不跟大家见面。

为何?许是因为VLA有三大难以克服的缺陷。

话说三遍淡如水。

整个2024年,本土车圈开口端到端,闭口端到端,把本土自动驾驶行业来了个一锅端的“端到端”顺势成为当年最大的营销热点。

进入2025年,端到端一词越发寡淡,越来越难以助力车企的营销宣传。

与此同时,资本疯狂投入、热潮涌动的本土具身机器人领域,在世界模型和VLA模型之间选择了算力消耗相对较小的VLA模型架构。

一向标榜跟人形机器人技术同根同源的自动驾驶行业自然而然地过渡到了VLA这条技术路线,就像24年的端到端那样,VLA迅速成为25年本土车圈新的营销热词。

欲戴王冠,必承其重。

从视频V入-轨迹A出的端到端方案进化到引入了大语言模型的VLA,在得益于语言智能带来的复杂场景理解能力的同时,也必然要承受语言智能最重大的缺陷-幻觉问题。

从本质上看,大语言模型是一种描述自然语言的概率模型,在大量数据的训练下,给定自然语言数据X,最大化P(X)的概率,实现“熟读唐诗三百首,不会作诗也会吟”的效果。

但是,既然是基于训练数据的概率分布进行下一个Token预测,预测下一个Token时就有出错的可能,幻觉问题在“预测下一个Token”的机制下难以得到根除。

除了基于概率进行预测这个根本的原因,训练数据中的噪声、污染、数据覆盖的不足、上下文窗口的限制、在推理过程中缺乏验证机制、重在强化语言流畅度而非内容真实性的目标函数错位等,都会在一定程度上加剧幻觉的出现。

对那些使用大语言模型进行代码生成、图片生成、文本生成的用户而言,大可以对大模型似是而非的输出莞尔一笑,但人命关天的自动驾驶场景岂能这样胡闹?

在人工智能领域,根据具体场景和技术层级的不同,“对齐”一词有着不同的含义。

在最主流的定义中,对齐指的是给神通广大堪比孙悟空的AI系统带上紧箍咒,确保AI系统的目标、行为和输出符合人类的意图、伦理与社会规范。

在多模态场景中,对齐是指让图像、文字、视频、控制指令、动作轨迹等不同模态的数据映射到具备统一表征的语义空间内。

具体到VLA模型中,模态对齐将视觉感知、语言指令与动作执行映射到同一语义空间,使模型能够根据环境输入和语言指令生成精确的动作。

结合VLA模型架构,模态对齐主要涉及视频+文本编码器-语言模型的输入和语言模型-轨迹+文本解码器的输出两个层面。

输入层面,通过BEV特征提取、OCC特征提取将文本语言描述的目标绑定到空间中的具体实例。

再通过视觉查询模块和分层投影机制,将目标实例进一步绑定到三维坐标系。

最终形成语言描述-空间实例-三维坐标的绑定关系,将视觉特征与语言描述在向量空间中对齐,确保模型能够理解视觉内容与语义的关联关系。

在之前的端到端+VLM双系统方案中,理想、小米们使用AI巨头通过互联网海量图文对预训练出来的VLM做基座模型,再利用驾驶场景数据对基座模型进行后训练。

图-文之间的匹配操作主要停留在2D图像空间,并没有实现语言描述目标和3D空间坐标系内具体实例的绑定匹配。

所以,到了VLA阶段,从业者们需要再接再厉,解决3D视觉、文本模态的对齐。

输出层面,需要将语言模型的推理结果解码为数值化的轨迹,弥合语言空间和动作空间之间的巨大鸿沟。

如何将语言空间内的场景理解与规划转化成符合车辆动力学和物理规律的动作序列,也是一个大难题!

500年前,虽未被压在五行山下却也在龙场困坐愁城的阳明先生经历了和现代人一样的困惑:“懂得这么多道理,为什么我还是过不好这一生?”

悟道之后,阳明先生深刻地洞察到,知和行之间有着十万八千里的距离,于是反复强调知行合一。

在现代科技领域,“知”指的是算法能力,通过算法的研发实现认知的突破,“行”讲的是工程能力,以工程化的量产完成从技术理论到产品交付的闭环。

VLA已经完成了从0到1的理论创新,各大巨头开源的VL基础模型也验证了路径的可行性,留给各个车企或智驾方案供应商的任务实际上是从实验室跨越到大规模量产。

或者说,各路自动驾驶玩家在VLA上的创新主要体现在如何做优化、适配、迭代的工程能力上面。

VLA的工程落地也的确正面临多重系统性挑战,除了要靠安全网络给幻觉兜底,准备海量的模态对齐标注数据,还要克服算力上的挑战。

VLA对算力的需求大大超过了之前的端到端和VLM。

从能力上看,端到端能看、会做,VLM能看、会说,VLA能看、会说还能做,实现了真正的“知行合一”。

更高的能力自然需要更高的算力。

据悉,理想汽车去年部署在英伟达Orin X上的VLM参数规模达22亿,通过后训练量化技术GPTQ、投机采样、ViT、算子融合和流式视频编码器等技术,将运行频率提高为3Hz。

到了今年的Thor-U上,理想汽车通过混合精度量化(INT8/FP8)和自研MoE架构在40亿参数的VLA上实现了10Hz的推理帧率。

有专家指出,70-100亿参数的VLA才能具备较强的场景理解和规划能力,理想VLA的40亿参数规模低了点。

不仅如此,推理频率最好能做到20Hz,根据目前已知的消息,理想计划通过INT4/FP4的极限量化提升推理频率,工程难度可想而知。

3D视觉与语言语义之间的断层、语言世界和动作世界之间的鸿沟、幻觉的幽灵和算力的囚笼。

尽管VLA有如此之多的缺陷,小鹏、理想、元戎启行们依然选择了果断亮剑,为他们这种初生牛犊不怕虎的精神点赞!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

你敢信吗?太湖底下有2.3米厚的淤泥,可上面才盖着不到1.9米的水

掠影后有感
2026-04-01 20:26:07
只要和平不要统一吗?其实郑丽文已经回答了,她还要当台湾领导人

只要和平不要统一吗?其实郑丽文已经回答了,她还要当台湾领导人

影孖看世界
2026-04-11 14:06:58
刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

复转这些年
2026-04-06 22:24:11
夏克立遭爆「狂传对镜自慰裸照」!2女被迫上床 前经纪人心痛发声

夏克立遭爆「狂传对镜自慰裸照」!2女被迫上床 前经纪人心痛发声

ETtoday星光云
2026-04-09 12:22:15
24小时70架运输机抵达中东! 纽约时报嘲讽: 美国已经沦为全世界笑

24小时70架运输机抵达中东! 纽约时报嘲讽: 美国已经沦为全世界笑

凡知
2026-04-11 13:48:46
他以为中国军队会顾忌国际观感而不敢动手,结果成了级别最高俘虏

他以为中国军队会顾忌国际观感而不敢动手,结果成了级别最高俘虏

古书记史
2026-04-10 23:51:43
闭门会谈一小时,郑丽文发出邀请,大陆讲出一句话,定调两岸统一

闭门会谈一小时,郑丽文发出邀请,大陆讲出一句话,定调两岸统一

头条爆料007
2026-04-11 08:53:36
涉嫌严重违纪违法,杨福仁被查

涉嫌严重违纪违法,杨福仁被查

吉刻新闻
2026-04-11 12:55:12
中年男人最大的悲哀是什么?网友:我,中年女人,也对啥都没兴趣

中年男人最大的悲哀是什么?网友:我,中年女人,也对啥都没兴趣

带你感受人间冷暖
2026-04-10 01:21:44
马斯克:西方不搞电车,欧日韩集体拥抱氢能,中国电动车真的错了

马斯克:西方不搞电车,欧日韩集体拥抱氢能,中国电动车真的错了

史行途
2026-04-08 15:27:19
孔刘近期素颜照片引热议,网友感叹:“孔刘老了”

孔刘近期素颜照片引热议,网友感叹:“孔刘老了”

韩小娱
2026-04-11 07:45:07
张兰心寒后,马筱梅怒了,不回北京原因曝光,走了小杨阿姨的老路

张兰心寒后,马筱梅怒了,不回北京原因曝光,走了小杨阿姨的老路

冷紫葉
2026-04-11 00:24:03
世界杯冠军怒批曼联!2600 万卖他,堪称队史最蠢操作

世界杯冠军怒批曼联!2600 万卖他,堪称队史最蠢操作

奶盖熊本熊
2026-04-11 05:38:46
刚刚,以色列再次致命绝杀,彻底葬送美国生路

刚刚,以色列再次致命绝杀,彻底葬送美国生路

一个坏土豆
2026-04-10 20:20:13
谁同意、谁反对?文班自宣MVP引爆全美舌战

谁同意、谁反对?文班自宣MVP引爆全美舌战

茅塞盾开本尊
2026-04-11 13:26:23
嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

嫁大自己18岁的凌峰,八十年代号称青岛美女贺顺顺,如今过得咋样

揽星河的笔记
2026-04-10 18:42:07
欠中国500亿没能力偿还,准备拿小岛抵债?比澳门面积大2倍

欠中国500亿没能力偿还,准备拿小岛抵债?比澳门面积大2倍

角落的隐藏美景
2026-04-11 05:03:19
江苏发布2名省管领导干部任职前公示

江苏发布2名省管领导干部任职前公示

金台资讯
2026-04-11 07:59:43
深圳单独给老人发津贴,为何董明珠却表态:农民养老金慢慢来?

深圳单独给老人发津贴,为何董明珠却表态:农民养老金慢慢来?

匀枫财技大兜底
2026-04-11 13:23:09
印度人来上海旅游,回国后摇头感慨:中国已经是超一等国家了

印度人来上海旅游,回国后摇头感慨:中国已经是超一等国家了

趣味萌宠的日常
2026-04-11 08:36:13
2026-04-11 14:59:00
燃擎频道 incentive-icons
燃擎频道
中国汽车自媒体前30强!
8686文章数 231288关注度
往期回顾 全部

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

头条要闻

媒体:多套雷达系统受损 美国尴尬发现"又要求助中国"

头条要闻

媒体:多套雷达系统受损 美国尴尬发现"又要求助中国"

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

态度原创

本地
健康
亲子
艺术
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

干细胞抗衰4大误区,90%的人都中招

亲子要闻

碳板跑鞋又贵,又有害健康,但为什么小孩哥都这么喜欢?

艺术要闻

17位当代青年画家油画欣赏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版