网易首页 > 网易号 > 正文 申请入驻

智驾路线暗战升级:元戎启行理想向左,华为博世向右

0
分享至

近日的两场发布会,再次引发业界对智驾路线的争论和思考。

一是,元戎启行正式发布全新一代辅助驾驶平台DeepRoute IO 2.0,以及自研的VLA(Vision-Language-Action,视觉语言动作模型),融合视觉感知、语义理解与动作决策三大核心能力。据悉,元戎启行已达成5个定点合作项目,首批量产车即将进入市场。

“虽然目前VLA仍处于早期,相当于‘幼年期’,但它的技术上限已经远超传统端到端方案。新一代架构需要新一代芯片支持,这不是CNN时代可比的。”面对自动驾驶路线之争,元戎启行CEO周光如此阐述了VLA的优势和远景参数图片)。



二是,华为乾崑媒体日现场,华为智能汽车解决方案BU CEO靳玉志接受了媒体采访,并针对“辅助驾驶最终技术路线”进行了回答。在他看来,华为不会采用VLA,WA(World Action,世界行为模型)才是能真正实现自动驾驶的终极方案。

靳玉志认为,华为更看重WA,中间省掉VLA的language环节,让vision成为一个代表,它可能来自于声音,可能来自vision,也可能来自于触觉。这个路径目前看起来非常难,但能实现真正的自动驾驶。

当智能化进入下半场,辅助驾驶赛道已是刺刀见红,不同技术路线的竞争日趋激烈——以理想、小鹏和元戎启行为代表的企业押注VLA,一跃从“端到端时代”迈入“VLA新纪元”,而以华为为代表的企业则更看重WA,认为VLA增加了不必要的中间环节。

那么,究竟谁能最终胜出?

“VLA的下限,超过端到端上限”

元戎启行是业界最早布局VLA、也是进展最快的玩家,在创始人周光看来,VLA的面世是一个跨时代的进展,它标志着自动驾驶正式进入大模型时代。下半年,元戎启行的VLA模型即将量产上车,这将成为公司技术发展的一个重要里程碑。

从技术层面,周光将VLA模型称为“基于GPT的端到端模型”,与传统的CNN端到端模型有本质区别。CNN架构自2012年发展至今,GPT则是基于Transformer大模型架构,两者在参数量、数据处理等方面差异显著。



周光认为,BEV视角存在先天局限,就像玩坦克大战,墙后的物体一旦无法被看到,系统就会认为“不存在”。可现实中,真实的视角更像CS(游戏《反恐精英》),司机会借助毫米波雷达等传感器,或凭借对空间遮挡关系的理解,采取谨慎策略通过复杂场景——

这并非要“穿墙透物”,而是必须提升对高级语义和空间关系的理解能力,这一点,恰恰是CNN端到端系统难以实现的。

另一方面,VLA有其护城河。

“VLA融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。”

第一代端到端系统正逐渐触及性能瓶颈,当前以CNN为载体的模型,无论用多少数据或额外训练手段,其提升空间已非常有限。正因为端到端有其上限与瓶颈,才有更多玩家大胆探索,押注VLA赛道,从长远上解决端到端的难题。



周光介绍了VLA模型的四大核心功能。

分别是:空间语义理解、异形障碍物识别、文字类引导牌理解和记忆语音控车,这些功能将根据实际部署节奏逐步释放。

其中,空间语义理解是最新版本的最大亮点,该功能可在视野受限的动态或静态盲区环境中(如公交车遮挡、复杂路口、桥洞等)感知潜在风险,主动对盲区进行“预防性预判”。系统可在风险出现前提前减速、稳妥通行,具备高度拟人化的防御性驾驶策略,为用户带来更安心的出行体验。

其余三项能力,异形障碍物识别能使系统能够识别并灵活应对如施工锥桶、超载小货车等非结构化障碍;文字类引导牌识别让系统“看懂路标”,准确解析潮汐车道、公交专用道等文字信息;记忆语音控车功能支持自然语言指令交互,并逐步学习用户偏好,带来更具个性化与拟人化的驾驶体验。



VLA模型,真正的难点是什么?

在周光看来,最难的是思维链(Chain of Thought,CoT)和长时序推理,当然,这也是VLA真正的核心能力。思维链是这类架构的基本要求,没有它,模型就不能算是真正的VLA。

VLA模型具备思维链能力,支持长时序推理,短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。正因为能够进行长时序分析,VLA可以处理更复杂路况,完成更深层次的推理。

VLA的另一个优势,是海量知识库。通过互联网规模的数据蒸馏与训练,模型积累了丰富的常识,而这是CNN或BEV端到端系统所不具备的。



培育“新物种”,道阻且长

“更准确地说,VLA的本质,是基于GPT的端到端模型,目前坚持投入大算力的公司,包括小鹏,其实都在朝这个方向走。比如特斯拉,最新芯片算力达2500TOPS,CNN模型根本不需要如此大规模的算力,只有GPT架构才需要大参数和大算力支持。”

周光认为,CNN模型参数量有限,而GPT架构天然适合扩展,这才是未来方向。

VLA与第一代端到端最根本的区别,是模型架构变了——从CNN转向GPT。训练方法比如是否引入RL,只是策略问题,CNN架构本身无法实现类似人类的推理和泛化能力。



理想的思路,和元戎启行是一致的。

李想把理想汽车的辅助驾驶划分为三个阶段——第一阶段是该公司2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”;第二阶段,是2023年开始研究、并于2024年正式推送的端到端+VLM辅助驾驶,接近“哺乳动物智能”;第三个阶段则是VLA,它将正式开启“人类智能”阶段,通过3D和2D视觉组合,完整地看到物理世界,而非VLM仅能解析2D图像。

“端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。”李想的这个比喻,直接指出了端到端目前的缺陷,为了让智能驾驶“越开越像人”,理想汽车选择推翻此前的架构,自研VLA司机大模型。



值得一提的是,李想和周光都持同一个观点,即VLA不是一个突变的过程,而是一个进化的过程。

周光在采访时表示,从规则算法、端到端1.0到VLA模型,车企或供应商想自研辅助驾驶系统,都无法直接切入VLA,从有图、无图、端到端到VLA模型,每个阶段都无法跳过,整个发展过程必不可少,最多只能压缩某些阶段的时间,但不可能完全绕过。正因为此,他才坚定地认为,VLA模型的下限,其实已经超过端到端方案的上限。

以数据门槛为例,周光曾分析说,一家智驾公司至少要交付上万辆车,才能做端到端1.0(即端到端+VLM),而想要做到一个模块的VLA架构,则需要10万辆级的量产车才行。

李想也曾在一次采访中表态,如果一家企业连规则算法都做不好,那他们根本不知道怎么去做端到端;类似的,如果一家公司无法将端到端做到一个非常极致的水平,那么,他们连VLA怎么去训练都不知道。



面对VLA的火热,华为拒绝跟风。

靳玉志在近日的媒体发布会时强调,VLA依赖视觉和语言的中转,而WE直接省略语言环节。“WA直接通过行为端,或者说,直接通过vision这样的信息输入控车,而不是把各种各样的信息转成语言,再通过语言大模型来控制车。这里的 vision只是一个代表,它可能来自于声音,可能来自于视觉,也可能来自触觉。”

博世智能驾控中国区总裁吴永桥也在世界人工智能大会上表态,博世目前对VLA落地难度有清醒认知,公司依旧将战略重心押注在“一段式端到端”(One-stage End-to-End)技术路径上。



自动驾驶的终局会是怎样?

智能驾驶还远远没有完善的时候,大家都在用自己的思路,探索不同的技术路线,豪赌下一个蓝海。可以确定的是,无论是选择VLA路线的元戎启行和理想们,还是选择走WA路线的华为们,都深知长期主义的重要性。

正如周光在采访环节表示,现阶段,元戎启行还是聚焦于解决0到1的问题,先确保核心能力落地,再优化用户体验。元戎启行将VLA称为“新物种”,而这场培育“新物种”的万里长征,后面依旧道阻且长。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
直到曼城签下多纳鲁马,才发现瓜迪奥拉的足球哲学,可能要变天了

直到曼城签下多纳鲁马,才发现瓜迪奥拉的足球哲学,可能要变天了

二爷台球解说
2025-09-14 14:46:19
卡塔尔挨炸后,埃及向美国传话:若以色列对我动手,后果很严重!

卡塔尔挨炸后,埃及向美国传话:若以色列对我动手,后果很严重!

阿龙聊军事
2025-09-12 19:57:04
湖南油罐车侧翻烧了民房!火光冲天,居民崩溃痛哭:我的房子没了

湖南油罐车侧翻烧了民房!火光冲天,居民崩溃痛哭:我的房子没了

成成鉴话
2025-09-14 21:57:57
对于上海申花最薄弱的门将,姬宇阳给出解决方案

对于上海申花最薄弱的门将,姬宇阳给出解决方案

小彭美识
2025-09-14 08:35:27
九旬老兵吹响冲锋号:战友们,归队!

九旬老兵吹响冲锋号:战友们,归队!

新华社
2025-09-13 14:11:02
医生建议:过了70的老人,宁可牙齿缺失,也别在这4种状态去镶牙

医生建议:过了70的老人,宁可牙齿缺失,也别在这4种状态去镶牙

普陀动物世界
2025-09-12 10:34:07
北约战机出击!波兰封锁中欧班列,外交部为何如此强硬?

北约战机出击!波兰封锁中欧班列,外交部为何如此强硬?

时时有聊
2025-09-12 21:38:39
现实中出轨的人很多吗?网友:这种事不分男女穷富美丑,天性而已

现实中出轨的人很多吗?网友:这种事不分男女穷富美丑,天性而已

解读热点事件
2025-09-11 00:05:09
拒绝降薪,无缘山东,弗格发声,新工作曝光,杨鸣祝福

拒绝降薪,无缘山东,弗格发声,新工作曝光,杨鸣祝福

东球弟
2025-09-14 10:06:29
国内单体规模最大陆上风电项目正式运行

国内单体规模最大陆上风电项目正式运行

财联社
2025-09-14 07:37:07
台湾只要有马英九,朱立伦,洪秀珠,想实现和平统一,门都没有。

台湾只要有马英九,朱立伦,洪秀珠,想实现和平统一,门都没有。

火山杂谈
2025-09-05 00:03:08
91-93输澳洲豪强!焦泊乔首秀13分,杜锋盛赞2小将,球员数据出炉

91-93输澳洲豪强!焦泊乔首秀13分,杜锋盛赞2小将,球员数据出炉

老吴说体育
2025-09-15 00:47:56
尼泊尔今天的局面,是“制度错配”的必然产物

尼泊尔今天的局面,是“制度错配”的必然产物

观察者网
2025-09-13 09:45:05
又一对明星在海外弃养孩子,背后瓜太爆了!

又一对明星在海外弃养孩子,背后瓜太爆了!

毒舌八卦
2025-09-01 23:17:07
远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

远华集团老总赖昌星,在狱中对董文华的回忆,让无数人咋舌

晓艾故事汇
2025-01-09 22:01:49
41岁唐嫣喜讯!

41岁唐嫣喜讯!

鲁中晨报
2025-09-14 07:23:18
天意让你看到这篇文章:从此,你的世界开始变得明亮

天意让你看到这篇文章:从此,你的世界开始变得明亮

金沛的国学笔记
2025-09-03 19:41:21
“浆果儿”事件回顾:200名女主角,拍摄17部视频,内容不堪入目

“浆果儿”事件回顾:200名女主角,拍摄17部视频,内容不堪入目

就一点
2025-09-01 14:01:24
日本入国管理厅的一系列动作,让部分长居在日本的外国人陷入了恐慌

日本入国管理厅的一系列动作,让部分长居在日本的外国人陷入了恐慌

东京在线
2025-09-14 23:58:44
难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

难以相信!她已经61岁了,看起来竟然像三四十岁的样子!

草莓解说体育
2025-08-29 05:54:09
2025-09-15 04:27:00
汽车公社 incentive-icons
汽车公社
汽车公社和一句话点评聚合平台
9494文章数 13431关注度
往期回顾 全部

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

态度原创

本地
亲子
健康
时尚
公开课

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

亲子要闻

孩子上课坐不住、成绩差,警惕多动症

内分泌科专家破解身高八大谣言

听说现在年轻人的家都“歪七扭八”的?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版