网易首页 > 网易号 > 正文 申请入驻

智驾路线暗战升级:元戎启行理想向左,华为博世向右

0
分享至

近日的两场发布会,再次引发业界对智驾路线的争论和思考。

一是,元戎启行正式发布全新一代辅助驾驶平台DeepRoute IO 2.0,以及自研的VLA(Vision-Language-Action,视觉语言动作模型),融合视觉感知、语义理解与动作决策三大核心能力。据悉,元戎启行已达成5个定点合作项目,首批量产车即将进入市场。

“虽然目前VLA仍处于早期,相当于‘幼年期’,但它的技术上限已经远超传统端到端方案。新一代架构需要新一代芯片支持,这不是CNN时代可比的。”面对自动驾驶路线之争,元戎启行CEO周光如此阐述了VLA的优势和远景参数图片)。



二是,华为乾崑媒体日现场,华为智能汽车解决方案BU CEO靳玉志接受了媒体采访,并针对“辅助驾驶最终技术路线”进行了回答。在他看来,华为不会采用VLA,WA(World Action,世界行为模型)才是能真正实现自动驾驶的终极方案。

靳玉志认为,华为更看重WA,中间省掉VLA的language环节,让vision成为一个代表,它可能来自于声音,可能来自vision,也可能来自于触觉。这个路径目前看起来非常难,但能实现真正的自动驾驶。

当智能化进入下半场,辅助驾驶赛道已是刺刀见红,不同技术路线的竞争日趋激烈——以理想、小鹏和元戎启行为代表的企业押注VLA,一跃从“端到端时代”迈入“VLA新纪元”,而以华为为代表的企业则更看重WA,认为VLA增加了不必要的中间环节。

那么,究竟谁能最终胜出?

“VLA的下限,超过端到端上限”

元戎启行是业界最早布局VLA、也是进展最快的玩家,在创始人周光看来,VLA的面世是一个跨时代的进展,它标志着自动驾驶正式进入大模型时代。下半年,元戎启行的VLA模型即将量产上车,这将成为公司技术发展的一个重要里程碑。

从技术层面,周光将VLA模型称为“基于GPT的端到端模型”,与传统的CNN端到端模型有本质区别。CNN架构自2012年发展至今,GPT则是基于Transformer大模型架构,两者在参数量、数据处理等方面差异显著。



周光认为,BEV视角存在先天局限,就像玩坦克大战,墙后的物体一旦无法被看到,系统就会认为“不存在”。可现实中,真实的视角更像CS(游戏《反恐精英》),司机会借助毫米波雷达等传感器,或凭借对空间遮挡关系的理解,采取谨慎策略通过复杂场景——

这并非要“穿墙透物”,而是必须提升对高级语义和空间关系的理解能力,这一点,恰恰是CNN端到端系统难以实现的。

另一方面,VLA有其护城河。

“VLA融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。”

第一代端到端系统正逐渐触及性能瓶颈,当前以CNN为载体的模型,无论用多少数据或额外训练手段,其提升空间已非常有限。正因为端到端有其上限与瓶颈,才有更多玩家大胆探索,押注VLA赛道,从长远上解决端到端的难题。



周光介绍了VLA模型的四大核心功能。

分别是:空间语义理解、异形障碍物识别、文字类引导牌理解和记忆语音控车,这些功能将根据实际部署节奏逐步释放。

其中,空间语义理解是最新版本的最大亮点,该功能可在视野受限的动态或静态盲区环境中(如公交车遮挡、复杂路口、桥洞等)感知潜在风险,主动对盲区进行“预防性预判”。系统可在风险出现前提前减速、稳妥通行,具备高度拟人化的防御性驾驶策略,为用户带来更安心的出行体验。

其余三项能力,异形障碍物识别能使系统能够识别并灵活应对如施工锥桶、超载小货车等非结构化障碍;文字类引导牌识别让系统“看懂路标”,准确解析潮汐车道、公交专用道等文字信息;记忆语音控车功能支持自然语言指令交互,并逐步学习用户偏好,带来更具个性化与拟人化的驾驶体验。



VLA模型,真正的难点是什么?

在周光看来,最难的是思维链(Chain of Thought,CoT)和长时序推理,当然,这也是VLA真正的核心能力。思维链是这类架构的基本要求,没有它,模型就不能算是真正的VLA。

VLA模型具备思维链能力,支持长时序推理,短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。正因为能够进行长时序分析,VLA可以处理更复杂路况,完成更深层次的推理。

VLA的另一个优势,是海量知识库。通过互联网规模的数据蒸馏与训练,模型积累了丰富的常识,而这是CNN或BEV端到端系统所不具备的。



培育“新物种”,道阻且长

“更准确地说,VLA的本质,是基于GPT的端到端模型,目前坚持投入大算力的公司,包括小鹏,其实都在朝这个方向走。比如特斯拉,最新芯片算力达2500TOPS,CNN模型根本不需要如此大规模的算力,只有GPT架构才需要大参数和大算力支持。”

周光认为,CNN模型参数量有限,而GPT架构天然适合扩展,这才是未来方向。

VLA与第一代端到端最根本的区别,是模型架构变了——从CNN转向GPT。训练方法比如是否引入RL,只是策略问题,CNN架构本身无法实现类似人类的推理和泛化能力。



理想的思路,和元戎启行是一致的。

李想把理想汽车的辅助驾驶划分为三个阶段——第一阶段是该公司2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”;第二阶段,是2023年开始研究、并于2024年正式推送的端到端+VLM辅助驾驶,接近“哺乳动物智能”;第三个阶段则是VLA,它将正式开启“人类智能”阶段,通过3D和2D视觉组合,完整地看到物理世界,而非VLM仅能解析2D图像。

“端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。”李想的这个比喻,直接指出了端到端目前的缺陷,为了让智能驾驶“越开越像人”,理想汽车选择推翻此前的架构,自研VLA司机大模型。



值得一提的是,李想和周光都持同一个观点,即VLA不是一个突变的过程,而是一个进化的过程。

周光在采访时表示,从规则算法、端到端1.0到VLA模型,车企或供应商想自研辅助驾驶系统,都无法直接切入VLA,从有图、无图、端到端到VLA模型,每个阶段都无法跳过,整个发展过程必不可少,最多只能压缩某些阶段的时间,但不可能完全绕过。正因为此,他才坚定地认为,VLA模型的下限,其实已经超过端到端方案的上限。

以数据门槛为例,周光曾分析说,一家智驾公司至少要交付上万辆车,才能做端到端1.0(即端到端+VLM),而想要做到一个模块的VLA架构,则需要10万辆级的量产车才行。

李想也曾在一次采访中表态,如果一家企业连规则算法都做不好,那他们根本不知道怎么去做端到端;类似的,如果一家公司无法将端到端做到一个非常极致的水平,那么,他们连VLA怎么去训练都不知道。



面对VLA的火热,华为拒绝跟风。

靳玉志在近日的媒体发布会时强调,VLA依赖视觉和语言的中转,而WE直接省略语言环节。“WA直接通过行为端,或者说,直接通过vision这样的信息输入控车,而不是把各种各样的信息转成语言,再通过语言大模型来控制车。这里的 vision只是一个代表,它可能来自于声音,可能来自于视觉,也可能来自触觉。”

博世智能驾控中国区总裁吴永桥也在世界人工智能大会上表态,博世目前对VLA落地难度有清醒认知,公司依旧将战略重心押注在“一段式端到端”(One-stage End-to-End)技术路径上。



自动驾驶的终局会是怎样?

智能驾驶还远远没有完善的时候,大家都在用自己的思路,探索不同的技术路线,豪赌下一个蓝海。可以确定的是,无论是选择VLA路线的元戎启行和理想们,还是选择走WA路线的华为们,都深知长期主义的重要性。

正如周光在采访环节表示,现阶段,元戎启行还是聚焦于解决0到1的问题,先确保核心能力落地,再优化用户体验。元戎启行将VLA称为“新物种”,而这场培育“新物种”的万里长征,后面依旧道阻且长。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
田朴珺离场了?王石用2000万拍地的魄力,为何赌不赢一段黄昏恋

田朴珺离场了?王石用2000万拍地的魄力,为何赌不赢一段黄昏恋

云景侃记
2026-01-13 19:13:16
半场1-3!斯诺克大师赛:斯佳辉关键球失误,囧哥扩大优势冲8强!

半场1-3!斯诺克大师赛:斯佳辉关键球失误,囧哥扩大优势冲8强!

刘姚尧的文字城堡
2026-01-13 22:31:43
湖北35岁老板黄雪峰去世,朋友太平间中喝酒陪伴,疑与打结石有关

湖北35岁老板黄雪峰去世,朋友太平间中喝酒陪伴,疑与打结石有关

裕丰娱间说
2026-01-12 17:35:43
1950年,林彪摆出4条铁证拒不出兵,毛主席熬红双眼拍板硬打,基辛格:这眼光毒得让人后背发凉

1950年,林彪摆出4条铁证拒不出兵,毛主席熬红双眼拍板硬打,基辛格:这眼光毒得让人后背发凉

清风鉴史
2026-01-12 23:23:16
宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

史之铭
2026-01-12 16:26:19
首秀推迟!杨鸣:赵继伟今天战青岛肯定打不了 具体看队医评估

首秀推迟!杨鸣:赵继伟今天战青岛肯定打不了 具体看队医评估

醉卧浮生
2026-01-13 13:08:13
新的殡葬制度将于2026年3月30号执行,大概意思就是:一切从简

新的殡葬制度将于2026年3月30号执行,大概意思就是:一切从简

百态人间
2026-01-13 16:38:33
这也能怪詹姆斯?雷迪克:湖人有41岁球员,所以取消晨练!

这也能怪詹姆斯?雷迪克:湖人有41岁球员,所以取消晨练!

爱体育
2026-01-13 22:32:08
勇士留后手!若小波特谈崩,即刻锁定替代目标,前场补强迫在眉睫

勇士留后手!若小波特谈崩,即刻锁定替代目标,前场补强迫在眉睫

夜白侃球
2026-01-13 21:08:58
日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

财经保探长
2025-09-11 22:20:43
中国“南天门计划”曝光:十万吨级空天母舰“鸾鸟”可搭载88架“玄女”无人空天战机,能在大气层外作战,使用粒子加速炮、高超声速导弹等武器

中国“南天门计划”曝光:十万吨级空天母舰“鸾鸟”可搭载88架“玄女”无人空天战机,能在大气层外作战,使用粒子加速炮、高超声速导弹等武器

每日经济新闻
2026-01-11 16:30:15
委内瑞拉代总统宣布政府内阁调整

委内瑞拉代总统宣布政府内阁调整

新华社
2026-01-13 09:38:04
新华社消息|美国国务院要求美国公民立即离开伊朗

新华社消息|美国国务院要求美国公民立即离开伊朗

新华社
2026-01-13 09:49:13
三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

三观炸裂!翟欣欣出轨聊天记录流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
1948年,王耀武吃了宋美龄亲自做的一顿饭,转头告诫妻子:去香港,千万别去台湾!

1948年,王耀武吃了宋美龄亲自做的一顿饭,转头告诫妻子:去香港,千万别去台湾!

源溯历史
2026-01-07 20:20:13
英国将领头28国派兵丹麦,特朗普捅了马蜂窝,中方甩出一纸宪章

英国将领头28国派兵丹麦,特朗普捅了马蜂窝,中方甩出一纸宪章

博览历史
2026-01-12 18:08:36
Science:首次证实,有些狗狗通过偷听主人对话学会新词汇,能力堪比一岁半的人类宝宝

Science:首次证实,有些狗狗通过偷听主人对话学会新词汇,能力堪比一岁半的人类宝宝

生物世界
2026-01-12 12:24:25
停不下来!重庆“呆呆”杀猪宴后续:直播间礼物收到手软,全国掀起“杀猪风”,各地网友主动送猪上门

停不下来!重庆“呆呆”杀猪宴后续:直播间礼物收到手软,全国掀起“杀猪风”,各地网友主动送猪上门

文字里拾光
2026-01-12 19:52:19
高级感:一种克制的叙事

高级感:一种克制的叙事

疾跑的小蜗牛
2026-01-13 21:46:22
同曦董事长:球队每年亏损2000-3000万,CBA外援政策应该改变

同曦董事长:球队每年亏损2000-3000万,CBA外援政策应该改变

懂球帝
2026-01-13 14:17:04
2026-01-13 23:12:49
汽车公社 incentive-icons
汽车公社
汽车公社和一句话点评聚合平台
10016文章数 13462关注度
往期回顾 全部

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

头条要闻

员工被辞退索赔89万遭公司反诉索赔214万 历时2年判了

头条要闻

员工被辞退索赔89万遭公司反诉索赔214万 历时2年判了

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

科技要闻

每年10亿美元!谷歌大模型注入Siri

态度原创

本地
房产
时尚
艺术
公开课

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

比大衣更高级,比羽绒服更时髦?它才是今年冬天最火的外套!

艺术要闻

书法争议再起:拙与妍孰优孰劣引发热议

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版