网易首页 > 网易号 > 正文 申请入驻

智能驾驶的终极革命

0
分享至

这是对国海证券汽车行业专题报告《VLA和世界模型-通往高阶智能驾驶之路》主要内容的详细总结:

报告核心主题:探讨VLA(Vision-Language-Action)模型和世界模型(World Model)作为推动高阶智能驾驶(L3及以上)发展的关键技术路径,分析其定义、特点、产业玩家布局、技术挑战、发展趋势。

核心结论:

  1. VLA和世界模型是互补而非对立的技术路径,共同构成高阶智驾的核心能力。
  2. 产业玩家在实现端到端能力后出现分化:部分侧重VLA路径(融合语言交互),部分侧重世界模型路径(强化环境预测与仿真)。
  3. 数据闭环(数据飞轮)和安全性能(MPA/MPI)是核心竞争壁垒
  4. 技术融合趋势明显,VLA引入强化学习与仿真,世界模型扩展语言交互。
  5. 维持辅助驾驶行业“推荐”评级,智驾能力成为车企估值分化关键。

详细内容分述:

一、 VLA模型:多模态融合驱动,重塑人车交互与决策控制

  1. 定义与特点:
  • 定义:端到端多模态AI架构,融合视觉输入(图像/视频)和自然语言指令,直接生成可执行的物理动作(驾驶控制),实现感知-理解-控制闭环。
  • 特点:

多模态融合:结合视觉语义与语言指令,增强场景理解与交互能力。

语义推理与泛化:支持复杂场景的语义推理和长尾问题处理。

可解释性提升:通过语言输出解释驾驶决策(思维链CoT),解决“黑盒”问题。

2.技术演进与核心模块:

  • 演进阶段:Pre-VLA(语言仅解释)→ 模块化VLA(语言参与规划)→ 统一端到端VLA(单一网络输出控制/轨迹)→ 推理增强型VLA(长时记忆、链式推理)。
  • 核心模块:

视觉编码器:如DINOv2, CLIP,结合BEV/LiDAR融合。

语言处理器:大语言模型(LLaMA, Qwen, GPT等),常通过LoRA轻量化。

动作解码器:自回归token、扩散规划器、分层控制器(高层策略→底层控制如PID/MPC)。

3.进阶能力:

  • 短期:人机交互升级(语音控车、任务拆解)、理解能力增强(OCR、文字识别)、输出透明化(决策解释)。
  • 中长期:AI驱动的数据闭环(世界模型仿真、强化学习)、规模法则(Scaling Law)持续生效、车端芯片与云端模型协同升级。

4.产业玩家实践:

  • 理想汽车:

自研MindVLA模型(融合快慢思考),具备空间理解、思维、沟通记忆、行为能力。

基于Thor-U/Orin-X平台量产部署,支持语言控制驾驶,2025年9月OTA全量推送AD MAX车主。

发展路径:规则算法 → BEV无图NOA → E2E+VLM → MindVLA。

依托云端统一世界模型(融合重建与生成技术)进行强化学习。

  • 小鹏汽车:

采用“VLA+OL”云端基模,通过蒸馏技术部署车端轻量化VLA模型(XVLA)。

定位为“物理AI终端通用模型”(赋能汽车、机器人、飞行汽车)。

构建“运动型大脑+增强型小脑”架构,强化学习驱动自我进化。

2025年9月OTA推送至G7 Ultra,新增人机共驾模式。

开发世界模型作为云端模型工厂一环,支持强化学习奖励模型构建。

  • 元戎启行:

发布DeepRoute IO 2.0(2025.8),搭载自研VLA模型。

以“多模态+多芯片+多车型”适配为核心,支持激光雷达与纯视觉方案。

已达成5个定点,首批量产车将进入市场。

核心功能:空间语义理解(盲区预判)、异形障碍物识别、文字引导牌理解、记忆语音控车(逐步释放)



二、 世界模型:数据闭环驱动,增强环境感知与仿真可靠性

  1. 定义与核心价值:
  • 定义:以视觉与运动数据为基础,通过生成式建模预测环境动态与行为后果,强化辅助驾驶系统在仿真和交互中的可靠性。
  • 核心能力:反事实推理 (Counterfactual Reasoning):回答“What if”问题,预测未见决策的后果,超越数据限制。
  • 价值:

难例场景构建:生成式技术大幅提升高密度Corner Case覆盖(如华为WEVA提升1000倍)。

时空预测能力:高精度预测环境变化和车辆运动。

数据利用优化:自监督学习减少人工标注依赖。

安全验证:提供受控环境评估系统安全。

2.主流架构:

  • RSSM (Recurrent State-Space Model):生成式预测,状态分解为随机+确定性成分,平衡适应性与连续性(2019)。
  • JEPA (Joint-Embedding Predictive Architecture):表征式预测(如Meta V-JEPA),预测未来状态表征而非像素细节,计算效率高(2023提出,2025 V-JEPA2)。
  • 演进方向:从“感知模仿”向“认知思考”演进,通过自监督学习提取信息,应用于场景生成、规划控制策略优化。

3.产业玩家实践:

  • 华为(鸿蒙智行):

乾坤ADS 4.0采用WEWA架构(World Engine + World Action Model)。

WE (World Engine):云端难例扩散生成模型,AI生成高密度难例场景,实现“人采实路数据”向“AI合成数据”跨越;构建安全优先的强化学习机制。

WA (World Action Model):车端全模态感知(视觉、听觉、触觉等),构建智驾原生基模型,采用MoE多专家架构按场景调用能力。2025年4月发布,9月规模推送。

  • 蔚来汽车:

自研世界模型NWM,是全量理解信息、生成场景、预测未来的多元自回归生成模型。

核心能力:空间理解(多模态推测环境)、时间建模(长期推演)、数据利用(自监督)。

2025年5月首个版本推送,实现“停车场自主寻路”等功能,融合了VLA特征(输入输出多模态)。

  • Momenta:

R6飞轮大模型(2025下半年推出):数据驱动、基于强化学习的一段式端到端模型,融合感知与规划,具备长短期记忆能力。



保留DLP模型(短期记忆)快速学习新数据,形成双模型架构。

强调数据驱动闭环(Flywheel)和闭环自动化(CLA)工具链,高效利用海量数据(合作量产车型超130款)。

  • 海外先验 (Wayve):

GAIA-1 (2023.6):生成式世界模型,“视频+文本+动作”输入,自回归预测,理解驾驶概念,生成逼真场景。

GAIA-2 (2025.3):场景能力升级,覆盖多国地理、时间、天气、道路类型,支持多视角同步生成。

三、 融合互补,共筑安全与体验新壁垒

  1. 路径分化与互补:
  • VLA路径:侧重语义融合与交互控制(理想、小鹏、元戎启行)。核心挑战:资源效率(集成复杂度、算力能耗、实时推理)、稳健安全(多模态对齐、泛化评估、鲁棒性伦理)。
  • 世界模型路径:侧重环境预测与仿真可靠性(华为、蔚来、Momenta)。核心价值:反事实推理、难例生成、安全验证。
  • 融合趋势:VLA引入强化学习与仿真(如理想、小鹏布局世界模型);世界模型扩展语言交互与多模态理解(如蔚来NWM融合VLA特征)。

2.核心壁垒:数据与安全

  • 数据飞轮效应:有效数据量决定模型迭代上限。头部车企凭借高活跃用户积累海量真实里程数据(华为>35亿公里,特斯拉>45亿英里,理想12亿公里),结合AI合成数据(约10%),通过RLHF驱动高效迭代。



  • 安全性能量化:

MPA (平均事故里程):安全底线。头部水平已达人类驾驶安全水平的6倍以上(如Momenta配套方案达6.7倍),持续优化。



MPI (平均接管里程):体验天花板。衡量用户接管频率,决定用户体验和商业效率(如特斯拉FSD 13.2 MPI达213英里)。技术迭代显著提升MPI(理想端到端+VLM提升显著)。



四、风险提示:

  • 辅助驾驶政策法规推进不及预期。
  • 数据安全与隐私保护监管趋严。
  • 技术可靠性与长尾场景安全问题导致的信任与合规风险。
  • 车企销量与技术搭载不及预期。
  • 行业竞争加剧导致技术研发投入承压。

总结:该报告深入分析了VLA和世界模型作为高阶智能驾驶双引擎的技术原理、产业实践、优劣势及融合趋势,强调数据闭环和安全性能是核心竞争壁垒,看好行业在政策和技术驱动下的发展前景,并给出了具体的风险提示。

声明:内容由AI生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今起,全面禁用!事关纯牛奶

今起,全面禁用!事关纯牛奶

佛山电视台小强热线
2025-09-16 20:36:21
国内暂无特效药!死亡率近100%,医生用4瓶白酒成功救小伙一命

国内暂无特效药!死亡率近100%,医生用4瓶白酒成功救小伙一命

法老不说教
2025-09-16 17:19:14
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
俄无人机飞入罗马尼亚,特朗普向北约发出"最后通牒"

俄无人机飞入罗马尼亚,特朗普向北约发出"最后通牒"

山河路口
2025-09-14 17:40:24
官宣!9月17日,成都地铁双线齐开

官宣!9月17日,成都地铁双线齐开

锦绣青羊
2025-09-16 16:25:50
于朦胧事件第4天,好消息来了!愿意“兜底”的人发声,让人意外

于朦胧事件第4天,好消息来了!愿意“兜底”的人发声,让人意外

小丸子的娱乐圈
2025-09-15 21:54:50
蔡慧康离开上港之后迅速敲定新东家!已被直接委以重任,引发热议

蔡慧康离开上港之后迅速敲定新东家!已被直接委以重任,引发热议

陌识
2025-09-16 09:36:51
为啥新能源车主都不提换电池的事,车主说出原因:已经不需要了

为啥新能源车主都不提换电池的事,车主说出原因:已经不需要了

李子橱
2025-09-16 17:07:28
车企的订单海报已经假到让人生理性不适了

车企的订单海报已经假到让人生理性不适了

BusinessCar
2025-09-14 19:04:14
安徽1厅局新增一位厅领导!两市最新人事

安徽1厅局新增一位厅领导!两市最新人事

凤凰网安徽
2025-09-16 17:45:02
因为爸爸抠脚,河南6月大的宝宝后背烂成地图!家长们在抱娃前千万要当心......

因为爸爸抠脚,河南6月大的宝宝后背烂成地图!家长们在抱娃前千万要当心......

FM93浙江交通之声
2025-09-16 18:06:12
以色列懵了!埃及,下战书出战了!

以色列懵了!埃及,下战书出战了!

大嘴说天下
2025-09-16 20:08:16
罗永浩再次放西贝一马!贾国龙这波会识趣吗?

罗永浩再次放西贝一马!贾国龙这波会识趣吗?

雷科技
2025-09-15 20:45:51
中国大满贯赛来了,国乒参赛名单和赛程公布,林诗栋是否迎转折点

中国大满贯赛来了,国乒参赛名单和赛程公布,林诗栋是否迎转折点

体育大学僧
2025-09-15 17:54:42
刚刚,国防部发布:将在青岛举办!

刚刚,国防部发布:将在青岛举办!

先锋新闻
2025-09-16 16:17:08
西班牙制裁以色列,以色列反手旅行禁令:欧洲“前锋”撕开裂痕

西班牙制裁以色列,以色列反手旅行禁令:欧洲“前锋”撕开裂痕

基斯默默
2025-09-16 18:07:18
谢霆锋哭晕!张柏芝带三胎儿子公开现身,母子俩笑得灿烂,生父成谜

谢霆锋哭晕!张柏芝带三胎儿子公开现身,母子俩笑得灿烂,生父成谜

扒星人
2025-09-16 13:24:19
早知道:中美就妥善解决TikTok问题达成基本框架共识;美股三大指数集体收涨

早知道:中美就妥善解决TikTok问题达成基本框架共识;美股三大指数集体收涨

证券时报
2025-09-16 08:12:04
中方外长亲自出马,波兰终于松口:可以放行中欧班列,但有个条件

中方外长亲自出马,波兰终于松口:可以放行中欧班列,但有个条件

墨羽怪谈
2025-09-16 11:25:34
冯唐:去趟重症病房,你就会明白,很多纠缠根本不值得

冯唐:去趟重症病房,你就会明白,很多纠缠根本不值得

清风拂心
2025-09-14 16:15:04
2025-09-16 21:27:00
禾略财经研报
禾略财经研报
每周N次,深度探讨N个财经问题
23文章数 0关注度
往期回顾 全部

汽车要闻

650km续航 广汽埃安AION RT焕新款9月22日上市

头条要闻

清华学霸小红书晒1.67亿元年薪被查 美司法部:他在逃

头条要闻

清华学霸小红书晒1.67亿元年薪被查 美司法部:他在逃

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

态度原创

健康
教育
房产
时尚
本地

内分泌科专家破解身高八大谣言

教育要闻

人民日报出版社终于给二宝发准生证啦!!!(明日新传考研热点专题笔记上线!!)

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

50岁阿姨也能穿得亮眼高级,这些搭配的技巧请收好,特别实用

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

无障碍浏览 进入关怀版