这是对国海证券汽车行业专题报告《VLA和世界模型-通往高阶智能驾驶之路》主要内容的详细总结:
报告核心主题:探讨VLA(Vision-Language-Action)模型和世界模型(World Model)作为推动高阶智能驾驶(L3及以上)发展的关键技术路径,分析其定义、特点、产业玩家布局、技术挑战、发展趋势。
核心结论:
- VLA和世界模型是互补而非对立的技术路径,共同构成高阶智驾的核心能力。
- 产业玩家在实现端到端能力后出现分化:部分侧重VLA路径(融合语言交互),部分侧重世界模型路径(强化环境预测与仿真)。
- 数据闭环(数据飞轮)和安全性能(MPA/MPI)是核心竞争壁垒
- 技术融合趋势明显,VLA引入强化学习与仿真,世界模型扩展语言交互。
- 维持辅助驾驶行业“推荐”评级,智驾能力成为车企估值分化关键。
详细内容分述:
一、 VLA模型:多模态融合驱动,重塑人车交互与决策控制
- 定义与特点:
- 定义:端到端多模态AI架构,融合视觉输入(图像/视频)和自然语言指令,直接生成可执行的物理动作(驾驶控制),实现感知-理解-控制闭环。
- 特点:
多模态融合:结合视觉语义与语言指令,增强场景理解与交互能力。
语义推理与泛化:支持复杂场景的语义推理和长尾问题处理。
可解释性提升:通过语言输出解释驾驶决策(思维链CoT),解决“黑盒”问题。
2.技术演进与核心模块:
- 演进阶段:Pre-VLA(语言仅解释)→ 模块化VLA(语言参与规划)→ 统一端到端VLA(单一网络输出控制/轨迹)→ 推理增强型VLA(长时记忆、链式推理)。
- 核心模块:
视觉编码器:如DINOv2, CLIP,结合BEV/LiDAR融合。
语言处理器:大语言模型(LLaMA, Qwen, GPT等),常通过LoRA轻量化。
动作解码器:自回归token、扩散规划器、分层控制器(高层策略→底层控制如PID/MPC)。
3.进阶能力:
- 短期:人机交互升级(语音控车、任务拆解)、理解能力增强(OCR、文字识别)、输出透明化(决策解释)。
- 中长期:AI驱动的数据闭环(世界模型仿真、强化学习)、规模法则(Scaling Law)持续生效、车端芯片与云端模型协同升级。
4.产业玩家实践:
- 理想汽车:
自研MindVLA模型(融合快慢思考),具备空间理解、思维、沟通记忆、行为能力。
基于Thor-U/Orin-X平台量产部署,支持语言控制驾驶,2025年9月OTA全量推送AD MAX车主。
发展路径:规则算法 → BEV无图NOA → E2E+VLM → MindVLA。
依托云端统一世界模型(融合重建与生成技术)进行强化学习。
- 小鹏汽车:
采用“VLA+OL”云端基模,通过蒸馏技术部署车端轻量化VLA模型(XVLA)。
定位为“物理AI终端通用模型”(赋能汽车、机器人、飞行汽车)。
构建“运动型大脑+增强型小脑”架构,强化学习驱动自我进化。
2025年9月OTA推送至G7 Ultra,新增人机共驾模式。
开发世界模型作为云端模型工厂一环,支持强化学习奖励模型构建。
- 元戎启行:
发布DeepRoute IO 2.0(2025.8),搭载自研VLA模型。
以“多模态+多芯片+多车型”适配为核心,支持激光雷达与纯视觉方案。
已达成5个定点,首批量产车将进入市场。
核心功能:空间语义理解(盲区预判)、异形障碍物识别、文字引导牌理解、记忆语音控车(逐步释放)
二、 世界模型:数据闭环驱动,增强环境感知与仿真可靠性
- 定义与核心价值:
- 定义:以视觉与运动数据为基础,通过生成式建模预测环境动态与行为后果,强化辅助驾驶系统在仿真和交互中的可靠性。
- 核心能力:反事实推理 (Counterfactual Reasoning):回答“What if”问题,预测未见决策的后果,超越数据限制。
- 价值:
难例场景构建:生成式技术大幅提升高密度Corner Case覆盖(如华为WEVA提升1000倍)。
时空预测能力:高精度预测环境变化和车辆运动。
数据利用优化:自监督学习减少人工标注依赖。
安全验证:提供受控环境评估系统安全。
2.主流架构:
- RSSM (Recurrent State-Space Model):生成式预测,状态分解为随机+确定性成分,平衡适应性与连续性(2019)。
- JEPA (Joint-Embedding Predictive Architecture):表征式预测(如Meta V-JEPA),预测未来状态表征而非像素细节,计算效率高(2023提出,2025 V-JEPA2)。
- 演进方向:从“感知模仿”向“认知思考”演进,通过自监督学习提取信息,应用于场景生成、规划控制策略优化。
3.产业玩家实践:
- 华为(鸿蒙智行):
乾坤ADS 4.0采用WEWA架构(World Engine + World Action Model)。
WE (World Engine):云端难例扩散生成模型,AI生成高密度难例场景,实现“人采实路数据”向“AI合成数据”跨越;构建安全优先的强化学习机制。
WA (World Action Model):车端全模态感知(视觉、听觉、触觉等),构建智驾原生基模型,采用MoE多专家架构按场景调用能力。2025年4月发布,9月规模推送。
- 蔚来汽车:
自研世界模型NWM,是全量理解信息、生成场景、预测未来的多元自回归生成模型。
核心能力:空间理解(多模态推测环境)、时间建模(长期推演)、数据利用(自监督)。
2025年5月首个版本推送,实现“停车场自主寻路”等功能,融合了VLA特征(输入输出多模态)。
- Momenta:
R6飞轮大模型(2025下半年推出):数据驱动、基于强化学习的一段式端到端模型,融合感知与规划,具备长短期记忆能力。
保留DLP模型(短期记忆)快速学习新数据,形成双模型架构。
强调数据驱动闭环(Flywheel)和闭环自动化(CLA)工具链,高效利用海量数据(合作量产车型超130款)。
- 海外先验 (Wayve):
GAIA-1 (2023.6):生成式世界模型,“视频+文本+动作”输入,自回归预测,理解驾驶概念,生成逼真场景。
GAIA-2 (2025.3):场景能力升级,覆盖多国地理、时间、天气、道路类型,支持多视角同步生成。
三、 融合互补,共筑安全与体验新壁垒
- 路径分化与互补:
- VLA路径:侧重语义融合与交互控制(理想、小鹏、元戎启行)。核心挑战:资源效率(集成复杂度、算力能耗、实时推理)、稳健安全(多模态对齐、泛化评估、鲁棒性伦理)。
- 世界模型路径:侧重环境预测与仿真可靠性(华为、蔚来、Momenta)。核心价值:反事实推理、难例生成、安全验证。
- 融合趋势:VLA引入强化学习与仿真(如理想、小鹏布局世界模型);世界模型扩展语言交互与多模态理解(如蔚来NWM融合VLA特征)。
2.核心壁垒:数据与安全
- 数据飞轮效应:有效数据量决定模型迭代上限。头部车企凭借高活跃用户积累海量真实里程数据(华为>35亿公里,特斯拉>45亿英里,理想12亿公里),结合AI合成数据(约10%),通过RLHF驱动高效迭代。
- 安全性能量化:
MPA (平均事故里程):安全底线。头部水平已达人类驾驶安全水平的6倍以上(如Momenta配套方案达6.7倍),持续优化。
MPI (平均接管里程):体验天花板。衡量用户接管频率,决定用户体验和商业效率(如特斯拉FSD 13.2 MPI达213英里)。技术迭代显著提升MPI(理想端到端+VLM提升显著)。
四、风险提示:
- 辅助驾驶政策法规推进不及预期。
- 数据安全与隐私保护监管趋严。
- 技术可靠性与长尾场景安全问题导致的信任与合规风险。
- 车企销量与技术搭载不及预期。
- 行业竞争加剧导致技术研发投入承压。
总结:该报告深入分析了VLA和世界模型作为高阶智能驾驶双引擎的技术原理、产业实践、优劣势及融合趋势,强调数据闭环和安全性能是核心竞争壁垒,看好行业在政策和技术驱动下的发展前景,并给出了具体的风险提示。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.