网易首页 > 网易号 > 正文 申请入驻

智能驾驶的终极革命

0
分享至

这是对国海证券汽车行业专题报告《VLA和世界模型-通往高阶智能驾驶之路》主要内容的详细总结:

报告核心主题:探讨VLA(Vision-Language-Action)模型和世界模型(World Model)作为推动高阶智能驾驶(L3及以上)发展的关键技术路径,分析其定义、特点、产业玩家布局、技术挑战、发展趋势。

核心结论:

  1. VLA和世界模型是互补而非对立的技术路径,共同构成高阶智驾的核心能力。
  2. 产业玩家在实现端到端能力后出现分化:部分侧重VLA路径(融合语言交互),部分侧重世界模型路径(强化环境预测与仿真)。
  3. 数据闭环(数据飞轮)和安全性能(MPA/MPI)是核心竞争壁垒
  4. 技术融合趋势明显,VLA引入强化学习与仿真,世界模型扩展语言交互。
  5. 维持辅助驾驶行业“推荐”评级,智驾能力成为车企估值分化关键。

详细内容分述:

一、 VLA模型:多模态融合驱动,重塑人车交互与决策控制

  1. 定义与特点:
  • 定义:端到端多模态AI架构,融合视觉输入(图像/视频)和自然语言指令,直接生成可执行的物理动作(驾驶控制),实现感知-理解-控制闭环。
  • 特点:

多模态融合:结合视觉语义与语言指令,增强场景理解与交互能力。

语义推理与泛化:支持复杂场景的语义推理和长尾问题处理。

可解释性提升:通过语言输出解释驾驶决策(思维链CoT),解决“黑盒”问题。

2.技术演进与核心模块:

  • 演进阶段:Pre-VLA(语言仅解释)→ 模块化VLA(语言参与规划)→ 统一端到端VLA(单一网络输出控制/轨迹)→ 推理增强型VLA(长时记忆、链式推理)。
  • 核心模块:

视觉编码器:如DINOv2, CLIP,结合BEV/LiDAR融合。

语言处理器:大语言模型(LLaMA, Qwen, GPT等),常通过LoRA轻量化。

动作解码器:自回归token、扩散规划器、分层控制器(高层策略→底层控制如PID/MPC)。

3.进阶能力:

  • 短期:人机交互升级(语音控车、任务拆解)、理解能力增强(OCR、文字识别)、输出透明化(决策解释)。
  • 中长期:AI驱动的数据闭环(世界模型仿真、强化学习)、规模法则(Scaling Law)持续生效、车端芯片与云端模型协同升级。

4.产业玩家实践:

  • 理想汽车:

自研MindVLA模型(融合快慢思考),具备空间理解、思维、沟通记忆、行为能力。

基于Thor-U/Orin-X平台量产部署,支持语言控制驾驶,2025年9月OTA全量推送AD MAX车主。

发展路径:规则算法 → BEV无图NOA → E2E+VLM → MindVLA。

依托云端统一世界模型(融合重建与生成技术)进行强化学习。

  • 小鹏汽车:

采用“VLA+OL”云端基模,通过蒸馏技术部署车端轻量化VLA模型(XVLA)。

定位为“物理AI终端通用模型”(赋能汽车、机器人、飞行汽车)。

构建“运动型大脑+增强型小脑”架构,强化学习驱动自我进化。

2025年9月OTA推送至G7 Ultra,新增人机共驾模式。

开发世界模型作为云端模型工厂一环,支持强化学习奖励模型构建。

  • 元戎启行:

发布DeepRoute IO 2.0(2025.8),搭载自研VLA模型。

以“多模态+多芯片+多车型”适配为核心,支持激光雷达与纯视觉方案。

已达成5个定点,首批量产车将进入市场。

核心功能:空间语义理解(盲区预判)、异形障碍物识别、文字引导牌理解、记忆语音控车(逐步释放)

二、 世界模型:数据闭环驱动,增强环境感知与仿真可靠性

  1. 定义与核心价值:
  • 定义:以视觉与运动数据为基础,通过生成式建模预测环境动态与行为后果,强化辅助驾驶系统在仿真和交互中的可靠性。
  • 核心能力:反事实推理 (Counterfactual Reasoning):回答“What if”问题,预测未见决策的后果,超越数据限制。
  • 价值:

难例场景构建:生成式技术大幅提升高密度Corner Case覆盖(如华为WEVA提升1000倍)。

时空预测能力:高精度预测环境变化和车辆运动。

数据利用优化:自监督学习减少人工标注依赖。

安全验证:提供受控环境评估系统安全。

2.主流架构:

  • RSSM (Recurrent State-Space Model):生成式预测,状态分解为随机+确定性成分,平衡适应性与连续性(2019)。
  • JEPA (Joint-Embedding Predictive Architecture):表征式预测(如Meta V-JEPA),预测未来状态表征而非像素细节,计算效率高(2023提出,2025 V-JEPA2)。
  • 演进方向:从“感知模仿”向“认知思考”演进,通过自监督学习提取信息,应用于场景生成、规划控制策略优化。

3.产业玩家实践:

  • 华为(鸿蒙智行):

乾坤ADS 4.0采用WEWA架构(World Engine + World Action Model)。

WE (World Engine):云端难例扩散生成模型,AI生成高密度难例场景,实现“人采实路数据”向“AI合成数据”跨越;构建安全优先的强化学习机制。

WA (World Action Model):车端全模态感知(视觉、听觉、触觉等),构建智驾原生基模型,采用MoE多专家架构按场景调用能力。2025年4月发布,9月规模推送。

  • 蔚来汽车:

自研世界模型NWM,是全量理解信息、生成场景、预测未来的多元自回归生成模型。

核心能力:空间理解(多模态推测环境)、时间建模(长期推演)、数据利用(自监督)。

2025年5月首个版本推送,实现“停车场自主寻路”等功能,融合了VLA特征(输入输出多模态)。

  • Momenta:

R6飞轮大模型(2025下半年推出):数据驱动、基于强化学习的一段式端到端模型,融合感知与规划,具备长短期记忆能力。

保留DLP模型(短期记忆)快速学习新数据,形成双模型架构。

强调数据驱动闭环(Flywheel)和闭环自动化(CLA)工具链,高效利用海量数据(合作量产车型超130款)。

  • 海外先验 (Wayve):

GAIA-1 (2023.6):生成式世界模型,“视频+文本+动作”输入,自回归预测,理解驾驶概念,生成逼真场景。

GAIA-2 (2025.3):场景能力升级,覆盖多国地理、时间、天气、道路类型,支持多视角同步生成。

三、 融合互补,共筑安全与体验新壁垒

  1. 路径分化与互补:
  • VLA路径:侧重语义融合与交互控制(理想、小鹏、元戎启行)。核心挑战:资源效率(集成复杂度、算力能耗、实时推理)、稳健安全(多模态对齐、泛化评估、鲁棒性伦理)。
  • 世界模型路径:侧重环境预测与仿真可靠性(华为、蔚来、Momenta)。核心价值:反事实推理、难例生成、安全验证。
  • 融合趋势:VLA引入强化学习与仿真(如理想、小鹏布局世界模型);世界模型扩展语言交互与多模态理解(如蔚来NWM融合VLA特征)。

2.核心壁垒:数据与安全

  • 数据飞轮效应:有效数据量决定模型迭代上限。头部车企凭借高活跃用户积累海量真实里程数据(华为>35亿公里,特斯拉>45亿英里,理想12亿公里),结合AI合成数据(约10%),通过RLHF驱动高效迭代。

  • 安全性能量化:

MPA (平均事故里程):安全底线。头部水平已达人类驾驶安全水平的6倍以上(如Momenta配套方案达6.7倍),持续优化。

MPI (平均接管里程):体验天花板。衡量用户接管频率,决定用户体验和商业效率(如特斯拉FSD 13.2 MPI达213英里)。技术迭代显著提升MPI(理想端到端+VLM提升显著)。

四、风险提示:

  • 辅助驾驶政策法规推进不及预期。
  • 数据安全与隐私保护监管趋严。
  • 技术可靠性与长尾场景安全问题导致的信任与合规风险。
  • 车企销量与技术搭载不及预期。
  • 行业竞争加剧导致技术研发投入承压。

总结:该报告深入分析了VLA和世界模型作为高阶智能驾驶双引擎的技术原理、产业实践、优劣势及融合趋势,强调数据闭环和安全性能是核心竞争壁垒,看好行业在政策和技术驱动下的发展前景,并给出了具体的风险提示。

声明:内容由AI生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新尿酸标准已调整,不再420μmol/L,高尿酸者,早知早干预

新尿酸标准已调整,不再420μmol/L,高尿酸者,早知早干预

路医生健康科普
2026-04-12 08:30:07
哇,这大身板,丰腴有度,放到唐朝不是皇后,也得是个贵妃

哇,这大身板,丰腴有度,放到唐朝不是皇后,也得是个贵妃

草莓解说体育
2026-04-12 12:51:34
医生说出真相:70岁后得癌症,别急着做手术,先问自己这5个问题

医生说出真相:70岁后得癌症,别急着做手术,先问自己这5个问题

消化石医生
2026-03-27 10:00:49
郑丽文交底后,大陆公布10项惠台措施,傅崐萁力挺,白营大将表态

郑丽文交底后,大陆公布10项惠台措施,傅崐萁力挺,白营大将表态

兰妮搞笑分享
2026-04-12 13:23:10
陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

陈云晚年首次披露:遵义会议上这两个人死活不同意毛主席,吵得面红耳赤

老杉说历史
2026-03-21 17:38:44
领先 9 分也翻车!阿森纳主场被伯恩茅斯打爆,冠军悬了?

领先 9 分也翻车!阿森纳主场被伯恩茅斯打爆,冠军悬了?

阿晞体育
2026-04-12 16:17:09
激战百分钟,祉怡虽败犹荣,安子首夺亚锦,国羽不敌韩国

激战百分钟,祉怡虽败犹荣,安子首夺亚锦,国羽不敌韩国

格斗社
2026-04-12 16:07:59
陈丽华告别仪式结束1天,令人担忧的事发生,迟重瑞被公然挑毛病

陈丽华告别仪式结束1天,令人担忧的事发生,迟重瑞被公然挑毛病

哄动一时啊
2026-04-11 17:02:46
继火烈鸟后乌克兰再推出“和平鸽”导弹!摧毁俄海上基地

继火烈鸟后乌克兰再推出“和平鸽”导弹!摧毁俄海上基地

项鹏飞
2026-04-11 22:57:39
乌军方夸大产量,不过是自欺欺人

乌军方夸大产量,不过是自欺欺人

小眼睛小世界
2026-04-12 06:19:42
意甲黑马把不败拉到7场,遇到国米却秒变送分童子

意甲黑马把不败拉到7场,遇到国米却秒变送分童子

竞技风云录
2026-04-12 11:49:47
上海正大量上市!“放避孕药养的…”很多人爱吃但不敢吃!真相终于搞清了↗️

上海正大量上市!“放避孕药养的…”很多人爱吃但不敢吃!真相终于搞清了↗️

爱下厨的阿椅
2026-04-12 08:17:46
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
一场11295给骑士送大礼!东部首轮对阵确定,哈登这次没选错

一场11295给骑士送大礼!东部首轮对阵确定,哈登这次没选错

等等talk
2026-04-11 16:05:48
访朝第二天,王毅在平壤提中方主张,话音刚落,朝鲜的回应很直接

访朝第二天,王毅在平壤提中方主张,话音刚落,朝鲜的回应很直接

易昂杨
2026-04-12 09:13:26
细菌超标!广东多款包装饮用水抽检不合格

细菌超标!广东多款包装饮用水抽检不合格

新快报新闻
2026-04-11 14:32:10
下周好运星座(4/12~4/18)吉星护航,敢想敢冲

下周好运星座(4/12~4/18)吉星护航,敢想敢冲

Pandora占星小巫
2026-04-12 15:38:42
2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

互联网.乱侃秀
2026-04-12 11:33:02
叶珂全身医美,给小花园做手术!

叶珂全身医美,给小花园做手术!

八卦疯叔
2026-04-11 10:53:23
18岁澳洲小将高特200米跑出19秒67,超越同龄博尔特

18岁澳洲小将高特200米跑出19秒67,超越同龄博尔特

懂球帝
2026-04-12 15:54:38
2026-04-12 16:56:49
禾略财经研报
禾略财经研报
每周N次,深度探讨N个财经问题
125文章数 99关注度
往期回顾 全部

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

头条要闻

媒体:长谈未果万斯离开前竖拇指 特朗普挤出僵硬笑容

头条要闻

媒体:长谈未果万斯离开前竖拇指 特朗普挤出僵硬笑容

体育要闻

五大联赛首冠出炉?拜仁或提前4轮卫冕德甲

娱乐要闻

46岁赵达官宣结婚!曾与殷桃谈婚论嫁

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

态度原创

旅游
教育
艺术
游戏
军事航空

旅游要闻

醉美梨花海,相约在日庄!莱西市第十一届梨花节启幕

教育要闻

Q开头的单词!

艺术要闻

书法“初学者”如何选帖?这3大重点一定要牢牢记住!

暴雪完胜!全球最大魔兽怀旧私服被判永久关停

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版