网易首页 > 网易号 > 正文 申请入驻

自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶

0
分享至

复旦大学与引望智能科技联合提出自动驾驶WAM-Diff框架。


WAM-Diff的全新端到端自动驾驶框架,在NAVSIM-v1榜单上取得了91.0 PDMS(预测驾驶得分)的惊人成绩,一举超越了现有的自回归和扩散基线模型。

它通过掩码扩散模型(Masked Diffusion)、稀疏混合专家(MoE)架构以及在线强化学习(GSPO),解决自动驾驶中多模态轨迹生成的难题。


掩码扩散模型重构轨迹生成范式

端到端自动驾驶系统正处于从模块化管道向视觉-语言-动作(VLA,Vision-Language-Action)统一架构转变的关键时期。

这类模型的目标很明确:输入多传感器数据和自然语言指令,直接输出规划和控制信号。

目前的VLA主要分为两大流派:一类是基于自回归的大语言模型,它们像生成文本一样逐个token地生成动作序列;另一类是连续扩散策略,通过去噪过程迭代优化动作预测。

自回归模型受限于从左到右的因果生成顺序,这在处理需要全局规划的驾驶任务时略显僵化。

连续扩散模型虽然能捕捉多模态分布,但在逻辑推理和离散决策上往往不如离散模型灵活。

WAM-Diff选择了一条少有人走的路:离散掩码扩散(Discrete Masked Diffusion)

传统的自回归模型是在做完形填空的最后一题,必须按顺序写;而掩码扩散模型则像是在做一张全卷的填空题,它可以先填确定的部分,再根据上下文回头修改不确定的部分,甚至可以先确定终点,再反推路径。

该框架将未来的车辆轨迹视为一个离散的序列。

在训练阶段,模型会随机掩盖掉一部分轨迹点,让网络去预测这些缺失的信息。

在推理阶段,模型从一个完全被掩盖(全Mask)的序列开始,通过迭代的方式,逐步将Mask替换为具体的数值或语义token。

这种机制带来了前所未有的灵活性。

它支持并行解码,不需要像自回归那样排队等前一个结果,大大提高了生成效率。

更重要的是,它打破了时间顺序的枷锁,允许引入非因果的解码策略。

例如,在某些场景下,我们可以先确定车辆几秒后的位置(意图),再反过来推导当前应该做什么动作,这种以终为始的思维对于长时程规划至关重要。


混合词表与稀疏专家模型的架构创新

要实现上述的掩码扩散,首先需要解决语言和物理世界的对齐问题。

WAM-Diff设计了一套混合离散动作分词(Hybrid Discrete Action Tokenization)方案。



自动驾驶的轨迹是由连续的数值(如坐标、速度)组成的,而语言模型处理的是离散的语义符号。

为了让两者在同一个模型里对话,研究团队构建了一个统一的词表。

对于连续变量,例如轨迹的路点(Waypoint),模型将其在[-100, 100]的区间内进行均匀量化,分辨率设为0.01。

这意味着产生了20,001个不同的数值token。每一个二维路点被表示为一对有序的标量token

在解码时,取每个量化区间的中心值,最大绝对误差仅为0.005,这在保证精度的同时实现了离散化。

对于语义控制命令(如保持车道、让行)和驾驶理由,直接使用文本token。

这20,001个数值token被合并到现有的文本词表中,并在训练过程中端到端地优化它们的嵌入投影。

这种混合方式让模型既能理解向左转这样的高层指令,又能精准输出坐标(12.5, 4.3)这样的底层控制信号,实现了双向条件调节。

有了统一的表达,下一步是扩充模型的容量。

处理复杂的驾驶场景需要庞大的知识库,但如果单纯增加模型参数,推理成本会变得不可接受。

WAM-Diff引入了稀疏混合专家(MoE,Mixture of Experts)架构,具体采用了LoRA(Low-Rank Adaptation)形式的MoE。

模型的基础是一个预训练的SigLIP-2视觉编码器和LLaMA架构的文本解码器。

视觉部分将1920×1080的图像切分为15个384×384的补丁,加上整图缩放后的补丁,共16个视角,编码出2185个视觉token。文本编码器则处理指令和历史状态。

核心的掩码扩散主干网络中,研究者在前馈网络(FFN)层集成了64个LoRA专家。对于每一个输入,不是所有专家都参与计算,而是通过一个路由门控机制(Router),动态选择最相关的几个专家来处理。

这种设计让模型学会了术业有专攻。

有的专家可能擅长处理十字路口,有的专家擅长高速跟车。

在保持推理计算量主要由基础模型和少量活跃专家承担的同时,极大地丰富了模型应对长尾场景的能力。

为了训练这个庞然大物,团队采用了多任务学习策略。

不仅仅是模仿人类驾驶员的轨迹(Motion Prediction),还加入了驾驶导向的视觉问答(VQA)。

这迫使模型不仅要知其然(输出轨迹),还要知其所以然(理解场景逻辑,如识别红绿灯、避让行人)。

实验表明,这种联合训练比单纯的轨迹模仿显著提升了规划性能。


在线强化学习注入人类价值观

监督学习(Supervised Learning)教会了模型模仿人类驾驶员的平均行为,但这还不够。

人类驾驶员偶尔也会犯错,而且单纯的模仿很难应对分布外(Out-of-Distribution)的极端情况。

为了让模型开得更安全、更舒适,WAM-Diff引入了在线强化学习(Online Reinforcement Learning)

具体采用的是组序列策略优化(GSPO,Group Sequence Policy Optimization)算法。


传统的强化学习往往针对每一步动作进行反馈,但这在长序列生成中会导致信用分配(Credit Assignment)难题:到底是哪一步做对了才避免了碰撞?

GSPO则不同,它关注的是整个动作序列的优劣。

系统定义了一个多维度的奖励函数,包含:

  • 无碰撞(No Collisions)

  • 可行驶区域合规(Drivable Area Compliance)

  • 碰撞时间(TTC,Time-To-Collision)

  • 舒适度(Comfort)

  • 自身进度(Ego Progress)

相比于传统的PPO或GRPO,GSPO更适合掩码扩散模型,因为它避免了对每个token进行细粒度的信用分配,直接针对最终结果——是否开得好进行优化。

这使得模型能够跳出模仿数据的局限,学会处理那些训练集中未曾见过、但符合安全逻辑的复杂场景。


实验数据性能分析

WAM-Diff在NAVSIM-v1和v2基准测试上进行了全面评估。

NAVSIM是一个基于真实世界数据的大规模自动驾驶评测平台,它不仅看预测的轨迹是否接近人类(L2误差),更通过模拟器回放来验证闭环驾驶的安全性。



NAVSIM-v1上,PDMS(预测驾驶得分)91.0。这是目前的最高分。

相比之下,著名的UniAD得分为83.4,TransFuser为84.0,DiffusionDrive为88.1。WAM-Diff的优势非常明显。

在细分指标上,NC(无碰撞率)达到99.1%,DAC(可行驶区域合规率)达到98.3%。这说明模型不仅开得像人,而且极其守规矩、安全。

WAM-Diff在安全指标(NC, DAC, TTC)上全面领先,同时在保证舒适度(Comf.)接近满分的情况下,取得了不错的行进效率(EP)。

NAVSIM-v2上,EPDMS(扩展预测性驾驶模型评分)89.7,也是SOTA水平。


尽管WAM-Diff取得了令人瞩目的成绩,但论文也坦诚地指出了当前的不足。

首先是感知视野受限

目前的模型仅输入前视摄像头的图像。虽然对于大多数直线和跟车场景足够,但在路口博弈或侧向来车时,缺乏侧后方视野可能导致感知盲区,进而引发规划失败。


图中的失败案例分析就展示了当重要障碍物处于视野之外时,模型可能做出误判。

其次是缺乏时序历史信息

模型目前只处理当前帧的图像,没有利用视频流的时间维度的历史信息。这意味着它很难准确推断其他车辆的速度和意图(例如,旁边的车是在加速还是减速?)。这在动态复杂的交通流中是一个潜在的安全隐患。

未来的工作方向将聚焦于引入环视(3D)视觉编码器,以覆盖全方位的感知盲区;同时开发更高效的时序模型架构,将历史帧信息纳入考量,从而提升对动态环境的推理能力。

WAM-Diff证明了离散掩码扩散模型在自动驾驶领域的巨大潜力。

它不仅打破了自回归生成的思维定势,通过灵活的解码策略适应不同驾驶场景,更巧妙地结合了MoE的扩展能力和RL的价值对齐能力,为端到端自动驾驶提供了一个强有力的新选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武汉大学中南医院原党委常委、院长王行环接受审查调查

武汉大学中南医院原党委常委、院长王行环接受审查调查

界面新闻
2025-12-29 11:31:29
太尴尬了!木子美硬怼项立刚:我写你才值20块,写罗永浩能拿50…

太尴尬了!木子美硬怼项立刚:我写你才值20块,写罗永浩能拿50…

火山詩话
2025-12-29 08:52:44
欧洲三国宣布:正式退出!

欧洲三国宣布:正式退出!

每日经济新闻
2025-12-28 15:09:05
百度为什么越来越垃圾了?广告主吐槽:乱投关键词,亏光10万转化率为0

百度为什么越来越垃圾了?广告主吐槽:乱投关键词,亏光10万转化率为0

回旋镖
2025-12-28 21:27:25
特朗普对中国说话算话,8艘满载巨轮已放行,正连夜赶往中国

特朗普对中国说话算话,8艘满载巨轮已放行,正连夜赶往中国

瞳哥视界
2025-12-28 21:04:47
为什么我不相信美国有斩杀线

为什么我不相信美国有斩杀线

小院之观
2025-12-29 06:30:09
波罗的海三国退出《渥太华公约》,波兰、芬兰也跟进,行动开始了

波罗的海三国退出《渥太华公约》,波兰、芬兰也跟进,行动开始了

山河路口
2025-12-28 23:48:08
银行女经理挪用12个储户3000万,事发后与丈夫双双自尽,储户天塌了

银行女经理挪用12个储户3000万,事发后与丈夫双双自尽,储户天塌了

观世记
2025-12-27 15:02:35
豆瓣几乎零差评的15本书,你看过其中几本?

豆瓣几乎零差评的15本书,你看过其中几本?

北大博雅讲坛
2025-12-28 09:04:40
吃相难看!74岁姜昆赴美过圣诞真相大白,彻底揭开内娱不堪的一面

吃相难看!74岁姜昆赴美过圣诞真相大白,彻底揭开内娱不堪的一面

凡知
2025-12-26 15:31:46
商丘36岁银行女经理家中自缢:丈夫已死,储户赔偿难,银行不担责

商丘36岁银行女经理家中自缢:丈夫已死,储户赔偿难,银行不担责

奇思妙想草叶君
2025-12-28 01:45:36
演习区域图对比,时隔一年越来越近!

演习区域图对比,时隔一年越来越近!

环球网资讯
2025-12-29 11:28:23
一顿饭11个菜,客厅大得能打球,哭穷的闫学晶害惨“啃老”的儿子

一顿饭11个菜,客厅大得能打球,哭穷的闫学晶害惨“啃老”的儿子

娱小北
2025-12-28 23:49:54
央视《今日说法》主持人被骗1000元买茶叶,嫌犯已被抓获:被害人不止我一个,考虑对方家里有2个孩子,签了谅解书

央视《今日说法》主持人被骗1000元买茶叶,嫌犯已被抓获:被害人不止我一个,考虑对方家里有2个孩子,签了谅解书

扬子晚报
2025-12-28 21:39:22
手握1万亿美元顺差,我们却彻底搞错了贸易的本质

手握1万亿美元顺差,我们却彻底搞错了贸易的本质

流苏晚晴
2025-12-28 17:20:09
特朗普扬言:美国在维和方面替代联合国

特朗普扬言:美国在维和方面替代联合国

参考消息
2025-12-29 10:18:57
活久见!一保时捷车送去4s店维修,保时捷给了辆小米SU7当代步车

活久见!一保时捷车送去4s店维修,保时捷给了辆小米SU7当代步车

火山詩话
2025-12-29 06:05:54
姜昆助理辟谣不到一天,被狠狠“打脸”,姜昆女儿被扒,果不简单

姜昆助理辟谣不到一天,被狠狠“打脸”,姜昆女儿被扒,果不简单

阿纂看事
2025-12-27 21:44:07
太狠了!成都丰田4s店燃爆主角是矿山工人,现场一片狼藉损失惨重

太狠了!成都丰田4s店燃爆主角是矿山工人,现场一片狼藉损失惨重

火山詩话
2025-12-29 05:07:46
重磅:莫斯科多个机场遇袭关闭!近400架航班延误取消

重磅:莫斯科多个机场遇袭关闭!近400架航班延误取消

项鹏飞
2025-12-28 19:29:30
2025-12-29 12:35:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
186文章数 6179关注度
往期回顾 全部

科技要闻

肉搏非洲,传音不想只当个卖手机的

头条要闻

特朗普扬言:美国已经变成了一个真正的联合国

头条要闻

特朗普扬言:美国已经变成了一个真正的联合国

体育要闻

“史上最贵”的世界杯,球迷成了韭菜

娱乐要闻

谭松韵扛剧能力被质疑 赵丽颖成女主?

财经要闻

贵金属“牛市”能否跨年

汽车要闻

一汽正式“入股”零跑,总金额超37亿元!

态度原创

艺术
房产
家居
时尚
公开课

艺术要闻

毛主席致黎锦熙的信件内容曝光,书法艺术震撼人心!

房产要闻

中粮(三亚)国贸中心ITC第四期自贸港政策沙龙圆满举行

家居要闻

东方雅韵 温馨恬适

人到中年别硬凹“少女感”,无龄感穿搭才是王道,优雅显贵

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版