网易首页 > 网易号 > 正文 申请入驻

复旦引望提出Masked Diffusion端到端自动驾驶新框架

0
分享至



随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切换。

针对上述痛点,复旦大学与引望智能联合提出了 WAM-Diff 框架。该研究创新性地将离散掩码扩散模型(Discrete Masked Diffusion)引入 VLA 自动驾驶规划,并结合稀疏混合专家(MoE)架构与在线强化学习(GSPO),构建了一套不再受限于单向时序的生成式规划系统。

在权威评测基准 NAVSIM 中,WAM-Diff 展现了卓越的性能,在 NAVSIM-v1 和 v2 榜单上分别取得了91.0 PDMS和89.7 EPDMS的 SOTA 成绩,有力证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力。



  • 论文标题: WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving
  • 论文链接: https://arxiv.org/abs/2512.11872
  • 开源项目: https://github.com/fudan-generative-vision/WAM-Diff

核心创新:重新思考生成逻辑


从数值回归到离散序列生成

为了在统一的特征空间内实现对世界的理解与动作规划,WAM-Diff 首先引入了混合离散动作分词(Hybrid Discrete Action Tokenization)技术。研究团队将连续的 2D 轨迹坐标量化为高精度的离散 Token(误差控制在 0.005 以内),并将其与代表驾驶指令(如「左转」、「避让」、「停靠」)的语义 Token 置于共享词表中。

在此基础上,WAM-Diff 采用 Masked Diffusion 作为生成骨干。与逐个预测下一个 Token 的自回归模型不同,Masked Diffusion 从一个全掩码序列出发,利用双向上下文信息,在每一步迭代中并行预测所有位置的 Token。这种机制不仅大幅提升了推理效率,更重要的是赋予了模型全局优化的能力,使其能够同时利用过去和未来的信息来推断当前的最优动作。



Figure 1 : WAM-Diff 的模型总体架构图。

解码策略验证「反因果」规划的有效性

摆脱了「从左到右」的时序束缚后,模型该如何安排轨迹生成的优先级?WAM-Diff 深入探索了因果序(Causal)、反因果序(Reverse-Causal)和随机序(Random)三种解码调度策略。实验结果揭示了一个反直觉但极具价值的现象:反因果序策略在闭环指标上表现最佳。这意味着,先确定远处的终点状态,再倒推近处的轨迹细节,这种「以终为始」的生成逻辑能显著提升规划的一致性与安全性。这一发现从模型层面验证了人类驾驶员在复杂博弈场景下的直觉思维。



Figure 2 : Masked Diffusion 的不同解码调度策略。

MoE 混合专家与 GSPO 在线强化学习

面对多变的驾驶场景,单一模型往往难以兼顾各种极端情况。WAM-Diff 通过在主干网络中集成 LoRA-MoE(Low-Rank Adaptation Mixture-of-Experts)架构来解决这一难题。模型包含 64 个轻量级专家,通过门控网络实现动态路由与稀疏激活。在推理过程中,模型能够根据当前场景自动激活最匹配的驾驶专家,在控制计算开销的同时显著提升了模型的容量与适应性。此外,团队采用了多任务联合训练策略,使模型在学习轨迹预测的同时,通过驾驶 VQA 任务理解场景语义。这使得专家网络不仅掌握了驾驶技能,更理解了驾驶决策背后的因果逻辑,显著增强了规划的可解释性与泛化能力。



Figure 3 : MoE 组件的定性分析。不同场景下规划轨迹的 BEV 可视化与专家激活热力图。

与此同时,单纯的模仿学习容易导致模型在长尾场景下缺乏鲁棒性,且难以显式优化安全指标。为此,WAM-Diff 引入了分组序列策略优化(GSPO, Group Sequence Policy Optimization)算法,旨在弥合开环训练与闭环执行之间的鸿沟。GSPO 的核心思想是将优化粒度从「单步 Token」提升至「完整轨迹序列」。系统在仿真环境中采样一组候选轨迹,并依据安全性(碰撞检测)、合规性(车道保持)及舒适性(加减速平滑度)等多维指标对整条轨迹进行评分。通过计算组内相对优势,模型被显式引导向「高安全、高舒适」的区域更新。这种序列级的价值对齐机制,从根本上确保了规划结果不仅「像人」,而且比人类驾驶数据更安全、更规范。


实验结果


为了验证 WAM-Diff 的有效性,我们在权威的 NAVSIM 自动驾驶评测基准上进行了广泛实验。结果显示,该方法在 NAVSIM-v1 和 v2 榜单上均取得了具有竞争力的表现。具体而言,在 NAVSIM-v1 中,WAM-Diff 达到了 91.0 的 PDMS 分数,超越了 DiffusionDrive、ReCogDrive 以及 DriveVLA-W0 等主流基线模型。



Table 1 : 在 NAVSIM-v1 上与最先进方法(SOTA)的对比。

进一步地,在引入了交通规则遵循度与舒适性等更严格指标的 NAVSIM-v2 测试中,模型依然保持了稳健性,取得了 89.7 的 EPDMS 成绩,相较于 DiffusionDrive 提升了 5.2 分。这表明 WAM-Diff 能够有效平衡驾驶的安全性与合规性,在面对贴近真实驾驶的复杂评测体系时仍能生成高质量的规划轨迹。



Table 2 : 在 NAVSIM-v2 上与最先进方法(SOTA)的对比。

此外,我们对掩码扩散的解码策略进行了深入的消融研究。实验对比了随机序、因果序与反因果序三种模式,结果发现反因果序策略取得了最佳的闭环性能(91.0 PDMS)。这一数据有力支持了 “以终为始” 的规划直觉:优先确立远期驾驶意图,再反推近端动作细节,有助于生成在时序上更一致、安全的可执行轨迹。



Table 3 :掩码解码调度策略的消融研究。

定性实验与可视化结果进一步展示了模型在复杂博弈场景下的稳定性,验证了 MoE 架构与在线强化学习(GSPO)组件在提升长尾场景鲁棒性方面的作用。



Figure 4 : 强化学习 GSPO 在不同驾驶场景下的定性消融分析。

总结


WAM-Diff 的出现,标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出了重要一步。它并未简单地堆砌模型参数,而是通过 Masked Diffusion 重构了时序生成的逻辑,利用 MoE 解决了策略单一性的瓶颈,最后通过 RL 守住了安全的底线。对于业界而言,WAM-Diff 证明了在 VLA 时代,「如何生成」与「生成什么」同样重要。这种具备反向推理能力且风格多变的规划器,或许正是通往 L4 级自动驾驶的一块关键拼图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
得知“死立执”才怕道歉!蓄意撞死案判了 恶魔伏诛 母亲哭成泪人

得知“死立执”才怕道歉!蓄意撞死案判了 恶魔伏诛 母亲哭成泪人

天天热点见闻
2026-01-06 08:11:02
很突然,知名品牌宣布闭店!王俊凯曾代言

很突然,知名品牌宣布闭店!王俊凯曾代言

极目新闻
2026-01-05 08:49:21
美国学者:如果不是毛主席当年那个决定,中国早已重蹈苏联覆辙

美国学者:如果不是毛主席当年那个决定,中国早已重蹈苏联覆辙

每一次点击
2026-01-03 17:03:47
36岁男明星晒南极旅游!天天吃泡面,吐槽企鹅屎臭,网友:祛魅了

36岁男明星晒南极旅游!天天吃泡面,吐槽企鹅屎臭,网友:祛魅了

瓜汁橘长Dr
2025-12-29 17:52:06
轮到特朗普本人被审判了,中俄支持下,安理会将紧急召开会议

轮到特朗普本人被审判了,中俄支持下,安理会将紧急召开会议

聚焦热点直击
2026-01-06 23:25:41
卢比奥一语道破委内瑞拉荒诞真相:马杜罗的江山,古巴人的管家

卢比奥一语道破委内瑞拉荒诞真相:马杜罗的江山,古巴人的管家

老马拉车莫少装
2026-01-05 21:46:08
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
舞蹈家刘岩近况,瘫痪17年后有了新身份,曾令张艺谋深感惭愧

舞蹈家刘岩近况,瘫痪17年后有了新身份,曾令张艺谋深感惭愧

孙子星
2026-01-05 19:52:15
联合国还有什么意义?安理会无视中方发言之后,中国记者灵魂提问

联合国还有什么意义?安理会无视中方发言之后,中国记者灵魂提问

科普100克克
2026-01-06 19:22:09
网友因猫干饭太凶带去体检!医生沉默三秒:“它只是…天生干饭魂!”

网友因猫干饭太凶带去体检!医生沉默三秒:“它只是…天生干饭魂!”

拜见喵主子
2026-01-06 12:27:54
美大批军机又飞往中东,又要帮以色列打伊朗吗?哈梅内伊怎么办?

美大批军机又飞往中东,又要帮以色列打伊朗吗?哈梅内伊怎么办?

科普大世界
2026-01-06 22:59:20
人狂必有祸!被何庆魁骂“白眼狼”的闫学晶,狐狸尾巴藏不住了

人狂必有祸!被何庆魁骂“白眼狼”的闫学晶,狐狸尾巴藏不住了

冷紫葉
2026-01-04 18:10:31
中方设国宴,李在明妻子在华做饭,韩国发帖感叹,对华换了新称谓

中方设国宴,李在明妻子在华做饭,韩国发帖感叹,对华换了新称谓

时时有聊
2026-01-06 20:27:07
马杜罗在纽约出庭拒绝美方指控,称主权国家元首享有特权

马杜罗在纽约出庭拒绝美方指控,称主权国家元首享有特权

界面新闻
2026-01-06 09:16:36
人民热评:零下28℃的鳌山,岂能用生命来试!

人民热评:零下28℃的鳌山,岂能用生命来试!

人民资讯
2026-01-06 16:35:08
马年生肖茅台上市首日遭热炒,1899元基础款黄牛喊价3000元

马年生肖茅台上市首日遭热炒,1899元基础款黄牛喊价3000元

第一财经资讯
2026-01-06 12:29:38
台海和平新方案横空出世了:抛弃 “一国两制”的新模式行不行?

台海和平新方案横空出世了:抛弃 “一国两制”的新模式行不行?

文史旺旺旺
2026-01-05 22:04:15
陈家政、约克踩线了吗?CBA裁判专家:业余的裁判,业余的联赛

陈家政、约克踩线了吗?CBA裁判专家:业余的裁判,业余的联赛

体育哲人
2026-01-06 20:42:53
沉默3天后,美回了2句话,日本仍不服气,岛内民调让赖清德傻眼

沉默3天后,美回了2句话,日本仍不服气,岛内民调让赖清德傻眼

非凡观点
2026-01-06 08:30:07
马杜罗之子誓言捍卫委内瑞拉和平

马杜罗之子誓言捍卫委内瑞拉和平

财联社
2026-01-06 14:26:07
2026-01-07 00:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12066文章数 142530关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

13岁男孩餐馆内被烫伤致死:四肢被烫熟 腿像大象腿

头条要闻

13岁男孩餐馆内被烫伤致死:四肢被烫熟 腿像大象腿

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

本地
家居
数码
亲子
军事航空

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

家居要闻

引光之宅 地下室也有生机

数码要闻

Aqara绿米推出U400智能锁:自带UWB超宽带,可实现无感解锁

亲子要闻

孩子叫你“妈妈”和“妈”,是何感受?

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版