网易首页 > 网易号 > 正文 申请入驻

复旦引望提出Masked Diffusion端到端自动驾驶新框架

0
分享至



随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切换。

针对上述痛点,复旦大学与引望智能联合提出了 WAM-Diff 框架。该研究创新性地将离散掩码扩散模型(Discrete Masked Diffusion)引入 VLA 自动驾驶规划,并结合稀疏混合专家(MoE)架构与在线强化学习(GSPO),构建了一套不再受限于单向时序的生成式规划系统。

在权威评测基准 NAVSIM 中,WAM-Diff 展现了卓越的性能,在 NAVSIM-v1 和 v2 榜单上分别取得了91.0 PDMS和89.7 EPDMS的 SOTA 成绩,有力证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力。



  • 论文标题: WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving
  • 论文链接: https://arxiv.org/abs/2512.11872
  • 开源项目: https://github.com/fudan-generative-vision/WAM-Diff

核心创新:重新思考生成逻辑


从数值回归到离散序列生成

为了在统一的特征空间内实现对世界的理解与动作规划,WAM-Diff 首先引入了混合离散动作分词(Hybrid Discrete Action Tokenization)技术。研究团队将连续的 2D 轨迹坐标量化为高精度的离散 Token(误差控制在 0.005 以内),并将其与代表驾驶指令(如「左转」、「避让」、「停靠」)的语义 Token 置于共享词表中。

在此基础上,WAM-Diff 采用 Masked Diffusion 作为生成骨干。与逐个预测下一个 Token 的自回归模型不同,Masked Diffusion 从一个全掩码序列出发,利用双向上下文信息,在每一步迭代中并行预测所有位置的 Token。这种机制不仅大幅提升了推理效率,更重要的是赋予了模型全局优化的能力,使其能够同时利用过去和未来的信息来推断当前的最优动作。



Figure 1 : WAM-Diff 的模型总体架构图。

解码策略验证「反因果」规划的有效性

摆脱了「从左到右」的时序束缚后,模型该如何安排轨迹生成的优先级?WAM-Diff 深入探索了因果序(Causal)、反因果序(Reverse-Causal)和随机序(Random)三种解码调度策略。实验结果揭示了一个反直觉但极具价值的现象:反因果序策略在闭环指标上表现最佳。这意味着,先确定远处的终点状态,再倒推近处的轨迹细节,这种「以终为始」的生成逻辑能显著提升规划的一致性与安全性。这一发现从模型层面验证了人类驾驶员在复杂博弈场景下的直觉思维。



Figure 2 : Masked Diffusion 的不同解码调度策略。

MoE 混合专家与 GSPO 在线强化学习

面对多变的驾驶场景,单一模型往往难以兼顾各种极端情况。WAM-Diff 通过在主干网络中集成 LoRA-MoE(Low-Rank Adaptation Mixture-of-Experts)架构来解决这一难题。模型包含 64 个轻量级专家,通过门控网络实现动态路由与稀疏激活。在推理过程中,模型能够根据当前场景自动激活最匹配的驾驶专家,在控制计算开销的同时显著提升了模型的容量与适应性。此外,团队采用了多任务联合训练策略,使模型在学习轨迹预测的同时,通过驾驶 VQA 任务理解场景语义。这使得专家网络不仅掌握了驾驶技能,更理解了驾驶决策背后的因果逻辑,显著增强了规划的可解释性与泛化能力。



Figure 3 : MoE 组件的定性分析。不同场景下规划轨迹的 BEV 可视化与专家激活热力图。

与此同时,单纯的模仿学习容易导致模型在长尾场景下缺乏鲁棒性,且难以显式优化安全指标。为此,WAM-Diff 引入了分组序列策略优化(GSPO, Group Sequence Policy Optimization)算法,旨在弥合开环训练与闭环执行之间的鸿沟。GSPO 的核心思想是将优化粒度从「单步 Token」提升至「完整轨迹序列」。系统在仿真环境中采样一组候选轨迹,并依据安全性(碰撞检测)、合规性(车道保持)及舒适性(加减速平滑度)等多维指标对整条轨迹进行评分。通过计算组内相对优势,模型被显式引导向「高安全、高舒适」的区域更新。这种序列级的价值对齐机制,从根本上确保了规划结果不仅「像人」,而且比人类驾驶数据更安全、更规范。


实验结果


为了验证 WAM-Diff 的有效性,我们在权威的 NAVSIM 自动驾驶评测基准上进行了广泛实验。结果显示,该方法在 NAVSIM-v1 和 v2 榜单上均取得了具有竞争力的表现。具体而言,在 NAVSIM-v1 中,WAM-Diff 达到了 91.0 的 PDMS 分数,超越了 DiffusionDrive、ReCogDrive 以及 DriveVLA-W0 等主流基线模型。



Table 1 : 在 NAVSIM-v1 上与最先进方法(SOTA)的对比。

进一步地,在引入了交通规则遵循度与舒适性等更严格指标的 NAVSIM-v2 测试中,模型依然保持了稳健性,取得了 89.7 的 EPDMS 成绩,相较于 DiffusionDrive 提升了 5.2 分。这表明 WAM-Diff 能够有效平衡驾驶的安全性与合规性,在面对贴近真实驾驶的复杂评测体系时仍能生成高质量的规划轨迹。



Table 2 : 在 NAVSIM-v2 上与最先进方法(SOTA)的对比。

此外,我们对掩码扩散的解码策略进行了深入的消融研究。实验对比了随机序、因果序与反因果序三种模式,结果发现反因果序策略取得了最佳的闭环性能(91.0 PDMS)。这一数据有力支持了 “以终为始” 的规划直觉:优先确立远期驾驶意图,再反推近端动作细节,有助于生成在时序上更一致、安全的可执行轨迹。



Table 3 :掩码解码调度策略的消融研究。

定性实验与可视化结果进一步展示了模型在复杂博弈场景下的稳定性,验证了 MoE 架构与在线强化学习(GSPO)组件在提升长尾场景鲁棒性方面的作用。



Figure 4 : 强化学习 GSPO 在不同驾驶场景下的定性消融分析。

总结


WAM-Diff 的出现,标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出了重要一步。它并未简单地堆砌模型参数,而是通过 Masked Diffusion 重构了时序生成的逻辑,利用 MoE 解决了策略单一性的瓶颈,最后通过 RL 守住了安全的底线。对于业界而言,WAM-Diff 证明了在 VLA 时代,「如何生成」与「生成什么」同样重要。这种具备反向推理能力且风格多变的规划器,或许正是通往 L4 级自动驾驶的一块关键拼图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

大象新闻
2026-03-24 13:53:11
中考大改革!10门变6门,体育成“主科”,调整还在进行中……

中考大改革!10门变6门,体育成“主科”,调整还在进行中……

侃故事的阿庆
2026-03-26 14:02:37
上海妈妈寻亲27年,悬赏上海市区一套房!“不需要回来尽孝,只在等一个拥抱”

上海妈妈寻亲27年,悬赏上海市区一套房!“不需要回来尽孝,只在等一个拥抱”

环球网资讯
2026-03-26 15:06:31
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
镇江一男子,被要挟曝光“不雅视频”!

镇江一男子,被要挟曝光“不雅视频”!

知扬中
2026-03-26 17:46:49
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

新京报
2026-03-26 16:30:55
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
“地铁吐血女孩”独自到医院看病:她告诉医生当天呕血10毫升,医院再发病危通知单,开药后继续观察

“地铁吐血女孩”独自到医院看病:她告诉医生当天呕血10毫升,医院再发病危通知单,开药后继续观察

极目新闻
2026-03-24 19:14:02
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
王仁辉任江西省卫健委主任

王仁辉任江西省卫健委主任

中国经济网
2026-03-26 13:51:05
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

宅基地确权最后冲刺:今年不把名字改成儿子的,以后可能就改不了

混沌录
2026-03-19 21:59:03
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

匀枫财技大兜底
2026-03-25 10:26:15
可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

可能出大事了,四名军工系统院士被除名,释放的信号让人不敢细想

张嘴说财经
2026-03-25 23:07:05
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

丁丁鲤史纪
2026-03-25 18:03:42
国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

沧海一书客
2026-03-25 12:07:49
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
2026-03-26 20:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
游戏
时尚
军事航空

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

《迷你金属2》4月开启开发版测试 军事题材战略模拟

皮衣+裙,高级到炸

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版