![]()
复旦引望联手搞出大动作,一款叫WAM-Diff的框架,直接给自动驾驶的核心规划逻辑来了次大升级。
现在主流的端到端自动驾驶都在往“大一统”方向靠,但老问题一直没解决,这次WAM-Diff算是精准踩中了痛点。
![]()
现在很多自动驾驶的规划模型,都用的是自回归生成模式。
简单说,就是像写句子一样从左到右按顺序算动作。这跟咱们人类开车的思路完全对不上。
咱们老司机碰到复杂路况,肯定是先想清楚最终要去哪,比如要进匝道、要避让行人,再倒着推现在该踩油门还是打方向。
那些自回归模型可不管这些,只埋头算下一步动作。
![]()
更麻烦的是,这些模型大多靠模仿人类驾驶数据学习,很容易陷入“平均司机”的陷阱。
意思就是只会中规中矩开车,该激进避让的时候不敢动,该平稳跟车的时候又反应迟钝。
之前看不少自动驾驶实测,碰到突发情况就掉链子,多半就是这个原因。
WAM-Diff的出现,就是冲着解决这些问题来的。
![]()
本来想是不是单纯堆参数就能解决,后来发现根本不行,得从根上改生成逻辑。
WAM-Diff最核心的改变,是把离散掩码扩散模型用在了自动驾驶规划上。
首先它搞了个混合离散动作分词技术,把连续的行车轨迹坐标,精准转换成了离散的“指令块”,误差能控制在很小的范围里。
这些“指令块”还能和“左转”“避让”这类语义指令放在一起理解,相当于让模型既能看懂路,又能听懂指令。
![]()
更有意思的是它的解码策略。研发团队试了三种生成顺序,最后发现反因果序最管用。
就是先确定远处的终点,再倒着规划近处的动作,这完全复刻了人类“以终为始”的驾驶直觉。
如此看来,这种反常规的思路,反而让行车轨迹更连贯、更安全。
为了应对不同路况,WAM-Diff还加了MoE混合专家架构。
![]()
简单说就是模型里藏了64个“专项司机”,碰到十字路口、高速路这些不同场景,会自动激活最擅长的那个。
同时搭配的强化学习算法,还能从整个行车轨迹的角度做优化,不光看动作像不像人,更要保证安全、合规、舒服。
这款框架的实力,在NAVSIM权威评测里得到了验证。
![]()
在两个版本的测试中,都拿到了顶尖成绩,比现在不少主流模型表现都好。
尤其是在加了交通规则和舒适性要求的测试里,优势更明显。
这些成绩背后的意义不一般。
它证明了非自回归生成范式在自动驾驶里是可行的,也打破了大家对“模型越复杂越好”的固有认知。
![]()
WAM-Diff没靠堆参数,而是靠优化生成逻辑和架构设计,就解决了行业痛点。
对行业来说,这可能是通往L4级自动驾驶的关键一步。
现在很多自动驾驶方案卡在复杂场景的决策上,WAM-Diff提供了新的思路。
它让模型不光能“学会开车”,还能“理解为什么这么开”,可解释性和安全性都提上去了。
![]()
WAM-Diff的出现,算是给端到端自动驾驶的发展指了个新方向。
未来要是能结合车路云一体化这些技术,说不定能更快推动高等级自动驾驶的商业化落地。
毫无疑问,这种从底层逻辑革新的技术,远比单纯的参数升级更有价值。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.