网易首页 > 网易号 > 正文 申请入驻

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

0
分享至


新智元报道

编辑:LRST

【新智元导读】浙江大学与哈工大(深圳)联合推出SafeMVDrive,利用扩散模型结合VLM实现批量化多视角真实域的安全关键视频生成。该方法在保持画质与真实感的同时,显著增强了驾驶场景的危险性。生成的场景用于端到端自动驾驶系统的极限压测,可使得模型的碰撞率提升50倍。

近期,懂车帝的《懂车智炼场》栏目对量产自动驾驶系统的NOA辅助驾驶功能进行了安全关键场景测试。

结果显示,在黑夜施工工地、高速公路前方车辆发生事故以及障碍物后突然驶出车辆等高风险场景中,目前尚无任何系统能够在测试中做到完全避免事故。

这类安全关键场景在真实道路上虽不常见,但一旦发生,可能导致人员伤亡或严重交通事故。

为了提升自动驾驶系统在此类情境下的可靠性,必须在多样化且高风险的安全关键场景中进行广泛测试。

然而,这类极端场景在现实中采集难度极高——发生频率低、风险大、难以批量获取。

在仿真环境中,类似的场景虽然可以批量制造,但现有模拟器在画面真实度上与现实仍有差距,难以直接用于真实域下端到端系统的极限测试。

为此,来自浙江大学与与哈工大(深圳)的研究团队提出了SafeMVDrive——首个面向真实域的多视角安全关键驾驶视频生成框架。

它将VLM关键车辆选择器与两阶段轨迹生成结合,驱动多视角视频生成模型,在真实域中实现批量制造高保真安全关键视频,可用于对端到端自动驾驶系统的安全性测试。


论文地址:https://arxiv.org/abs/2505.17727

项目地址:https://zhoujiawei3.github.io/SafeMVDrive/

代码地址:https://github.com/zhoujiawei3/SafeMVDrive

数据集地址:https://huggingface.co/datasets/JiaweiZhou/SafeMVDrive

为了实现高质量真实域多视角安全关键场景,研究人员首先尝试将安全轨迹模拟与多视角视频生成模型结合,用真实域视频驱动极限测试。然而在实践中,他们发现存在两大挑战:

一是安全关键车辆的选择。现有方法大多依赖简单的启发式规则(如选择最近车辆),缺乏对场景关系的视觉理解,容易选错目标车辆,导致生成场景的安全关键性不足或生成失败;

二是多视角视频生成模型的泛化性问题。由于现有模型在训练时几乎没有接触过碰撞或近距离互动等极端场景数据,在这些情况下的生成质量明显下降。

为此,研究团队提出了两项关键创新:

  • VLM关键车辆选择器引入经过GRPO微调的视觉语言模型,从多视角真实画面中推理交通互动关系,精准识别最有可能制造危险的对抗车辆;

  • 双阶段轨迹生成:先生成符合物理规律的碰撞轨迹,再转化为「接近碰撞但成功规避」的轨迹,既保留紧张刺激的安全关键特征,又保持视频生成的高保真度。

SafeMVDrive能够批量生成高保真、多视角的安全关键驾驶视频,显著提高极端场景的覆盖率,并在保持画质与真实感的同时,为端到端自动驾驶系统的极限压测提供更具挑战性的测试数据。

效果展示

对于给定的多视角图像,SafeMVDrive能够在真实域生成高质量的安全关键多视角视频,其中不仅包含目标车辆的安全关键行为(如加塞、急刹、后方突然加速),还呈现出自车(当前多视角摄像机安装车辆)的相应规避动作。


侧方车辆突然加塞,自车轻微向右转向避让


后方车辆突然加速,自车向左变道以躲避


后方车辆突然加速,自车同步提速进行规避


前方车辆突然减速,自车变道并减速避让

如下图所示,相比于将开源数据集中的自然轨迹用于多视角视频生成模型(Origin),以及简单的将碰撞轨迹模拟生成的轨迹与多视角视频生成模型结合(Naive)而言,SafeMVDrive兼顾视频真实性质量以及场景危险性。


第一列自然轨迹生成的视频较常见,第二列碰撞轨迹生成的视频未段车辆变形失真,第三列本框架生成的视频兼具真实性与安全关键性

方法概述

SafeMVDrive的核心目标,是从一个给定的初始场景中批量生成真实域多视角安全关键驾驶视频。


整个方法由三大模块组成:

VLM车辆选择器:多视角画面中锁定安全关键车

在极端驾驶场景的构造中,第一步是决定哪辆车会对自车构成威胁。

传统方法常依赖非视觉信息即数据集标注并结合启发式规则(如距离最近的车辆)选择。这种简单的规则往往无法覆盖复杂的交通场景,并且可能因为数据集漏标注导致选择的车辆无法以自然的轨迹与自车发生碰撞。

如下图所示,右图展示的是非视觉信息即数据集标注,失去了对于安全关键车辆信息判断至关重要的障碍物标注,导致传统的启发式规则方法错误判断认为大巴可以与自车发生自然轨迹的碰撞,实际上其并无法绕过障碍物与自车发生碰撞。


研究人员提出利用初始场景的多视角图像中的视觉信息,配合VLM的场景理解能力实现更有效的安全关键车辆选择。

首先,研究人员利用碰撞轨迹模拟自动化生成「初始场景——安全关键车辆」配对数据集,之后利用GRPO算法微调VLM,最终地得到了基于VLM的安全关键车辆选择器。

双阶段轨迹生成:从「碰撞」到「规避」

现有安全关键轨迹生成方法多以制造碰撞事件为目标,但由于当前多视角视频生成器缺乏真实多视角碰撞数据,这类碰撞控制信号往往导致生成画质下降。

为此,研究人员提出双阶段规避轨迹生成策略,在保留安全关键特征的同时生成可被现有视频生成器真实渲染的规避场景。

第一阶段为碰撞轨迹模拟:基于可控扩散轨迹生成模型,从初始单帧场景出发,通过test-time loss guidance引导对抗车辆与自车发生有效碰撞。研究人员设计了三类损失:

对抗损失在碰撞发生前按时间衰减加权,最小化两车间距离,鼓励对抗车辆快速逼近自车,并在碰撞后将损失置零以避免不自然的「粘连」行为;

无碰损失约束除自车与对抗车辆外的其他车辆避免碰撞;

在路损失惩罚驶入非可行驶区域的轨迹,保持交通合理性。

第二阶段为规避轨迹转化:在保持第一阶段所有非自车轨迹不变的前提下,仅更新自车轨迹,并以无碰损失在路损失引导自车规避对抗车辆,从而将原本的碰撞场景自然转化为安全关键的规避场景。

这种方式既保留了对抗车辆的威胁性动作,又确保了生成结果的真实感和物理合理性。

最终,经过筛选的规避轨迹被用于驱动多视角视频生成器,得到兼具安全关键性与视觉真实感的驾驶视频。

多视角视频生成:真实域合成高保真「险情」

在SafeMVDrive的最后一步,研究团队采用了多视角视频生成模块,将双阶段轨迹生成器输出的「规避型」安全关键轨迹转化为高保真真实域视频。

具体来说,他们选用UniMLVG作为骨干网络,该模型不仅支持显式控制自车与周围车辆的运动轨迹,还能在较长时间跨度内保持视频质量稳定。

转换过程中,生成的规避轨迹会被编码成逐帧控制信号(3D边界框、高清地图、相机参数),并结合多视角初始帧与时间及天气文本描述输入视频生成器。

由于安全关键场景持续时间较长,SafeMVDrive采用自回归滚动生成方式:每段视频的最后一帧作为下一段的起始帧,对应时间窗口的控制信号则用于引导后续生成。

通过这种迭代,完整的碰撞规避轨迹最终被渲染为真实域的多视角「险情」视频,兼顾安全关键性与画面真实感

实验结果

研究团队从两个方面进行了评估:生成视频的真实感与安全关键性,以及对抗车辆选择的准确度。

高保真危险场景批量生成

如下表所示,SafeMVDrive在生成真实域多视角视频的同时,显著提升了安全关键场景的覆盖率和多样性。


在碰撞率指标上,它生成的场景比开源数据集中自然轨迹用于多视角视频生成模型(Origin)更具挑战性,且在保持高碰撞率的同时,画质与真实感依然接近真实视频,远优于将碰撞轨迹模拟生成的轨迹直接与多视角视频生成模型结合生成的视频(Naive)。

精准锁定安全关键车辆

如下图所示,在对抗车辆选择任务中,VLM关键车辆选择器通过多视角画面推理交通关系,有效的分析场景并且选择了合适的安全关键车辆。


如下表所示,VLM关键车辆选择器兼顾了精度与召回率,识别出的目标车辆更符合真实交通逻辑,明显优于基线方法。这保证了后续生成的安全关键车辆模拟的高效率以及场景的丰富度。


作者介绍

本文由浙江大学与哈工大(深圳)的研究团队共同完成,感谢所有参与的作者。以下为部分作者简介:

周家葳,哈工大(深圳)硕士研究生,研究方向为自动驾驶内容生成与世界模型。

吕林烨,哈工大(深圳)博士研究生,主要关注人工智能安全,涵盖自动驾驶与大语言模型。

李渝,浙江大学「百人计划」研究员,长期从事人工智能软硬件安全与测试方法研究。

参考资料:

https://arxiv.org/abs/2505.17727



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
轻易把女人约出来的4种方法,坏男人都精通,老实男快学

轻易把女人约出来的4种方法,坏男人都精通,老实男快学

文雅笔墨
2026-01-31 03:31:14
湖人三分出手多但不准,东契奇八村塁难扛大旗,乐福或成破局关键

湖人三分出手多但不准,东契奇八村塁难扛大旗,乐福或成破局关键

不凡体育
2026-02-01 13:08:10
害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

害怕春节被“斩首”?赖清德当局加紧春节备战!模拟解放军突袭机场等关键设施,台军演练短程防空接战、地空整体作战、无人机攻击等

每日经济新闻
2026-01-31 19:15:15
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

婆婆当了近四十年的老师,今年刚好退休,我还以为退休金最多4000

五元讲堂
2026-01-26 11:26:26
破旧衣服大叔摸狗后续:狗主人回应,已联系社区帮助,大叔已回家

破旧衣服大叔摸狗后续:狗主人回应,已联系社区帮助,大叔已回家

离离言几许
2026-01-31 11:04:37
蒙哥马利有多痴情?对寡妇贝蒂一见钟情,甘愿做她两个孩子的继父

蒙哥马利有多痴情?对寡妇贝蒂一见钟情,甘愿做她两个孩子的继父

饭小妹说历史
2026-01-17 09:12:37
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
2月1日,券商给予评级并且给出目标价的公司一览

2月1日,券商给予评级并且给出目标价的公司一览

A股数据表
2026-02-01 06:00:03
中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

中国芯片英雄,被美国囚禁9年后终于回家!他反手把苹果告上法庭

胖哥不胡说
2026-01-24 18:45:24
中铁建领导、员工薪资大曝光!

中铁建领导、员工薪资大曝光!

黯泉
2026-01-31 22:24:38
28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

28元到5元!“股息奶牛”大秦铁路陨落,21万股民被套真相

慧眼看世界哈哈
2026-01-07 11:54:23
连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

连超湖人太阳升西部第5!华子33分森林狼大胜灰熊 兰德尔27+7+7

醉卧浮生
2026-02-01 11:20:02
董璇小酒窝参加朵朵生日会,陈思诚罕见露面,两家人合照太有爱了

董璇小酒窝参加朵朵生日会,陈思诚罕见露面,两家人合照太有爱了

扒虾侃娱
2026-01-31 18:25:21
为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

为什么大多数中国家长无法独立带娃?网友的分享犹如醍醐灌顶

另子维爱读史
2026-01-31 20:12:55
最惨首相诞生?高市早苗支持率雪崩,17天豪赌变全民打脸现场!

最惨首相诞生?高市早苗支持率雪崩,17天豪赌变全民打脸现场!

孤单是寂寞的毒
2026-02-01 12:47:43
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

林雁飞
2026-01-29 16:31:48
山东省纪委监委最新通报!

山东省纪委监委最新通报!

齐河大视野广告
2026-02-01 10:49:23
马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

马斯克拉响警报:旧世界只剩5年,中国手握的唯一王牌,不是芯片

郭蛹包工头
2026-01-30 11:33:20
2026-02-01 13:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14455文章数 66556关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

头条要闻

媒体:宝可梦十年间三次踩线 可不是简单的"工作失误"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

本地
健康
时尚
艺术
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

上年纪的女人买“上衣”:避开3个坑,这样选时髦又显气质

艺术要闻

明代隐藏的“草书高手”,他的字无人能模仿

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版