网易首页 > 网易号 > 正文 申请入驻

IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

最近,自动驾驶领域迎来了两位“新玩家”:端到端(End-to-End, E2E)驾驶模型和视频生成模型。E2E模型试图用一个“大模型”直接从传感器输入预测驾驶操作,大大简化了传统复杂的模块化系统;而视频生成模型则为我们描绘了一个美好的前景——在虚拟世界里无限“免费”地测试自动驾驶。

但问题也随之而来:AI生成的视频真的足够“真实”,能骗过自动驾驶系统,并用来做严肃的评估吗?我们又该如何深入了解E2E驾驶模型的“脾气”,修复它的短板,让它在没见过的新场景(比如突然的暴雨天)里也能从容应对?

为了回答这些问题,来自约翰霍普金斯大学、Waymo和谷歌DeepMind的研究者们联手,在即将于IROS 2025会议上发表的论文中,提出了一个名为 Drive&Gen 的新框架。这个名字很直白,就是将 驾驶(Drive)生成(Gen) 结合起来,旨在连接E2E驾驶模型和生成式世界模型,共同评估和提升彼此。

论文 : Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models

  • 作者 : Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang

  • 机构 : 约翰霍普金斯大学、Waymo、谷歌DeepMind

  • 论文地址 : https://arxiv.org/abs/2510.06209

  • 背景:当E2E驾驶遇上生成式AI

    传统的自动驾驶系统像一个部门林立的大公司,感知、预测、规划等模块各司其职,虽然稳定,但流程繁琐,一个环节出错就可能影响全局。而E2E模型就像一个全能的创业团队,直接从摄像头画面等原始输入,一步到位输出驾驶决策,简洁高效,潜力巨大。

    与此同时,视频生成模型的进步让我们看到了构建“数字孪生”世界的希望。如果能随心所欲地生成各种天气、光照、交通状况的驾驶视频,无疑将大大降低路测成本和风险,加速自动驾驶的迭代。

    然而,理想很丰满,现实却很骨感。一方面,我们很难判断生成的视频在“驾驶模型”眼中是否真实。人眼看着没问题,可能在模型看来却漏洞百出。另一方面,E2E模型像个“黑箱”,我们虽然知道它很强,但不知道它到底学到了什么,有什么偏见,以及在面对训练数据里很少见的场景(即“分布外”场景)时,它能否做出正确决策。

    Drive&Gen框架正是为了解决这一矛盾而生。它巧妙地将两者结合:用E2E规划器作为“考官”,去评估生成视频的真实性;反过来,再利用生成模型的可控性,创造出各种“极限挑战”场景,去诊断和提升E2E规划器的能力。

    Drive&Gen:如何让虚拟照进现实?

    Drive&Gen的核心思想是“协同评估”。它包含一个可控的视频生成模型和一个E2E驾驶规划器。

    可控的视频生成

    研究者们扩展了一个名为W.A.L.T的视频扩散模型,使其能够接受多种条件的控制,生成高度定制化的驾驶视频。

    这个模型的输入控制信号非常丰富,包括:

    • 场景布局 : 道路地图、车辆的位置和大小(即边界框)、自车姿态。

    • 运行条件 : 一天中的具体时间(通过更精确的太阳角度来控制光照)、天气(如下雨或晴天)。

    通过这些控制,模型不仅能复现和真实视频几乎一样的场景,还能“凭空”创造出真实世界中不存在的场景,比如将一个晴朗的白天场景无缝切换到大雨滂沱的午夜。

    如何量化生成视频的“真实性”?传统的视频质量指标如FVD(Fréchet Video Distance)并不完全适用,因为它更关注像素层面的分布差异,而无法衡量视频是否符合驾驶逻辑。

    为此,论文提出了一个全新的评估指标——行为置换检验(Behavioral Permutation Test, BPT)。这个方法非常巧妙,它的核心思想是:如果一个生成的视频足够真实,那么E2E驾驶模型在看到这个生成视频和它对应的真实视频后,应该做出基本相同的驾驶决策。

    具体来说,BPT会比较规划器在真实视频和生成视频上预测出的轨迹集合。如果两个轨迹集合的差异很小,小到像是在一个集合内部随机抽样产生的波动,那么BPT就判定生成视频“骗”过了规划器,是足够真实的。

    实验证明,BPT比FVD和ADE(平均位移误差)等传统指标更能捕捉到影响驾驶决策的关键差异。例如,当移除场景中的车辆(边界框)信息时,生成的视频内容会大变,此时BPT和ADE指标都会显著恶化,而FVD指标却变化不大,说明FVD没能抓住重点。

    有了可靠的评估方法和可控的生成模型,研究者们进行了一系列实验,证明了Drive&Gen框架的价值。

    评估生成视频质量

    他们验证了生成视频的质量。在与真实视频相同的条件下,模型生成的视频能够让规划器产生非常相似的轨迹预测。BPT的“失败拒绝率”达到了 69.62%(理论上限为95%),这说明在大多数情况下,规划器无法区分真实视频和生成视频。

    诊断并提升E2E规划器

    更重要的价值在于,Drive&Gen可以用来诊断和提升E2E规划器的泛化能力。研究者们利用生成模型,创造了大量真实数据中稀缺的“分布外”场景,如雨天和夜晚。

    他们将这些合成数据与少量真实数据混合,用来微调E2E规划器。结果令人振奋:

    • 整体性能提升 : 加入合成数据后,规划器在真实世界验证集上的5秒平均位移误差(ADE@5s)从0.7548降低到了 0.7333

    • 雨天场景 : 在雨天这个典型的分布外场景中,性能提升尤为明显,ADE@5s从0.8536降低到 0.8382

    • 夜间场景 : 在夜间场景下,性能同样得到改善,ADE@5s从0.7372降低到 0.7101

    定性结果也同样说明了问题。如下图所示,原始模型在绿灯前会犹豫不决地停车,或者在绕过停靠车辆时动作迟缓;而经过合成数据微调后,模型能做出更果断、更安全的驾驶决策。

    这些实验有力地证明,高质量、可控的合成数据是一种极具成本效益的方案,能够有效弥补真实世界数据的不足,帮助自动驾驶模型拓展其运行设计域(Operational Design Domains, ODD)。

    CV君觉得,这项工作最核心的贡献在于,它不仅仅是展示了一个更酷的视频生成模型,而是为“生成式AI如何赋能自动驾驶研发”这一核心问题,提供了一套系统性的评估和优化方法论。它让我们离那个“在元宇宙里训练和测试自动驾驶”的未来又近了一步。

    大家对这种用生成数据来“考验”和“训练”自动驾驶的方法怎么看?欢迎在评论区留下你的看法!

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    戴着妈妈的项链去面试,被董事长看到,董事长震惊问:你妈妈是谁

    戴着妈妈的项链去面试,被董事长看到,董事长震惊问:你妈妈是谁

    千秋文化
    2026-04-18 19:08:36
    世锦赛:丁俊晖横扫吉尔伯特终结两连败,中国一哥创造历史进16强

    世锦赛:丁俊晖横扫吉尔伯特终结两连败,中国一哥创造历史进16强

    世界体坛观察家
    2026-04-20 19:42:44
    中国历史第5人!杨瀚森季后赛首秀52秒0分 工作室:在场即是成长

    中国历史第5人!杨瀚森季后赛首秀52秒0分 工作室:在场即是成长

    醉卧浮生
    2026-04-20 11:45:27
    60岁武大中南医院王行环被抓!女医生曝其恶心勾当,简直太愤怒

    60岁武大中南医院王行环被抓!女医生曝其恶心勾当,简直太愤怒

    奇思妙想草叶君
    2026-04-20 15:07:28
    这个国家快被中国“买”下!美女遍地,10个移民中就有9个中国人

    这个国家快被中国“买”下!美女遍地,10个移民中就有9个中国人

    凡知
    2026-04-20 15:39:02
    记者:皇马没有联系穆里尼奥,也不会寻找少帅

    记者:皇马没有联系穆里尼奥,也不会寻找少帅

    懂球帝
    2026-04-20 16:10:39
    邓亚萍和温瑞博的深层关系,温瑞博会以双重身份参与伦敦世乒赛

    邓亚萍和温瑞博的深层关系,温瑞博会以双重身份参与伦敦世乒赛

    小皷拍客在北漂
    2026-04-20 08:01:11
    什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

    什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

    抽象派大师
    2026-04-20 01:27:38
    上海市委书记同快递小哥、外卖骑手深入交流,表达了什么?

    上海市委书记同快递小哥、外卖骑手深入交流,表达了什么?

    上观新闻
    2026-04-20 16:06:17
    城市更新大潮来了!中央定调:20年房龄老房子,2026年起或又吃香

    城市更新大潮来了!中央定调:20年房龄老房子,2026年起或又吃香

    混沌录
    2026-04-20 16:38:07
    国乒三喜临门!莎莎断层领跑、小胖满血归来、14岁天才绝境封王!

    国乒三喜临门!莎莎断层领跑、小胖满血归来、14岁天才绝境封王!

    衔春信
    2026-04-20 19:09:02
    宿茂臻:于指导把天津队带得不错;王大雷比目鱼肌有些拉伤

    宿茂臻:于指导把天津队带得不错;王大雷比目鱼肌有些拉伤

    懂球帝
    2026-04-20 18:27:08
    补授的四位开国将军

    补授的四位开国将军

    祁州校尉
    2026-04-16 11:00:14
    小S首谈大S赴日旅行原因,至今自责靠酒精麻痹,酒后在家大哭大闹

    小S首谈大S赴日旅行原因,至今自责靠酒精麻痹,酒后在家大哭大闹

    开开森森
    2026-04-20 20:03:09
    人民日报:已投放500万辆!新国标电动车为何突然反转,有3大原因

    人民日报:已投放500万辆!新国标电动车为何突然反转,有3大原因

    电动车的那些事儿
    2026-04-18 07:37:58
    武大杨景媛被投诉辞职后续:已考公进复试!笔试成绩还挺高

    武大杨景媛被投诉辞职后续:已考公进复试!笔试成绩还挺高

    林大师热点
    2026-04-20 20:18:56
    浙江一男子收到陌生账号转账8万余元,三天后奢侈品牌CELINE商家找来:员工误将其收款码给客户

    浙江一男子收到陌生账号转账8万余元,三天后奢侈品牌CELINE商家找来:员工误将其收款码给客户

    台州交通广播
    2026-04-20 14:13:51
    《八千里路云和月》大结局:田家泰被暗杀!七哥真实身份曝光意外

    《八千里路云和月》大结局:田家泰被暗杀!七哥真实身份曝光意外

    肆季娱乐
    2026-04-20 20:29:42
    土耳其美女来中国旅游,回国后大哭,坦言土耳其与中国差距太大了

    土耳其美女来中国旅游,回国后大哭,坦言土耳其与中国差距太大了

    千秋历史
    2026-04-08 20:11:37
    疯狂!种马男星沃伦睡过12775名女友,性欲成瘾缠着女友不让下床

    疯狂!种马男星沃伦睡过12775名女友,性欲成瘾缠着女友不让下床

    钱小刀娱乐
    2026-04-14 10:39:13
    2026-04-20 21:20:51
    算法与数学之美 incentive-icons
    算法与数学之美
    分享知识,交流思想
    5482文章数 64624关注度
    往期回顾 全部

    科技要闻

    华为Pura90逆周期定价,4699元起,未涨价

    头条要闻

    19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

    头条要闻

    19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

    体育要闻

    阿森纳已拼尽全力,但你早干嘛去了...

    娱乐要闻

    鹿晗生日上热搜,被关晓彤撕下体面

    财经要闻

    利润暴跌7成,字节到底在做什么

    汽车要闻

    把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

    态度原创

    游戏
    房产
    旅游
    公开课
    军事航空

    腾讯狂奔2026:68款储备游戏,至少24款“面世”

    房产要闻

    大规模商改住!海口西海岸,这波项目要赢麻了!

    旅游要闻

    “五一”假期,成都文旅推出15大主题、150个烟火场景

    公开课

    李玫瑾:为什么性格比能力更重要?

    军事要闻

    特朗普:美舰向伊朗货船开火炸出个洞

    无障碍浏览 进入关怀版