[首发于智驾最前沿微信公众号]随着自动驾驶技术的发展,该技术已经可以在很多高速路况和部分城市路况展现很好的组合辅助驾驶能力。即便如此,自动驾驶技术依旧未能大范围使用,之所以会这样,因为决定自动驾驶是否安全的,不是那99%的正常情况,而是那1%的极少数会发送,但危险性极高的瞬间。
想想一下,如果在高速上驾驶车辆时,忽然有一头野猪忽然从路侧闯入或者前方车辆出现了物体掉落的情况,这些场景虽然发生的可能性很小,但一旦发生,自动驾驶系统就必须做出安全且合理的决策。
就在最近,Waymo把这类“长尾”片段挑出来,整理成WOD-E2E(Waymo Open Dataset for End-to-End Driving),目的就是给端到端驾驶研究提供一个专门的、高真实度的测试工具。
数据集链接:
https://github.com/waymo-research/waymo-open-dataset
WOD-E2E的核心价值在于稀缺性和针对性。它不是简单将常规片段凑在一起再发布,而是从海量行驶数据里精挑细选出那些罕见但具有代表性的危险瞬间,从而方便研究者可以把注意力放在系统最脆弱的环节上。
与其依赖常规数据评估模型,不如用那些能真正暴露问题的关键片段来检验其安全性。在驾驶的临界时刻,模型能否做出如合理刹车、及时避让或稳定维持车道等安全决策,才是检验其安全底线的核心测试。将这类数据公开,我们就能在同一套更贴近现实的标准下,比较不同方法的优劣、对齐训练目标,从而推动端到端系统从“能够运行”向“能够安全落地”迈进。
WOD-E2E包含什么?
WOD-E2E数据集由4021个20秒长的真实驾驶片段组成,总时长约十二小时,聚焦在需要即时决策的长尾场景的关键瞬间。每个片段配有八个环绕摄像头的图像(前、前左、前右、侧左、侧右、后、后左、后右),覆盖360度视野,视频采样率是10Hz,同时包含自车的历史轨迹、速度和加速度,以及高层路由指令(如直行、左转、右转)。
训练/验证集里还公开了未来五秒的真实轨迹,便于监督学习和评估。Waymo把这些片段按场景类型做了划分,涵盖施工区域、复杂路口、行人或骑行者的异常交互、多车道竞争、路面异物、特殊车辆交互等多类长尾情形,每类都对应不同的决策挑战。
WOD-E2E中提出了与人类偏好对齐的Rater Feedback Score(RFS)。传统的轨迹误差指标往往只看模型预测与日志轨迹的距离,但在紧急避险情况下,偏离日志轨迹反而可能更安全。
RFS的思路是先让模型生成多条候选轨迹,再由人工评估员为几条代表轨迹在安全性、合法性、反应时机、刹车必要性、效率等维度打分,形成参考轨迹集合。模型的预测如果落在某条参考轨迹的“信任区域”内,就获得对应分值;若偏离则按指数衰减扣分,并设有最低保底分。
这种评价允许存在多种合理动作,强调与人类判断的一致性,比单纯的距离误差更能反映安全性和可接受性。
![]()
图片源自:参考报告
其实现阶段端到端研究有几类主流范式,在长尾场景上处理各有优势。把多传感器信息投影到鸟瞰图(BEV)后直接在BEV上完成感知与规划的方法,在空间一致性和全局决策上表现较好,适合复杂路口和多车道规划。
因为LLM自带世界知识和推理能力,把多模态输入映射到语言或语义空间,利用大语言模型(MLLM)进行推理的做法,更擅长处理语义复杂或前所未见的情形。
基于生成式或扩散模型的轨迹器则擅长表达多样性,能给出多个可行解,利于后端做风险比较与选择。
如果在WOD-E2E上做有针对性的微调、增加完整环绕输入或在推理时进行多样本采样,就会明显提升RFS得分;此外,把RFS作为强化学习的奖励也能推动模型朝更符合人类偏好的方向优化。
WOD-E2E对自动驾驶的影响
WOD-E2E为自动驾驶研究提供了一个更贴近现实痛点的基准,可以对长尾问题生成更有针对性的算法。它会促使大家不单纯追求与日志轨迹的贴合,而是在训练目标、损失设计和不确定性表达上做出调整。
对设计团队而言,这个数据集是补强产品安全性的工具。WOD-E2E可以作为一个“加固集”,可以先用大规模常规数据训练模型的基础能力,再用WOD-E2E做微调和压力测试,评估时并行使用传统误差指标和RFS这类人类对齐指标,这样不仅可以保证日常表现,也能提升关键时刻的安全决策。
当然,在把WOD-E2E融入训练/验证流水线时,一定不能把它当成唯一数据源;合理的数据增强和情境合成可以扩大小样本的效用,但必须保持动力学和视觉上的真实性。
若希望提升语义推理能力,可以尝试把视觉与状态信息转成结构化语义或指令,再交给MLLM做高层推理;若更看重实时性和空间一致性,BEV-based的端到端管线仍是稳妥选择;若目标是给出多种可行解以便后端做风险比选,生成式/扩散模型更值得尝试。把RFS纳入训练目标(例如作为RL奖励或辅助监督)会比单纯优化ADE更能提升在长尾场景下的表现。
![]()
图片源自:参考报告
最后的话
WOD-E2E的意义不只是那几小时的数据,而是把“长尾问题”和“人类偏好对齐”的评测思路带进了端到端驾驶的主流议程。它能让研究成果在更真实、更危险的场景下经受检验,也能帮助工程团队把实验室里的模型在部署前做更彻底的加固。把这类问题解决好,自动驾驶才有希望真正从能跑的原型,进化为能在复杂、不确定的真实道路上持续、安全运行的产品。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.