网易首页 > 网易号 > 正文 申请入驻

端到端精度暴涨19.61%!华科&小米汽车打造自动驾驶框架ORION

0
分享至

近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

除此之外,现有的方法常常通过叠加多帧的图像信息完成时序建模,这会受到 VLM 的 Token 长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION,这是一个通过视觉语言指令指导轨迹生成的端到端自动驾驶框架。ORION 巧妙地引入了 QT-Former 用于聚合长期历史上下文信息,VLM 用于驾驶场景理解和推理,并启发式地利用生成模型对齐了推理空间与动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

图 1:不同的端到端自动驾驶范式的对比

ORION 在具有挑战性的闭环评测 Bench2Drive 数据集上实现了优秀的性能,驾驶得分为 77.74 分,成功率为 54.62%,相比之前的SOTA方法分别高出 14.28分和 19.61% 的成功率。

此外,ORION 的代码、模型和数据集将很快开源。

论文标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

论文地址:https://arxiv.org/abs/2503.19755

项目地址:https://xiaomi-mlab.github.io/Orion/

代码地址:https://github.com/xiaomi-mlab/Orion

单位:华中科技大学、小米汽车

我们来看一下ORION 框架下的闭环驾驶能力:

ORION 检测到骑自行车的人并向左变道避免了碰撞。

ORION 检测到右前方的车辆,先执行减速,然后再改变车道。

ORION 识别停车标志并停车,等待一段时间,然后重新启动成功通过十字路口。

主要贡献

本文提出了一个简单且有效的端到端自动驾驶框架 ORION,主要包含如下几方面的贡献:

VLM + 生成模型:利用生成模型弥补了 VLM 的推理空间与轨迹的动作空间之间的差距,从而使 ORION 能够理解场景并指导轨迹生成。

QT-Former:引入 QT-Former 聚合历史场景信息,使模型能够将历史信息整合到当前推理和动作空间中。

可扩展性:ORION 可以与多种生成模型兼容,实验证明了所提出框架的灵活性。

性能优异:在仿真数据集 Bench2drive 的闭环测试上取得 SOTA 的性能。

研究动机

经典的 E2E 自动驾驶方法通过多任务学习整合感知、预测和规划模块,在开环评估中表现出优秀的能力。然而,在需要自主决策和动态环境交互的闭环基准测试中,由于缺少因果推理能力,这些方法往往表现不佳。

近年来,VLM 凭借其强大的理解和推理能力,为 E2E 自动驾驶带来了新的解决思路。但直接使用 VLM 进行端到端自动驾驶也面临诸多挑战,例如,VLM 的能力主要集中在语义推理空间,而 E2E 方法的输出是动作空间中的数值规划结果。

一些方法尝试直接用 VLM 输出基于文本的规划结果,但 VLM 在处理数学计算和数值推理方面存在不足,且其自回归机制导致只能推断单一结果,无法适应复杂场景。还有些方法通过设计接口,利用 VLM 辅助经典 E2E 方法,但这种方式解耦了 VLM 的推理空间和输出轨迹的动作空间,阻碍了两者的协同优化。

除此之外,长期记忆对于端到端自动驾驶是必要的,因为历史信息通常会影响当前场景中的轨迹规划。现有使用 VLM 进行端到端自动驾驶的方法通常通过拼接多帧图像来进行时间建模。但这会受到 VLM 的输入 Token 的长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION。ORION 的结构包括 QT-Former、VLM 和生成模型。 ORION 通过 QT-Former 聚合长时间上下文信息,并巧妙地结合了生成模型和 VLM,有效对齐了推理空间和动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

方法概览

具体来说,ORION 通过以下三大核心模块,显著提升了自动驾驶系统的决策能力:

1. QT-Former:长时序上下文聚合

ORION 引入了 QT-Former,通过引入历史查询和记忆库,有效聚合长时视觉上下文信息,增强了模型对历史场景的理解能力。相比现有方法,QT-Former 不仅减少了计算开销,还能更好地捕捉静态交通元素和动态物体的运动状态。

2. VLM:场景推理与指令生成

ORION 利用 VLM 的强大推理能力,结合用户指令、长时和当前的视觉信息,能够对驾驶场景进行多维度分析,包括场景描述、关键物体行为分析、历史信息回顾和动作推理,并且利用自回归特性聚合整个场景信息以生成规划 token,用来指导生成模型进行轨迹预测。

3. 生成模型:推理与动作空间对齐

ORION 通过生成模型,将 VLM 的推理空间与预测轨迹的动作空间对齐。生成模型使用变分自编码器(VAE)或扩散模型,以规划 token 作为条件去控制多模态轨迹的生成,确保模型在复杂场景中做出合理的驾驶决策。

图 2:ORION 整体架构图

实验结果

本文在 Bench2Drive 数据集上进行闭环评估测试,如表 1 所示,ORION 取得了卓越的性能,其驾驶得分(DS)和成功率(SR)分别达到了 77.74 和 54.62%,相比现在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展现了 ORION 强大的驾驶能力。

表 1:Bench2Drive 上闭环评估和开环评估的性能对比

此外,如表 2 所示,ORION 还在 Bench2Drive 的多能力评估中表现优异,特别是在超车(71.11%)、紧急刹车(78.33%)和交通标志识别(69.15%)等场景中,ORION 的表现远超其他方法。这得益于 ORION 通过 VLM 对驾驶场景的理解,能够更好地捕捉驾驶场景之间的因果关系。

表 2:Bench2Drive 上多能力评估测试对比

可解释性结果

下图展示了 ORION 在 Bench2Drive 的闭环评估场景中的可解释性结果。ORION 可以理解场景中正确的因果关系,并做出准确的驾驶决策,然后根据推理信息指导规划轨迹预测。

图 3:可解释性结果图

总结

ORION 框架为端到端自动驾驶提供了一种全新的解决方案。ORION 通过生成模型实现语义与动作空间对齐,引入 QT-Former 模块聚合长时序场景上下文信息,并联合优化视觉理解与路径规划任务,在闭环仿真中取得了卓越的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么中国人喜欢晒被子,而欧美人却从来不晒?留学生说出大实话

为什么中国人喜欢晒被子,而欧美人却从来不晒?留学生说出大实话

梦史
2026-06-16 23:33:28
脸都打肿!梅西罚丢点球被喊退役 转头双响封神 18 球登顶世界杯

脸都打肿!梅西罚丢点球被喊退役 转头双响封神 18 球登顶世界杯

澜归序
2026-06-23 04:33:17
65岁的陈冲回上海住,不是养老,不是退圈,只是把家搬回了老地方

65岁的陈冲回上海住,不是养老,不是退圈,只是把家搬回了老地方

一盅情怀
2026-06-18 12:58:14
法国足协主席:从未提及将比赛推迟到明天,我们浪费了很多时间

法国足协主席:从未提及将比赛推迟到明天,我们浪费了很多时间

懂球帝
2026-06-23 08:14:24
无伤亡!北京著名商业街大栅栏发生火灾!原因正在调查中

无伤亡!北京著名商业街大栅栏发生火灾!原因正在调查中

声情专递
2026-06-22 20:52:21
洛克菲勒家训:人穷的时候,搞人脉最傻,卖苦力最险。真正能翻身的路,是死磕这2个“花钱杠杆”

洛克菲勒家训:人穷的时候,搞人脉最傻,卖苦力最险。真正能翻身的路,是死磕这2个“花钱杠杆”

心理观察局
2026-06-20 07:17:30
世界杯:葡萄牙VS乌兹别克斯坦

世界杯:葡萄牙VS乌兹别克斯坦

蕫老厮战术板
2026-06-23 10:43:14
大反转!女子哭诉剖腹产19天,丈夫跑路,亲子鉴定成了响亮的耳光

大反转!女子哭诉剖腹产19天,丈夫跑路,亲子鉴定成了响亮的耳光

火山詩话
2026-06-10 10:36:03
郑丽文对大陆海警船驶入太平岛海域发表评论。

郑丽文对大陆海警船驶入太平岛海域发表评论。

果妈聊娱乐
2026-06-21 08:48:22
增程式市场崩盘,理想汽车带头‘跑路’引热议

增程式市场崩盘,理想汽车带头‘跑路’引热议

沙雕小琳琳
2026-06-23 03:44:34
25岁小伙在KTV认识了35岁漂亮阿姨,两人同居后,小伙傻眼了

25岁小伙在KTV认识了35岁漂亮阿姨,两人同居后,小伙傻眼了

千秋文化
2026-06-22 19:50:49
强渡大渡河十八勇士之一做了汉奸?说说民族败类王凤鸣的叛逃经过

强渡大渡河十八勇士之一做了汉奸?说说民族败类王凤鸣的叛逃经过

历史点行
2026-06-23 03:46:05
日本专家:你以为是原子弹使我们投降的吗?不!是苏联的一个公告

日本专家:你以为是原子弹使我们投降的吗?不!是苏联的一个公告

探史
2026-06-19 11:11:17
护士逆袭坐拥,67,亿家产,一生精于算计,唯独败给女婿窦骁

护士逆袭坐拥,67,亿家产,一生精于算计,唯独败给女婿窦骁

揭秘世间万象
2026-06-23 02:04:43
长征时假如刘文辉炸掉泸定桥,红军或许全军覆没,他为何不动手?

长征时假如刘文辉炸掉泸定桥,红军或许全军覆没,他为何不动手?

狂热历史
2026-06-23 08:10:15
杨颖案终于判了,时隔1年结局大快人心,黄晓明的评价应验了

杨颖案终于判了,时隔1年结局大快人心,黄晓明的评价应验了

老黯谈娱
2026-06-23 09:50:43
女子去世房贷逾期,银行起诉其子“替母还贷”,法院判了:对银行主张不予支持,儿子:已书面放弃遗产,这钱我不还!

女子去世房贷逾期,银行起诉其子“替母还贷”,法院判了:对银行主张不予支持,儿子:已书面放弃遗产,这钱我不还!

每日经济新闻
2026-06-22 23:42:50
宝妈考编第一被作废后续:官方回应戳破谎言,网友一致表示不同情

宝妈考编第一被作废后续:官方回应戳破谎言,网友一致表示不同情

星娱叨叨社
2026-06-22 18:34:58
“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

妍妍教育日记
2026-05-29 07:55:13
韩股半导体股集体下跌,韩美半导体跌近6%,三星电子跌超3%,日股翻绿,软银集团重挫6%

韩股半导体股集体下跌,韩美半导体跌近6%,三星电子跌超3%,日股翻绿,软银集团重挫6%

21世纪经济报道
2026-06-23 08:45:59
2026-06-23 13:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13331文章数 142677关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

公安局原副局长出狱后公开举报信访局长 最新进展来了

头条要闻

公安局原副局长出狱后公开举报信访局长 最新进展来了

体育要闻

哈兰德国家队52场59球 世界杯狂刷6大纪录

娱乐要闻

喜剧大师曝光肖战拍戏状态!

财经要闻

智谱万亿市值,国产Anthropic真来了?

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

艺术
时尚
数码
教育
游戏

艺术要闻

田卫平 2026静物油画选

今年夏天一定要拥有的6条绝美裙子,太好看了!

数码要闻

三星发布UFS 5.0闪存 速度翻倍加载速度更快

教育要闻

今日起,高考出分!复旦、南大、西交、东南、同济、南开、山大等校,宣布扩招

《桌面伴侣》新DLC发布 虚拟偶像鼻祖智障爱登场

无障碍浏览 进入关怀版