网易首页 > 网易号 > 正文 申请入驻

端到端精度暴涨19.61%!华科&小米汽车打造自动驾驶框架ORION

0
分享至

近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

除此之外,现有的方法常常通过叠加多帧的图像信息完成时序建模,这会受到 VLM 的 Token 长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION,这是一个通过视觉语言指令指导轨迹生成的端到端自动驾驶框架。ORION 巧妙地引入了 QT-Former 用于聚合长期历史上下文信息,VLM 用于驾驶场景理解和推理,并启发式地利用生成模型对齐了推理空间与动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

图 1:不同的端到端自动驾驶范式的对比

ORION 在具有挑战性的闭环评测 Bench2Drive 数据集上实现了优秀的性能,驾驶得分为 77.74 分,成功率为 54.62%,相比之前的SOTA方法分别高出 14.28分和 19.61% 的成功率。

此外,ORION 的代码、模型和数据集将很快开源。

论文标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

论文地址:https://arxiv.org/abs/2503.19755

项目地址:https://xiaomi-mlab.github.io/Orion/

代码地址:https://github.com/xiaomi-mlab/Orion

单位:华中科技大学、小米汽车

我们来看一下ORION 框架下的闭环驾驶能力:

ORION 检测到骑自行车的人并向左变道避免了碰撞。

ORION 检测到右前方的车辆,先执行减速,然后再改变车道。

ORION 识别停车标志并停车,等待一段时间,然后重新启动成功通过十字路口。

主要贡献

本文提出了一个简单且有效的端到端自动驾驶框架 ORION,主要包含如下几方面的贡献:

VLM + 生成模型:利用生成模型弥补了 VLM 的推理空间与轨迹的动作空间之间的差距,从而使 ORION 能够理解场景并指导轨迹生成。

QT-Former:引入 QT-Former 聚合历史场景信息,使模型能够将历史信息整合到当前推理和动作空间中。

可扩展性:ORION 可以与多种生成模型兼容,实验证明了所提出框架的灵活性。

性能优异:在仿真数据集 Bench2drive 的闭环测试上取得 SOTA 的性能。

研究动机

经典的 E2E 自动驾驶方法通过多任务学习整合感知、预测和规划模块,在开环评估中表现出优秀的能力。然而,在需要自主决策和动态环境交互的闭环基准测试中,由于缺少因果推理能力,这些方法往往表现不佳。

近年来,VLM 凭借其强大的理解和推理能力,为 E2E 自动驾驶带来了新的解决思路。但直接使用 VLM 进行端到端自动驾驶也面临诸多挑战,例如,VLM 的能力主要集中在语义推理空间,而 E2E 方法的输出是动作空间中的数值规划结果。

一些方法尝试直接用 VLM 输出基于文本的规划结果,但 VLM 在处理数学计算和数值推理方面存在不足,且其自回归机制导致只能推断单一结果,无法适应复杂场景。还有些方法通过设计接口,利用 VLM 辅助经典 E2E 方法,但这种方式解耦了 VLM 的推理空间和输出轨迹的动作空间,阻碍了两者的协同优化。

除此之外,长期记忆对于端到端自动驾驶是必要的,因为历史信息通常会影响当前场景中的轨迹规划。现有使用 VLM 进行端到端自动驾驶的方法通常通过拼接多帧图像来进行时间建模。但这会受到 VLM 的输入 Token 的长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION。ORION 的结构包括 QT-Former、VLM 和生成模型。 ORION 通过 QT-Former 聚合长时间上下文信息,并巧妙地结合了生成模型和 VLM,有效对齐了推理空间和动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

方法概览

具体来说,ORION 通过以下三大核心模块,显著提升了自动驾驶系统的决策能力:

1. QT-Former:长时序上下文聚合

ORION 引入了 QT-Former,通过引入历史查询和记忆库,有效聚合长时视觉上下文信息,增强了模型对历史场景的理解能力。相比现有方法,QT-Former 不仅减少了计算开销,还能更好地捕捉静态交通元素和动态物体的运动状态。

2. VLM:场景推理与指令生成

ORION 利用 VLM 的强大推理能力,结合用户指令、长时和当前的视觉信息,能够对驾驶场景进行多维度分析,包括场景描述、关键物体行为分析、历史信息回顾和动作推理,并且利用自回归特性聚合整个场景信息以生成规划 token,用来指导生成模型进行轨迹预测。

3. 生成模型:推理与动作空间对齐

ORION 通过生成模型,将 VLM 的推理空间与预测轨迹的动作空间对齐。生成模型使用变分自编码器(VAE)或扩散模型,以规划 token 作为条件去控制多模态轨迹的生成,确保模型在复杂场景中做出合理的驾驶决策。

图 2:ORION 整体架构图

实验结果

本文在 Bench2Drive 数据集上进行闭环评估测试,如表 1 所示,ORION 取得了卓越的性能,其驾驶得分(DS)和成功率(SR)分别达到了 77.74 和 54.62%,相比现在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展现了 ORION 强大的驾驶能力。

表 1:Bench2Drive 上闭环评估和开环评估的性能对比

此外,如表 2 所示,ORION 还在 Bench2Drive 的多能力评估中表现优异,特别是在超车(71.11%)、紧急刹车(78.33%)和交通标志识别(69.15%)等场景中,ORION 的表现远超其他方法。这得益于 ORION 通过 VLM 对驾驶场景的理解,能够更好地捕捉驾驶场景之间的因果关系。

表 2:Bench2Drive 上多能力评估测试对比

可解释性结果

下图展示了 ORION 在 Bench2Drive 的闭环评估场景中的可解释性结果。ORION 可以理解场景中正确的因果关系,并做出准确的驾驶决策,然后根据推理信息指导规划轨迹预测。

图 3:可解释性结果图

总结

ORION 框架为端到端自动驾驶提供了一种全新的解决方案。ORION 通过生成模型实现语义与动作空间对齐,引入 QT-Former 模块聚合长时序场景上下文信息,并联合优化视觉理解与路径规划任务,在闭环仿真中取得了卓越的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女孩昏迷3周,脑子里却过了7年!她在梦中养大俩娃,醒来崩溃了:娃全没了...

女孩昏迷3周,脑子里却过了7年!她在梦中养大俩娃,醒来崩溃了:娃全没了...

英国那些事儿
2026-03-25 23:12:57
施海荣若下课,谁来执掌江苏女排?张常宁,沈富麟还是外教

施海荣若下课,谁来执掌江苏女排?张常宁,沈富麟还是外教

金毛爱女排
2026-03-27 00:00:04
陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

陈慧琳”太丰满了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
光通信+CPO,逻辑最硬的11家公司

光通信+CPO,逻辑最硬的11家公司

龙头主升趋势
2026-03-25 17:51:33
75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

树娃
2026-03-24 12:28:41
伊朗已通过中间人正式回应美方“15点计划”

伊朗已通过中间人正式回应美方“15点计划”

环球网资讯
2026-03-26 23:45:59
特变电工:阿玛利亚水电站项目各项基础设施建设工作正有序开展

特变电工:阿玛利亚水电站项目各项基础设施建设工作正有序开展

每日经济新闻
2026-03-26 18:09:04
别让你的无知,毁了她的高潮!男人必须掌握的技巧课

别让你的无知,毁了她的高潮!男人必须掌握的技巧课

精彩分享快乐
2026-03-06 14:01:39
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

快看张同学
2026-03-26 14:46:05
破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

川渝视觉
2026-03-23 19:26:44
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
医生再三告知:老人同房时,需要注意6件事,不然可能麻烦就大了

医生再三告知:老人同房时,需要注意6件事,不然可能麻烦就大了

路医生健康科普
2026-03-21 15:43:25
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
23万大厂员工被AI替代,为何一半公司又把人请回?

23万大厂员工被AI替代,为何一半公司又把人请回?

钛媒体APP
2026-03-26 18:26:16
42岁女星宣布离婚,结束14年婚姻独自照顾三孩

42岁女星宣布离婚,结束14年婚姻独自照顾三孩

风月得自难寻
2026-03-27 02:15:04
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

眼光很亮
2026-03-08 01:43:40
离那些张口闭口不离宏大叙事的人远点

离那些张口闭口不离宏大叙事的人远点

廖保平
2026-03-20 10:14:56
60年难遇的清明节,今年碰上了,牢记上坟4人不去、3人必去!

60年难遇的清明节,今年碰上了,牢记上坟4人不去、3人必去!

户外阿崭
2026-03-26 05:54:27
2026-03-27 02:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
旅游
房产
公开课

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版