网易首页 > 网易号 > 正文 申请入驻

港科大、理想、清华联手提出OmniScene:让自动驾驶学会“看图说话”,VQA性能飙升21.4%

0
分享至

不知道你开车时有没有想过,人类司机之所以“靠谱”,不仅仅是因为我们能看见路上的车和人,更是因为我们能在一瞬间“理解”整个场景的动态和意图。比如,看到路边有个小孩在追逐皮球,我们会下意识地减速,因为我们“脑补”出了他可能冲到马路上的风险。这种基于经验和常识的场景理解能力,正是当前自动驾驶系统所欠缺的。


目前主流的自动驾驶方案,更多依赖于基于深度的三维重建,像是给世界建了个几何模型,但离真正的“理解”还有距离。为了弥补这一鸿沟,来自香港科技大学、理想汽车和清华大学的研究者们,共同提出了一个极具启发性的类人框架——OmniScene

简单来说,OmniScene的目标就是教自动驾驶汽车学会“看图说话”,通过引入语言的语义信息,让它不仅能“看见”物理世界,更能“理解”其中的复杂关系和潜在风险,从而做出更像人类的决策。



  • 论文标题 : OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving

  • 作者 : Pei Liu, Hongliang Lu, Haichao Liu, Haipeng Liu, Xin Liu, Ruoyu Yao, Shengbo Eben Li, Jun Ma

  • 机构 : 香港科技大学;理想汽车;清华大学

  • 论文地址 : https://arxiv.org/abs/2509.19973

  • 项目地址 : https://github.com/ocean-luna/OmniScene

研究背景:从“看见”到“理解”的跨越

当前的端到端自动驾驶模型,通常在BEV(鸟瞰图)空间进行感知和规划。它们擅长构建周围环境的几何表示,但在语义理解上却显得力不从心。这就导致模型在面对一些需要“脑补”和“预判”的复杂场景时,表现得不如人类司机那样从容。

OmniScene正是要打破这个瓶颈,它认为,语言是人类高级认知和常识的载体。如果能让模型在训练时接触到描述驾驶场景的文本信息,就能引导它学习到更深层次的、类似人类的注意力机制和语义关联。

OmniScene的核心方法:三位一体的创新架构

OmniScene框架由三大核心模块构成,分别是视觉端到端模型、层次化融合模块,以及一个创新的师生OmniVLM架构。


师生OmniVLM架构:让模型拥有“语言导师”

这是整个框架的精髓。研究者设计了一个“老师-学生”(Teacher-Student)架构,让一个强大的“老师”模型来引导“学生”模型(即最终的驾驶模型)学习。

  • 老师OmniVLM : 这是一个强大的视觉语言模型(VLM)。它的任务是从nuScenes数据集中挖掘各种信息(如真值、驾驶信号、领域规则),然后自动生成描述当前驾驶场景的丰富文本。比如,“前方有行人穿行,本车需要减速避让”。这些文本就像是人类驾驶员的“内心独白”,充满了对场景的理解和判断。

  • 学生模型 : 在训练时,学生模型不仅要处理来自摄像头的视觉信息,还要努力让自己的内部特征与“老师”给出的文本描述在语义上对齐。通过知识蒸馏的方式,老师模型将这种宝贵的“场景理解能力”传授给了学生模型。这迫使学生模型去学习那些与人类注意力高度相关的语义特征,而不仅仅是几何特征。

层次化融合策略(HFS)

当引入了文本这种新的模态后,如何与原有的视觉特征有效融合就成了一个新问题。如果简单地相加,可能会导致信息不平衡。为此,OmniScene提出了层次化融合策略(Hierarchical Fusion Strategy, HFS)


该策略能够在不同的抽象层次上,动态地、自适应地调整来自几何(视觉)和语义(文本)信息的权重,确保两者能够互补,发挥出1+1>2的效果。

实验效果:全面刷新SOTA

OmniScene在nuScenes数据集上与超过10个SOTA模型进行了全方位的“硬碰硬”比较,涵盖了自动驾驶的几大核心任务:感知、预测和规划。

感知(检测与跟踪)


在3D物体检测和跟踪任务上,OmniScene的各项指标均取得了领先,证明了其强大的环境感知能力。

预测与规划


在对其他道路使用者的轨迹预测以及自身车辆的路径规划上,OmniScene同样表现出色,L2误差和碰撞率等关键指标都达到了新的SOTA水准。


上图展示了在交叉路口不同意图下的规划结果,OmniScene能够结合多视角感知、轨迹预测和文本化的驾驶员注意力,学习到不同的转弯模式。


在紧急避让等场景下,OmniScene的规划轨迹(中)也明显比之前的方法(左)更接近真值(右),表现出更强的避险能力。

视觉问答(VQA)

最令人惊喜的是,研究者还评估了模型的视觉问答能力,即让模型用自然语言回答关于驾驶场景的问题。这直接考验了模型的场景理解深度。

结果显示,OmniScene在VQA任务上的性能相较于之前的工作取得了高达21.40%的巨大提升,这充分证明了将语言信息融入模型所带来的深刻变革。


消融研究

大量的消融实验也验证了OmniScene中每一个精心设计的组件(如文本条件聚合、时空解耦交叉注意力等)都对最终的卓越性能至关重要。




总结与思考

OmniScene的探索极具价值。它不再满足于让自动驾驶系统成为一个只会“依样画葫芦”的几何学家,而是尝试通过引入语言这个强大的工具,赋予其“思考”和“理解”的能力,构建了一个更接近人类驾驶模式的“感知-理解-行动”闭环。

将大语言模型的语义理解能力与自动驾驶的端到端模型相结合,或许正是通往更安全、更智能的自动驾驶未来的关键钥匙之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
云南省委秘书长调整

云南省委秘书长调整

极目新闻
2025-11-08 08:29:58
广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……

都市快报橙柿互动
2025-11-07 12:19:20
北京警方:陈某造谣理想汽车充“劣质电”引发自燃,已被抓获

北京警方:陈某造谣理想汽车充“劣质电”引发自燃,已被抓获

FM93浙江交通之声
2025-11-07 14:26:39
美军机坠海后,中国渔民意外收获“大惊喜”,美出高价买回被拒绝

美军机坠海后,中国渔民意外收获“大惊喜”,美出高价买回被拒绝

小lu侃侃而谈
2025-11-07 20:43:42
31分+30分+30分!历史首人!这是他能拿4年2.85亿顶薪美金的原因

31分+30分+30分!历史首人!这是他能拿4年2.85亿顶薪美金的原因

篮球扫地僧
2025-11-08 12:08:05
男子在情人住处坠楼身亡后,妻子起诉对方返还8万余元,一审判赠与无效返还7万

男子在情人住处坠楼身亡后,妻子起诉对方返还8万余元,一审判赠与无效返还7万

极目新闻
2025-11-07 13:31:03
跌下神坛的贵族水果,从百元一斤跌到几块钱,人们反而不愿意买了

跌下神坛的贵族水果,从百元一斤跌到几块钱,人们反而不愿意买了

妙招酷
2025-10-29 00:22:47
美国43岁母亲在学校舞会上拐走女儿14岁男友,还和他生小孩

美国43岁母亲在学校舞会上拐走女儿14岁男友,还和他生小孩

潇湘晨报
2025-11-08 08:00:17
泰国王携王后访华,背后原因不简单

泰国王携王后访华,背后原因不简单

亚太观澜
2025-11-07 20:55:03
毛泽东和蒋介石书法对比:性格刚好相反、果然字如其人

毛泽东和蒋介石书法对比:性格刚好相反、果然字如其人

中国艺术家
2025-11-07 05:25:04
学医后才明白,增强骨密度最好的运动,不是散步游泳

学医后才明白,增强骨密度最好的运动,不是散步游泳

刘辉读书
2025-11-08 09:32:17
台风“海鸥”已致菲律宾204人死亡109人失踪

台风“海鸥”已致菲律宾204人死亡109人失踪

新京报
2025-11-08 09:43:10
年终奖同事八千我八百,我没吵也没闹。结果半个月后公司一单都没

年终奖同事八千我八百,我没吵也没闹。结果半个月后公司一单都没

自然风清杂谈说事
2025-11-07 14:56:50
几乎全是假货!利润高达2400%,为何消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,为何消费者还前赴后继争相购买?

以茶带书
2025-09-17 14:10:04
为什么瑞典没几个中国人待得住?在瑞典生活几个月,不疯也抑郁!

为什么瑞典没几个中国人待得住?在瑞典生活几个月,不疯也抑郁!

百态人间
2025-11-05 05:15:03
后羿射的不是太阳?科学家在月壤中,发现《山海经》的神秘线索!

后羿射的不是太阳?科学家在月壤中,发现《山海经》的神秘线索!

三农老历
2025-11-07 13:45:31
莫非,所有人都被何小鹏耍了?

莫非,所有人都被何小鹏耍了?

茄小茄说事
2025-11-07 11:39:15
北京国资地产商率先降价了

北京国资地产商率先降价了

乐居财经官方
2025-11-07 19:01:10
双11大战!贾乃亮请来“李小璐”助阵!

双11大战!贾乃亮请来“李小璐”助阵!

李东阳朋友圈
2025-11-07 10:59:36
2-0!德约赢下71岁老将内战:第144次杀入决赛+争101冠 奖金7万欧

2-0!德约赢下71岁老将内战:第144次杀入决赛+争101冠 奖金7万欧

风过乡
2025-11-08 08:04:35
2025-11-08 13:11:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5215文章数 64595关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

萧美琴等在欧洲议会大楼进行"台独"分裂活动 中方回应

头条要闻

萧美琴等在欧洲议会大楼进行"台独"分裂活动 中方回应

体育要闻

邵佳一准备好了,但中国足球准备好了吗?

娱乐要闻

梁婷为辛芷蕾发声:没什么可质疑的

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

家居
数码
健康
本地
公开课

家居要闻

现代自由 功能美学居所

数码要闻

AMD Ryzen X3D十月在亚马逊的销量超过英特尔整个CPU产品线

超声探头会加重受伤情况吗?

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版