网易首页 > 网易号 > 正文 申请入驻

港科大、理想、清华联手提出OmniScene:让自动驾驶学会“看图说话”,VQA性能飙升21.4%

0
分享至

不知道你开车时有没有想过,人类司机之所以“靠谱”,不仅仅是因为我们能看见路上的车和人,更是因为我们能在一瞬间“理解”整个场景的动态和意图。比如,看到路边有个小孩在追逐皮球,我们会下意识地减速,因为我们“脑补”出了他可能冲到马路上的风险。这种基于经验和常识的场景理解能力,正是当前自动驾驶系统所欠缺的。

目前主流的自动驾驶方案,更多依赖于基于深度的三维重建,像是给世界建了个几何模型,但离真正的“理解”还有距离。为了弥补这一鸿沟,来自香港科技大学、理想汽车和清华大学的研究者们,共同提出了一个极具启发性的类人框架——OmniScene

简单来说,OmniScene的目标就是教自动驾驶汽车学会“看图说话”,通过引入语言的语义信息,让它不仅能“看见”物理世界,更能“理解”其中的复杂关系和潜在风险,从而做出更像人类的决策。

论文标题 : OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving

  • 作者 : Pei Liu, Hongliang Lu, Haichao Liu, Haipeng Liu, Xin Liu, Ruoyu Yao, Shengbo Eben Li, Jun Ma

  • 机构 : 香港科技大学;理想汽车;清华大学

  • 论文地址 : https://arxiv.org/abs/2509.19973

  • 项目地址 : https://github.com/ocean-luna/OmniScene

  • 研究背景:从“看见”到“理解”的跨越

    当前的端到端自动驾驶模型,通常在BEV(鸟瞰图)空间进行感知和规划。它们擅长构建周围环境的几何表示,但在语义理解上却显得力不从心。这就导致模型在面对一些需要“脑补”和“预判”的复杂场景时,表现得不如人类司机那样从容。

    OmniScene正是要打破这个瓶颈,它认为,语言是人类高级认知和常识的载体。如果能让模型在训练时接触到描述驾驶场景的文本信息,就能引导它学习到更深层次的、类似人类的注意力机制和语义关联。

    OmniScene的核心方法:三位一体的创新架构

    OmniScene框架由三大核心模块构成,分别是视觉端到端模型、层次化融合模块,以及一个创新的师生OmniVLM架构。

    这是整个框架的精髓。研究者设计了一个“老师-学生”(Teacher-Student)架构,让一个强大的“老师”模型来引导“学生”模型(即最终的驾驶模型)学习。

    • 老师OmniVLM : 这是一个强大的视觉语言模型(VLM)。它的任务是从nuScenes数据集中挖掘各种信息(如真值、驾驶信号、领域规则),然后自动生成描述当前驾驶场景的丰富文本。比如,“前方有行人穿行,本车需要减速避让”。这些文本就像是人类驾驶员的“内心独白”,充满了对场景的理解和判断。

    • 学生模型 : 在训练时,学生模型不仅要处理来自摄像头的视觉信息,还要努力让自己的内部特征与“老师”给出的文本描述在语义上对齐。通过知识蒸馏的方式,老师模型将这种宝贵的“场景理解能力”传授给了学生模型。这迫使学生模型去学习那些与人类注意力高度相关的语义特征,而不仅仅是几何特征。

    层次化融合策略(HFS)

    当引入了文本这种新的模态后,如何与原有的视觉特征有效融合就成了一个新问题。如果简单地相加,可能会导致信息不平衡。为此,OmniScene提出了层次化融合策略(Hierarchical Fusion Strategy, HFS)

    该策略能够在不同的抽象层次上,动态地、自适应地调整来自几何(视觉)和语义(文本)信息的权重,确保两者能够互补,发挥出1+1>2的效果。

    实验效果:全面刷新SOTA

    OmniScene在nuScenes数据集上与超过10个SOTA模型进行了全方位的“硬碰硬”比较,涵盖了自动驾驶的几大核心任务:感知、预测和规划。

    在3D物体检测和跟踪任务上,OmniScene的各项指标均取得了领先,证明了其强大的环境感知能力。

    在对其他道路使用者的轨迹预测以及自身车辆的路径规划上,OmniScene同样表现出色,L2误差和碰撞率等关键指标都达到了新的SOTA水准。

    上图展示了在交叉路口不同意图下的规划结果,OmniScene能够结合多视角感知、轨迹预测和文本化的驾驶员注意力,学习到不同的转弯模式。

    在紧急避让等场景下,OmniScene的规划轨迹(中)也明显比之前的方法(左)更接近真值(右),表现出更强的避险能力。

    视觉问答(VQA)

    最令人惊喜的是,研究者还评估了模型的视觉问答能力,即让模型用自然语言回答关于驾驶场景的问题。这直接考验了模型的场景理解深度。

    结果显示,OmniScene在VQA任务上的性能相较于之前的工作取得了高达21.40%的巨大提升,这充分证明了将语言信息融入模型所带来的深刻变革。

    大量的消融实验也验证了OmniScene中每一个精心设计的组件(如文本条件聚合、时空解耦交叉注意力等)都对最终的卓越性能至关重要。

    总结与思考

    OmniScene的探索极具价值。它不再满足于让自动驾驶系统成为一个只会“依样画葫芦”的几何学家,而是尝试通过引入语言这个强大的工具,赋予其“思考”和“理解”的能力,构建了一个更接近人类驾驶模式的“感知-理解-行动”闭环。

    将大语言模型的语义理解能力与自动驾驶的端到端模型相结合,或许正是通往更安全、更智能的自动驾驶未来的关键钥匙之一。

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    教职工举报自己吃空饷,当地联合调查组通报

    教职工举报自己吃空饷,当地联合调查组通报

    观察者网
    2026-05-08 16:59:16
    中方关键时刻伸出援手,给生死存亡的老杜家族,送出了一丝希望

    中方关键时刻伸出援手,给生死存亡的老杜家族,送出了一丝希望

    娱乐圈的笔娱君
    2026-05-08 13:54:28
    底层游民生活的底色:麻将、酒局、性生活!

    底层游民生活的底色:麻将、酒局、性生活!

    灯锦年
    2026-05-08 18:56:06
    奚梦瑶独自香港逛街,手捂肚子表情痛苦,小腹隆起引三胎猜疑

    奚梦瑶独自香港逛街,手捂肚子表情痛苦,小腹隆起引三胎猜疑

    情感大头说说
    2026-05-08 14:14:01
    开始向东看?托卡耶夫加速“去俄化”,他比谁都清楚自己很危险

    开始向东看?托卡耶夫加速“去俄化”,他比谁都清楚自己很危险

    蓝色海边
    2026-05-08 20:16:15
    有没有人敢爆自己的瓜?网友:确定玩这么大吗?

    有没有人敢爆自己的瓜?网友:确定玩这么大吗?

    夜深爱杂谈
    2026-02-18 20:55:58
    受贿数额特别巨大,东航原董事长刘绍勇被提起公诉

    受贿数额特别巨大,东航原董事长刘绍勇被提起公诉

    21世纪经济报道
    2026-05-08 10:36:13
    这是华润被搞得最惨的一次

    这是华润被搞得最惨的一次

    新浪财经
    2026-05-07 19:11:10
    《陈翔六点半》四大元老集体出走,带货首秀百万人只看不买!

    《陈翔六点半》四大元老集体出走,带货首秀百万人只看不买!

    陈意小可爱
    2026-05-06 14:50:57
    成都这一夜,阿娇“水桶腰、大象腿”是对畸形审美的反击

    成都这一夜,阿娇“水桶腰、大象腿”是对畸形审美的反击

    健身迷
    2026-05-07 12:11:32
    凌晨突发!东莞银屏山出事了!

    凌晨突发!东莞银屏山出事了!

    东莞好生活
    2026-05-08 16:19:21
    上海迪士尼能通话录音游客不能录,否则无法提供服务!游客:凭什么迪士尼能录我不能

    上海迪士尼能通话录音游客不能录,否则无法提供服务!游客:凭什么迪士尼能录我不能

    潇湘晨报
    2026-05-07 16:14:22
    江青临终前,提出去毛主席纪念堂看主席最后一眼,中央:不准她去

    江青临终前,提出去毛主席纪念堂看主席最后一眼,中央:不准她去

    舆图看世界
    2026-04-30 15:10:04
    炸裂!奥运冠军发文痛斥76岁恩师:没底线,逼我吃药!

    炸裂!奥运冠军发文痛斥76岁恩师:没底线,逼我吃药!

    拳击时空
    2026-05-08 06:12:50
    吴强把小说《红日》给老首长看,江渭清喜气交集:我真想捶你一顿

    吴强把小说《红日》给老首长看,江渭清喜气交集:我真想捶你一顿

    大运河时空
    2026-05-08 09:30:03
    刘楚恬:2岁出道年入百万,因长相甜美被禁止整容,如今长什么样

    刘楚恬:2岁出道年入百万,因长相甜美被禁止整容,如今长什么样

    蹲坑看世界
    2026-05-07 15:09:16
    不敢相信!一个落选秀,首次打季后赛,三分命中率58%

    不敢相信!一个落选秀,首次打季后赛,三分命中率58%

    球毛鬼胎
    2026-05-08 13:06:01
    华为版劳斯莱斯!鸿蒙智行尊界M900渲染图曝光:车长近5.5米

    华为版劳斯莱斯!鸿蒙智行尊界M900渲染图曝光:车长近5.5米

    快科技
    2026-05-08 17:32:24
    48岁欧阳夏丹现状:离开央视,被教授邀请现身挪威,至今未婚未育

    48岁欧阳夏丹现状:离开央视,被教授邀请现身挪威,至今未婚未育

    白面书誏
    2026-05-07 17:50:08
    中美三大议题敲定,特朗普访华团商界成员曝光,奔着签订大单来的

    中美三大议题敲定,特朗普访华团商界成员曝光,奔着签订大单来的

    阿离家居
    2026-05-08 14:39:52
    2026-05-08 21:35:00
    算法与数学之美 incentive-icons
    算法与数学之美
    分享知识,交流思想
    5525文章数 64625关注度
    往期回顾 全部

    科技要闻

    SK海力士平均奖金600万 工服成相亲神器

    头条要闻

    媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

    头条要闻

    媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

    体育要闻

    他把首胜让给队友,然后用一年时间还清账单

    娱乐要闻

    古天乐被曝隐婚生子,新娘竟是她

    财经要闻

    特朗普全球关税又受阻,也能退款?

    汽车要闻

    MG 4X实车亮相 将于5月11日开启盲订

    态度原创

    本地
    亲子
    数码
    房产
    公开课

    本地新闻

    用苏绣的方式,打开江西婺源

    亲子要闻

    为什么孩子大了,朋友圈里就看不到晒娃了?

    数码要闻

    海信不卷电视了?六大3C潮品首发,全场景杀向年轻人

    房产要闻

    豪掷6.8亿拿地!何猷君大手笔投资三亚!

    公开课

    李玫瑾:为什么性格比能力更重要?

    无障碍浏览 进入关怀版