港科大、理想、清华联手提出OmniScene：让自动驾驶学会“看图说话”，VQA性能飙升21.4%|轨迹|视觉|理想汽车|自然语言|知名企业|自动驾驶系统|omniscene

港科大、理想、清华联手提出OmniScene：让自动驾驶学会“看图说话”，VQA性能飙升21.4%

分享至

不知道你开车时有没有想过，人类司机之所以“靠谱”，不仅仅是因为我们能看见路上的车和人，更是因为我们能在一瞬间“理解”整个场景的动态和意图。比如，看到路边有个小孩在追逐皮球，我们会下意识地减速，因为我们“脑补”出了他可能冲到马路上的风险。这种基于经验和常识的场景理解能力，正是当前自动驾驶系统所欠缺的。

目前主流的自动驾驶方案，更多依赖于基于深度的三维重建，像是给世界建了个几何模型，但离真正的“理解”还有距离。为了弥补这一鸿沟，来自香港科技大学、理想汽车和清华大学的研究者们，共同提出了一个极具启发性的类人框架——OmniScene。

简单来说，OmniScene的目标就是教自动驾驶汽车学会“看图说话”，通过引入语言的语义信息，让它不仅能“看见”物理世界，更能“理解”其中的复杂关系和潜在风险，从而做出更像人类的决策。

论文标题 : OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving
作者 : Pei Liu, Hongliang Lu, Haichao Liu, Haipeng Liu, Xin Liu, Ruoyu Yao, Shengbo Eben Li, Jun Ma
机构 : 香港科技大学；理想汽车；清华大学
论文地址 : https://arxiv.org/abs/2509.19973
项目地址 : https://github.com/ocean-luna/OmniScene

研究背景：从“看见”到“理解”的跨越

当前的端到端自动驾驶模型，通常在BEV（鸟瞰图）空间进行感知和规划。它们擅长构建周围环境的几何表示，但在语义理解上却显得力不从心。这就导致模型在面对一些需要“脑补”和“预判”的复杂场景时，表现得不如人类司机那样从容。

OmniScene正是要打破这个瓶颈，它认为，语言是人类高级认知和常识的载体。如果能让模型在训练时接触到描述驾驶场景的文本信息，就能引导它学习到更深层次的、类似人类的注意力机制和语义关联。

OmniScene的核心方法：三位一体的创新架构

OmniScene框架由三大核心模块构成，分别是视觉端到端模型、层次化融合模块，以及一个创新的师生OmniVLM架构。

师生OmniVLM架构：让模型拥有“语言导师”

这是整个框架的精髓。研究者设计了一个“老师-学生”（Teacher-Student）架构，让一个强大的“老师”模型来引导“学生”模型（即最终的驾驶模型）学习。

老师OmniVLM : 这是一个强大的视觉语言模型（VLM）。它的任务是从nuScenes数据集中挖掘各种信息（如真值、驾驶信号、领域规则），然后自动生成描述当前驾驶场景的丰富文本。比如，“前方有行人穿行，本车需要减速避让”。这些文本就像是人类驾驶员的“内心独白”，充满了对场景的理解和判断。

学生模型 : 在训练时，学生模型不仅要处理来自摄像头的视觉信息，还要努力让自己的内部特征与“老师”给出的文本描述在语义上对齐。通过知识蒸馏的方式，老师模型将这种宝贵的“场景理解能力”传授给了学生模型。这迫使学生模型去学习那些与人类注意力高度相关的语义特征，而不仅仅是几何特征。

层次化融合策略（HFS）

当引入了文本这种新的模态后，如何与原有的视觉特征有效融合就成了一个新问题。如果简单地相加，可能会导致信息不平衡。为此，OmniScene提出了层次化融合策略（Hierarchical Fusion Strategy, HFS）。

该策略能够在不同的抽象层次上，动态地、自适应地调整来自几何（视觉）和语义（文本）信息的权重，确保两者能够互补，发挥出1+1>2的效果。

实验效果：全面刷新SOTA

OmniScene在nuScenes数据集上与超过10个SOTA模型进行了全方位的“硬碰硬”比较，涵盖了自动驾驶的几大核心任务：感知、预测和规划。

感知（检测与跟踪）

在3D物体检测和跟踪任务上，OmniScene的各项指标均取得了领先，证明了其强大的环境感知能力。

预测与规划

在对其他道路使用者的轨迹预测以及自身车辆的路径规划上，OmniScene同样表现出色，L2误差和碰撞率等关键指标都达到了新的SOTA水准。

上图展示了在交叉路口不同意图下的规划结果，OmniScene能够结合多视角感知、轨迹预测和文本化的驾驶员注意力，学习到不同的转弯模式。

在紧急避让等场景下，OmniScene的规划轨迹（中）也明显比之前的方法（左）更接近真值（右），表现出更强的避险能力。

视觉问答（VQA）

最令人惊喜的是，研究者还评估了模型的视觉问答能力，即让模型用自然语言回答关于驾驶场景的问题。这直接考验了模型的场景理解深度。

结果显示，OmniScene在VQA任务上的性能相较于之前的工作取得了高达21.40%的巨大提升，这充分证明了将语言信息融入模型所带来的深刻变革。

消融研究

大量的消融实验也验证了OmniScene中每一个精心设计的组件（如文本条件聚合、时空解耦交叉注意力等）都对最终的卓越性能至关重要。

总结与思考

OmniScene的探索极具价值。它不再满足于让自动驾驶系统成为一个只会“依样画葫芦”的几何学家，而是尝试通过引入语言这个强大的工具，赋予其“思考”和“理解”的能力，构建了一个更接近人类驾驶模式的“感知-理解-行动”闭环。

将大语言模型的语义理解能力与自动驾驶的端到端模型相结合，或许正是通往更安全、更智能的自动驾驶未来的关键钥匙之一。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.