不知道你开车时有没有想过,人类司机之所以“靠谱”,不仅仅是因为我们能看见路上的车和人,更是因为我们能在一瞬间“理解”整个场景的动态和意图。比如,看到路边有个小孩在追逐皮球,我们会下意识地减速,因为我们“脑补”出了他可能冲到马路上的风险。这种基于经验和常识的场景理解能力,正是当前自动驾驶系统所欠缺的。
![]()
目前主流的自动驾驶方案,更多依赖于基于深度的三维重建,像是给世界建了个几何模型,但离真正的“理解”还有距离。为了弥补这一鸿沟,来自香港科技大学、理想汽车和清华大学的研究者们,共同提出了一个极具启发性的类人框架——OmniScene。
简单来说,OmniScene的目标就是教自动驾驶汽车学会“看图说话”,通过引入语言的语义信息,让它不仅能“看见”物理世界,更能“理解”其中的复杂关系和潜在风险,从而做出更像人类的决策。
![]()
论文标题 : OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving
作者 : Pei Liu, Hongliang Lu, Haichao Liu, Haipeng Liu, Xin Liu, Ruoyu Yao, Shengbo Eben Li, Jun Ma
机构 : 香港科技大学;理想汽车;清华大学
论文地址 : https://arxiv.org/abs/2509.19973
项目地址 : https://github.com/ocean-luna/OmniScene
研究背景:从“看见”到“理解”的跨越
当前的端到端自动驾驶模型,通常在BEV(鸟瞰图)空间进行感知和规划。它们擅长构建周围环境的几何表示,但在语义理解上却显得力不从心。这就导致模型在面对一些需要“脑补”和“预判”的复杂场景时,表现得不如人类司机那样从容。
OmniScene正是要打破这个瓶颈,它认为,语言是人类高级认知和常识的载体。如果能让模型在训练时接触到描述驾驶场景的文本信息,就能引导它学习到更深层次的、类似人类的注意力机制和语义关联。
OmniScene的核心方法:三位一体的创新架构
OmniScene框架由三大核心模块构成,分别是视觉端到端模型、层次化融合模块,以及一个创新的师生OmniVLM架构。
![]()
师生OmniVLM架构:让模型拥有“语言导师”
这是整个框架的精髓。研究者设计了一个“老师-学生”(Teacher-Student)架构,让一个强大的“老师”模型来引导“学生”模型(即最终的驾驶模型)学习。
老师OmniVLM : 这是一个强大的视觉语言模型(VLM)。它的任务是从nuScenes数据集中挖掘各种信息(如真值、驾驶信号、领域规则),然后自动生成描述当前驾驶场景的丰富文本。比如,“前方有行人穿行,本车需要减速避让”。这些文本就像是人类驾驶员的“内心独白”,充满了对场景的理解和判断。
学生模型 : 在训练时,学生模型不仅要处理来自摄像头的视觉信息,还要努力让自己的内部特征与“老师”给出的文本描述在语义上对齐。通过知识蒸馏的方式,老师模型将这种宝贵的“场景理解能力”传授给了学生模型。这迫使学生模型去学习那些与人类注意力高度相关的语义特征,而不仅仅是几何特征。
当引入了文本这种新的模态后,如何与原有的视觉特征有效融合就成了一个新问题。如果简单地相加,可能会导致信息不平衡。为此,OmniScene提出了层次化融合策略(Hierarchical Fusion Strategy, HFS)。
![]()
该策略能够在不同的抽象层次上,动态地、自适应地调整来自几何(视觉)和语义(文本)信息的权重,确保两者能够互补,发挥出1+1>2的效果。
实验效果:全面刷新SOTA
OmniScene在nuScenes数据集上与超过10个SOTA模型进行了全方位的“硬碰硬”比较,涵盖了自动驾驶的几大核心任务:感知、预测和规划。
感知(检测与跟踪) ![]()
![]()
在3D物体检测和跟踪任务上,OmniScene的各项指标均取得了领先,证明了其强大的环境感知能力。
预测与规划 ![]()
![]()
在对其他道路使用者的轨迹预测以及自身车辆的路径规划上,OmniScene同样表现出色,L2误差和碰撞率等关键指标都达到了新的SOTA水准。
![]()
上图展示了在交叉路口不同意图下的规划结果,OmniScene能够结合多视角感知、轨迹预测和文本化的驾驶员注意力,学习到不同的转弯模式。
![]()
在紧急避让等场景下,OmniScene的规划轨迹(中)也明显比之前的方法(左)更接近真值(右),表现出更强的避险能力。
视觉问答(VQA)
最令人惊喜的是,研究者还评估了模型的视觉问答能力,即让模型用自然语言回答关于驾驶场景的问题。这直接考验了模型的场景理解深度。
结果显示,OmniScene在VQA任务上的性能相较于之前的工作取得了高达21.40%的巨大提升,这充分证明了将语言信息融入模型所带来的深刻变革。
![]()
消融研究
大量的消融实验也验证了OmniScene中每一个精心设计的组件(如文本条件聚合、时空解耦交叉注意力等)都对最终的卓越性能至关重要。
![]()
![]()
![]()
总结与思考
OmniScene的探索极具价值。它不再满足于让自动驾驶系统成为一个只会“依样画葫芦”的几何学家,而是尝试通过引入语言这个强大的工具,赋予其“思考”和“理解”的能力,构建了一个更接近人类驾驶模式的“感知-理解-行动”闭环。
将大语言模型的语义理解能力与自动驾驶的端到端模型相结合,或许正是通往更安全、更智能的自动驾驶未来的关键钥匙之一。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.