[首发于智驾最前沿微信公众号]在自动驾驶领域,经常会听到BEV相关的技术讨论。BEV是Bird’s Eye View的缩写,中文译为“鸟瞰视角”或“俯视图”。简单理解它的含义,就是把摄像头、激光雷达、毫米波雷达或地图信息,统一映射到同一张以车为中心或者以世界坐标为基准的平面上,自动驾驶系统会像站在空中俯瞰一样,同时看到车周围所有物体的位置、车道线以及静态障碍物和动态交通参与者的分布。BEV能把三维的感知问题转换成二维的空间推理问题,方便把感知、预测、规划等耦合在一起,从而提升自动驾驶的安全性。
BEV作为一种中间表示(representation),其强调空间一致性。不管信息来自哪种传感器、时间上如何变化,最后都可以放到同一个平面与同一坐标系下去表示。对于自动驾驶系统来说,统一视角带来的直观好处是很明显的,规划器可以直接在地图样式的平面上找可通行区域、预测模块可以基于统一坐标去估算轨迹、感知模块的输出更容易被后一层模块消费,从而构建起端到端更流畅的工作流。
BEV的技术架构与实现要点
要将传感器数据变成可用的BEV表示,需要经过一系列的技术步骤,涉及到传感器编码、视角转换与对齐、特征融合与BEV编码、时序处理和任务头(例如检测、语义分割、轨迹预测、占据网格输出等)等几大关键模块。这些步骤会因传感器组合(纯视觉、视觉+雷达、视觉+激光雷达等)不同而有所差异,但总体思路类似。

图片源自:网络
在纯摄像头的方案里,先把每个摄像头的图像经过一个特征提取网络(例如卷积神经网络或视觉变换器)得到高维特征图。然后就是把这些视角特征“投影”到俯视平面上。实现纯摄像头的BEV最简单的投影方式是基于几何变换,如通过相机内外参和一个深度估计模块,将像素点反投影为三维点,再把这些点按照地面坐标投影到平面上,形成BEV的特征投影图。还有一些技术方案会在像素到BEV的映射中引入可学习的模块,这些模块可以在训练中学习如何把不同视角、多尺度的特征以最合适的方式聚合到BEV网格中,从而缓解直接几何投影带来的空洞或误差。
在带有激光雷达的系统中,实现BEV的方式把LiDAR的点云先投影到BEV网格(通常称为鸟瞰栅格),并把点云的强度、点数、最大/最小高度等信息编码成每个网格单元的特征。激光雷达提供的深度信息本身就很准确,这使得BEV表示的定位精度更高、占据估计会更可靠。
毫米波雷达会提供稀疏但有用的速度信息,它能补充BEV中的动态信息。毫米波雷达的回波可以投影到BEV网格,用作速度场估计或作为辅助特征。BEV的实现关键在于坐标变换的精度、多传感器间的时间对齐、以及如何在BEV网格上高效表示语义和运动信息。
在BEV的网络架构内部,常用组件有BEVencoder(对BEV网格做进一步卷积/变换以增加感受野和语义聚合)、跨时间融合模块(把多个时间步的BEV特征融合起来以获得运动线索)、以及若干任务头(用于输出检测框、分割掩码、占用概率、轨迹预测等)。时序上需要考虑ego-motion(自车运动)的补偿,也就是说在融合不同时间步信息前,必须把以往帧的BEV特征逆向转换到当前坐标系,避免特征因车辆运动而错位。
BEV对自动驾驶系统的影响与优势
BEV作为一种“面向空间”的表示,可以让规划器在同一张图上进行可通行区域的搜索、障碍物避让和轨迹生成。相比于处理多个感知框或不同相机视角的原始输出,使用BEV后,规划模块面对的是一张有语义、有占据概率、且以精确坐标标注的地图式数据,设计会变得更直观,耦合度更低。
BEV也更利于多传感器融合。相机擅长识别语义(行人、车道线、交通标志),LiDAR擅长提供几何和精确距离,毫米波雷达擅长速度测量。把这些信息都投影到同一个BEV网格后,融合的方式就会从“跨传感器的复杂特征对齐”变成“在统一空间上做通道或注意力融合”,更容易保证一致性并减少信息丢失。这样的统一表示也便于把地图(包括高精地图或矢量地图)与实时感知对齐,用来校正感知结果或约束规划输出。
![]()
图片源自:网络
BEV还有利于端到端或大模型思路的推进。在BEV上训练的网络可以同时输出检测、分割、轨迹预测等多个任务,且这些任务共享相同的空间表示,这使得多任务学习效果会更好、参数共享能更高效。对于想把决策和控制也尽量靠近感知端做联合优化的研究路线,BEV提供了天然的中间层接口,使得“从感知到轨迹”的联合训练变得可行。
BEV更提升了对复杂交通场景的处理能力。复杂交叉口、多车道并线、环形交叉以及多模态行为的预测,都需要对空间关系和动态演化做长时间尺度的推理。BEV可以很方便地在空间上展示交互关系,举个例子,即便某辆车被另一辆车遮挡,但在BEV上仍然可以通过轨迹历史和速度场推断其大致位置,从而为预测模块提供更多上下文信息。
BEV还有利于系统调试与可视化。工程师在开发或回放时可以直接看到BEV图像,判断识别错误是因为深度估计错误、投影误差还是传感器校准问题。这种可视化的直观性极大加速了开发和问题定位流程。
限制、挑战以及未来发展方向
BEV最大的一个挑战来自于纯视觉BEV的深度与尺度不确定性。单目相机本身缺乏精确深度信息,把像素特征投影到平面上需要可靠的深度估计或假设地面平面,这在有坡道、桥梁或者复杂立体交通结构的场景下容易出错。为了解决这一问题,会采用稠密深度估计、结构光或引入LiDAR辅助,或者在网络中加入可学习的视变换模块以降低几何误差。
BEV的另一个挑战是分辨率与计算资源的平衡。把周边环境以高分辨率网格编码,会增加内存和计算压力;但分辨率过低又会损失对小目标(如行人、儿童骑车人)的识别能力。在设计时需要在BEV网格大小、特征通道数、时间步数之间做选择,还要考虑实时性与延迟对控制安全的影响。
![]()
图片源自:网络
多传感器的时序和空间对齐也是BEV应用中的一大难题。摄像头帧率、LiDAR点云率、雷达回波率各不相同,且每个传感器都有自己的时延和抖动。把它们正确地同步、补偿并映射到同一BEV网格,需要准确的时间戳、精确的外参和鲁棒的运动补偿机制。任何一个环节的微小误差,在BEV上都可能累积成较大的位置偏移,影响下游规划。
想训练一个鲁棒的BEV模型,对数据标注和训练样本也提出了极高要求。不仅需要海量多传感器数据在长时间尺度上的配合,其标签还必须与BEV空间中的网格精确对齐。此类标注的成本十分高昂,而为了确保模型的泛化能力,还需覆盖夜间、雨雪、隧道等各类长尾场景,这会导致数据分布偏差问题尤为突出。为应对这些挑战,基于模拟器的数据生成以及弱监督、自监督学习已成为重要的补充方向。但如何将模拟环境中训练的成果无缝迁移到真实世界场景中,目前仍是亟待突破的难点。
最后的话
BEV是当前自动驾驶感知与决策链路中非常实用且被广泛采纳的一种空间表示。它用统一的平面视角把多模态、多时间的信息粘合在一起,使得很多复杂的交通场景推理变得更加可控和直观。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.