[首发于智驾最前沿微信公众号]当我们看一张照片时,可以通过肉眼自然地判断照片中的物体远近,这种对于空间和距离的感知,对于人类来说是本能,是从幼儿时期开始就形成的一种能力。
对于自动驾驶汽车来说,为了能更好地辨别路况,也需要类似的能力。
什么是深度估计?
自动驾驶汽车必须理解环境中物体距离它有多远,需要能快速辨别前面是行人还是车?那个车到底是在十米开外还是一两百米远?
深度估计就是让机器从感知到的图像或传感器数据中估计出物体到自身的距离,给计算机一个可以理解的“空间感”。
这种能力在计算机视觉领域里被称为深度估计(Depth Estimation),是自动驾驶感知系统的基础一环。
![]()
图片源自:网络
深度估计的结果表现为“深度图”,这张深度图和普通照片不一样,照片上的每个像素表示颜色,而深度图上的每个像素代表的是这个像素点对应的真实世界深度值,简单理解就是图片中的物体离我有多远。
有了深度图,车载系统就能把二维画面转化为三维空间的感觉,这对路径规划、避障、速度控制等任务来说非常重要。
为什么自动驾驶要进行深度估计
如果只给自动驾驶系统提供一张照片,是无法让它直接判断距离的。这跟人类看照片的本能不同,机器只看到数字和像素点。
没有深度信息的话,计算机只能判断物体的大致形状、颜色和类别,但不知道它在空间中的实际位置。
举个例子,一辆车可能看起来很大很清晰,但它到底在十米还是一百米之外,是深度信息才能回答的问题。
传统的深度感知方式是用激光雷达(LiDAR)这样的感知硬件,利用激光直接测量距离,成像效果会非常好,也正因如此,现在很多自动驾驶系统都依托激光雷达来获取深度信息。
但是激光雷达成本高、算力要求高,也有安装和维护等各种后续问题。
深度估计作为计算机视觉的一种技术,就是希望用廉价的摄像头和算法来补充或者替代一些昂贵的传感硬件。
![]()
图片源自:网络
也就是说,深度估计技术是让自动驾驶车辆能从摄像头拍摄的普通图像中预测出每一处的距离。
比方说前方有个行人,机器不仅要知道这是个人,还要知道这个人距离车有多少米,这就是深度估计提供的数据。
没有这样的三维感知,即便能识别物体类别,也无法安全地制定行驶策略。
如何实现深度估计?
深度估计本质上是从图像推断空间距离的过程,由于单张图像本身并不包含真实的深度信息,这一过程需要复杂的处理流程。
仅凭平面像素及色彩去推测三维空间中的距离,是一个典型的“欠定问题”,机器无法仅从一张图片确定真实距离,而必须结合几何原理、先验知识以及大量数据来辅助推断。
目前,主流的深度估计方法可分为两类。
一种是多视图方法,通过两个或多个不同视角的摄像头同时观察同一个场景,然后用传统的立体视觉算法去匹配、计算视差(就是确定同一个物体在不同视角中像素的偏移量),再根据视差转换成深度信息。
这其实跟我们双眼看到立体图像类似,左右眼看到的是有轻微偏差的画面,通过这种视差差异,我们的大脑能判断深度。
类似的原理也可以在自动驾驶系统里用两个摄像头实现简单的深度估计。
![]()
图片源自:网络
还有一种更常见的方法是单目深度估计,也就是只用一台摄像头实现深度估计。
由于单张图像本身没有视差信息,但是通过大量的数据和深度学习模型的训练,计算机还是可以学到一些图像里固有的深度线索。
像是路面变得模糊、物体变小、遮挡关系等都是跟深度有关的视觉信号。
深度学习模型通过卷积神经网络、特征提取等手段,把这些线索编码起来,然后预测每个像素的深度。
单目深度估计在技术层面有一些难点,真实世界物体的尺度有很大变化,而且同样的像素在不同场景下可能对应完全不同的距离,因此算法需要在大规模标注数据上训练,让模型学习到一般性的深度规律。
这个过程就像让模型读书一样,通过成千上万张有深度标注的图像让它明白每种视觉特征对应什么样的深度分布。
训练出的模型在看到新图像时,就能给出合理的深度预测。
深度估计在自动驾驶中的具体作用
对于自动驾驶汽车而言,深度估计不仅意味着通过图像识别距离,更重要的是能以较低成本实现更高阶的自动驾驶功能。
没有深度信息,车辆虽能“看见”周围环境,却无法准确判断物体远近;而有了深度信息,自动驾驶系统的“思考”才能真正从二维提升到三维空间,深度估计的直接作用包括。
- 碰撞预警:知道前方物体到底有多远,从而判断是否需要刹车或避让。
- 路径规划:基于三维空间关系计算最佳行驶路线,而不仅仅是图像中的像素路径。
- 跟车距离控制:估计前车距离,决定加速或减速。
- 动态障碍物预测:结合机器学习追踪其他车辆、行人的运动,并预测它们的未来位置。

图片源自:网络
所有这些功能都离不开准确的深度预测。若缺少可靠的深度信息,后续的路径规划与控制决策便失去了空间依据。
在自动驾驶系统中,深度估计的结果并非依赖单一来源,而是与激光雷达、毫米波雷达等其他传感器数据进行融合(即“传感器融合”)。
这种方式既能充分利用视觉数据所蕴含的丰富信息,也能弥补单一传感器的局限性。
最后的话
把深度估计看成自动驾驶系统中的一个模块,其实有点低估它的价值。它不是简单的图像变换,而是把二维视觉转化成三维空间认知的桥梁。
它让机器不仅看到世界,还能理解世界的结构和远近关系。没有准确的深度估计,自动驾驶车辆就缺乏最基本的空间感觉。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.