![]()
十月下旬,地平线掌门人余凯和深蓝汽车CEO邓承浩在深蓝L06上进行了一场智能驾驶系统直播测试。
在直播过程中,智慧的光芒从油光锃亮的头皮上喷薄而出的余博士表示,视觉与激光雷达方案的争论没有必要。
而且,在中国复杂的道路场景下,智能驾驶技术更需要具备的是预判能力,而不仅仅是看见的能力。
这个观点引发了激光雷达派和视觉派的广泛热议,不过,从双方阵营粉丝的发言来看,大多数人并没有真正理解余博士的逻辑。
有时候,强烈的爱憎会泯灭基本的逻辑。
很多因为华为采取多传感器融合技术路线而站队激光雷达的粉丝朋友们有一个思维上的误区,他们认为,在自动驾驶感知传感器系统中,激光雷达是可以取代摄像头的。
事情的真相当然不是这个样子。
在自动驾驶系统中,因其不可或缺的语义理解能力,摄像头是必然存在的。
作为几何信息的提供者和安全冗余,激光雷达反倒是可以被拿掉的。
因为,在自动驾驶系统的“感知-决策-执行”闭环里,场景理解是最为核心的关键,而场景理解需要的三大能力-看得清、看得见和看得懂,主要是通过摄像头来实现的。
![]()
能不能“看得清”,主要取决于采样颗粒度和分辨率。
拿主流的128线激光雷达和800万像素摄像头做对比,两者的分辨率差距是1:160,差了整整两个数量级。
和图像能够提供的稠密信息相比,激光雷达提供的数据是相当稀疏的。
饶你像诸葛亮那样能掐会算,也不可能从稀疏的数据中对车辆周围的世界进行有效的还原。
![]()
在能不能“看得见”上,不依赖环境光,在强光、弱光、炫光条件下依然表现稳定的激光雷达具备一定的优势。
不过,随着图像捕捉、图像信号处理和AI技术的进步,视觉方案在这些条件下的表现也在不断进步。
凭借越来越高的像素和分辨率、可兼顾强光和弱光条件的宽动态范围、出色的低光性能,现在的图像捕获核心部件-图像传感器不仅可以满足在低照度弱光环境下成像的刚性需求,还可以在光线对比强烈的炫光逆光环境下全面地呈现亮部和暗部的细节。
![]()
在能不能“看得懂”上,摄像头也具备根本的优势。
因为摄像头的核心价值就在于提供丰富的二维纹理和语义信息,结合深度学习,它能识别车道线、交通标志、信号灯、颜色等。
至于这个二维传感器所缺乏的深度信息,它既可以通过双目视觉直接计算,也可以通过深度神经网络进行间接的推断。
相较之下,激光雷达缺乏颜色、纹理等细节,显然很难(不是不可以)识别交通标志、车道线这些与驾驶任务密切相关的关键信息。
![]()
虽然荷尔蒙饱满的网民们很在乎分出来一个你高我低,但是,求真务实的技术世界从来不是非此即彼的。
激光雷达固然不是用来替代摄像头的,但它可以成为视觉感知系统的关键补充,并提供安全冗余。
![]()
在信息补充上,将激光雷达的几何信息与摄像头的语义信息有效地结合。
通过将激光雷达的点云数据与摄像头的像素数据在时间和空间上进行精确的对齐,为图像中的每一个像素赋予准确的深度信息,可以创造更全面、更可靠的三维环境感知。
这正是多传感器融合的核心思想,也是激光雷达存在的主要逻辑。
![]()
其次,在安全冗余上,当摄像头因为极端的光照、苛刻的工作温度等原因出现性能下降时,激光雷达可以提供可靠的几何信息作为备份,确保系统的基本安全。
其实就跟保险一样,是用来兜底的。
小赌怡情,大赌伤身。最近在资本市场里小赌的我慢慢明白了不懂、似懂非懂、略懂、真懂和懂到位的区别简直比志玲姐姐和凤姐的区别还要大。
地平线掌门人余凯说,激光雷达与视觉方案的争议不重要,智能驾驶技术更需要具备的是预判能力,而不仅仅是看见的能力。
这个充满洞察力的观点说明,余凯博士对自动驾驶的理解真的是懂到位了,或者说给懂王开门-懂到家了。
![]()
因为,激光雷达和摄像头回答的只是“车辆周围有什么”的问题。
21年问世的基于Transformer的BEV解决了标准障碍物的感知,22年问世的占用网络OCC解决了异形障碍物的感知。
这些算法基本完成了对车辆、行人、交通标志等动静态物体的识别和定位,回答了“有什么”的问题。
而要想让自动驾驶系统像人类老司机那样安全、丝滑地驾驶,更为关键的在于能够预测“接下来会发生什么”。
![]()
也就是说,L2时代自动驾驶算法的核心目标是实现全面的障碍物识别和目标感知,到了L3和L4的时代,自动驾驶要从静态、分立的感知走向动态、全维的场景理解。对应到自动驾驶系统的“感知-决策-执行”闭环里。
可以认为,L2时代主攻感知,L3时代开始以神经网络改造决策。L2时代即将落幕,作为感知算法卡姿兰大眼睛的激光雷达和摄像头之争还有什么意义呢?
![]()
自动驾驶行业正在从考验眼睛亮不亮的L2感知时代,迈向考验脑子好不好使的L3认知时代。
在这样的大背景下,能够思考和预判的决策和规划就成了竞争的主战场。
要知道,真实的交通环境中充满了形形色色的参与者,引入了各种各样的不确定性,必须理解场景中各类交通参与者的意图,并预测其在未来几秒内的状态分布,才能给出有效的应对决策。
![]()
对其它车辆和行人进行行为意图的预测,可以提前平顺地做出决策,让智能驾驶系统可以实现类人的舒适驾驶体验。
此外,在很多场景中,强大的预判能力也是应对长尾场景、提升系统安全的关键。
当你预判了别人的预判,拿捏还不是手拿把攥?
自动驾驶行业的竞争焦点已经从看清世界的感知能力,转向理解并思考的认知能力。
在这个核心大趋势下,围绕激光雷达和摄像头的争论真的没有多少的价值和意义。
别争了,视觉方案挺好,多传感器融合方案也不错,都好还不行吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.