![]()
自动驾驶汽车要想安全行驶,就需要时刻了解周围的环境情况——哪里有车辆、哪里有行人、哪里有障碍物。激光雷达(LiDAR)就像汽车的"眼睛",能够扫描周围环境并生成三维点云图像。不过,这个"眼睛"看到的世界往往是不完整的,就像透过百叶窗看外面一样,只能看到稀稀拉拉的点,很多地方都是空白的。
为了解决这个问题,科研人员开发了各种技术来"补全"这些稀疏的点云数据,让汽车能够获得更完整、更清晰的环境信息。最近,浙江大学计算机科学与技术学院联合北京大学等机构的研究团队在这个领域取得了重大突破。他们开发的ScoreLiDAR技术不仅能够生成高质量的完整场景,而且速度比现有最先进的方法快了5倍以上。这项研究成果发表在2025年的ICLR会议上,论文编号为arXiv:2412.03515v3。
目前最先进的激光雷达场景补全技术主要依赖扩散模型,这种模型就像一个反复修改画作的艺术家——需要经过很多次迭代才能完成一幅完整的作品。以LiDiff为代表的扩散模型虽然能够生成高质量的完整场景,但通常需要30多秒才能处理一帧数据,这对于需要实时决策的自动驾驶汽车来说实在太慢了。
研究团队意识到,如果能够把这个"艺术家"的技能传授给一个"学徒",让学徒能够快速完成同样质量的作品,就能大大提升效率。基于这个思路,他们开发了ScoreLiDAR——一种专门针对三维激光雷达场景补全的知识蒸馏方法。
一、双向梯度指导:让学生模型快速学会"看图补景"
ScoreLiDAR的核心创新在于采用了一种叫做"双向梯度指导机制"的技术。这个机制就像给学生配备了两个老师:一个是经验丰富的"正向老师"(预训练的扩散模型),另一个是专门针对学生作品进行纠错的"反向老师"(辅助扩散模型)。
当学生模型(ScoreLiDAR的核心网络)生成一个完整的点云场景后,正向老师会预测这个场景应该朝什么方向改进才能更接近真实场景,而反向老师则会指出哪些地方看起来不够真实。学生模型通过比较这两个老师给出的不同意见,找到最佳的学习方向。
这种双向指导的好处是显而易见的。正向老师拥有丰富的经验,知道什么样的场景是合理的;反向老师则专门研究学生的作品特点,能够敏锐地发现问题所在。两者结合,就能让学生模型快速掌握场景补全的精髓,而不需要像传统扩散模型那样进行多次迭代。
二、结构化损失函数:捕捉三维场景的几何精髓
仅仅有双向指导还不够,研究团队发现直接应用现有的蒸馏技术到激光雷达场景补全任务上会导致一些问题:补全的场景可能会丢失重要的局部细节,整体的真实感也会下降。这是因为激光雷达点云数据包含着复杂的几何结构信息,而传统的蒸馏方法主要是为二维图像设计的,无法很好地处理这种三维几何关系。
为了解决这个问题,研究团队设计了一个专门的"结构化损失函数",这个函数就像一个既关注整体布局又注重细节精度的建筑师。它包含两个重要组成部分:场景级损失和点级损失。
场景级损失关注的是整体结构的准确性。它计算生成场景中每个点与真实场景中最近邻点之间的距离,确保补全后的场景在整体布局上与真实场景保持一致。这就好比建筑师首先要确保房子的整体框架是正确的。
点级损失则专注于关键特征点之间的相对位置关系。研究团队开发了一种基于曲率的关键点选择方法,能够自动识别出场景中最重要的特征点——比如建筑物的角落、车辆的边缘、交通锥的顶端等。然后计算这些关键点之间的距离矩阵,确保它们在补全场景中的相对位置关系与真实场景保持一致。
这种关键点的选择方法很巧妙。研究团队通过计算每个点周围邻域的几何变化程度(曲率)来判断哪些点最重要。曲率大的点通常位于物体的边缘、角落或者其他几何特征明显的位置,这些点对于理解场景的整体结构至关重要。通过重点关注这些关键点,ScoreLiDAR能够更好地保持场景的几何一致性。
三、训练策略:交替优化实现最佳性能
ScoreLiDAR的训练过程采用了一种交替优化策略,就像两个舞蹈演员需要不断练习才能达到完美配合一样。在这个过程中,学生模型和辅助扩散模型会交替进行训练,相互促进,共同提升。
首先,辅助扩散模型会在学生模型生成的完整场景上进行训练,学习如何预测这些场景的评分。这个过程让辅助模型逐渐了解学生模型的"风格"和常见问题。接着,学生模型会根据来自预训练教师模型和辅助模型的双向梯度信息进行优化,同时还要受到结构化损失函数的约束。
这种交替训练的好处是显著的。辅助模型能够越来越准确地评估学生模型的输出质量,而学生模型也能够在双重指导下快速改进。更重要的是,整个训练过程只需要50次迭代就能收敛,在单个A40 GPU上大约10分钟就能完成,效率极高。
四、实验验证:全面超越现有技术
为了验证ScoreLiDAR的性能,研究团队在两个权威数据集上进行了全面测试:SemanticKITTI和KITTI-360。这两个数据集包含了大量真实的自动驾驶场景数据,是该领域的标准评测基准。
实验结果令人印象深刻。在SemanticKITTI数据集上,ScoreLiDAR将场景补全时间从30.55秒缩短到5.37秒,实现了超过5倍的加速。更重要的是,在速度大幅提升的同时,补全质量不仅没有下降,反而有所改善。具体来说,Chamfer Distance指标从0.375改善到0.342,Jensen-Shannon Divergence从0.416改善到0.399。
在KITTI-360数据集上,ScoreLiDAR同样表现出色,将处理时间从29.43秒缩短到5.14秒,同时在Chamfer Distance上从0.517改善到0.452,在Jensen-Shannon Divergence上从0.446改善到0.437。
这些数值背后的含义很简单:ScoreLiDAR不仅更快,而且补全的场景更接近真实情况。Chamfer Distance衡量的是生成点云与真实点云之间的相似度,数值越小说明越接近真实;Jensen-Shannon Divergence则评估两个概率分布的差异,同样是数值越小越好。
研究团队还进行了用户研究,让7名志愿者对比ScoreLiDAR和现有最佳方法LiDiff的补全结果。结果显示,65%的用户认为ScoreLiDAR的补全结果更接近真实场景,这进一步证明了该方法的有效性。
五、技术细节:深入理解核心机制
ScoreLiDAR的成功离不开一系列巧妙的技术设计。在双向梯度指导机制中,研究团队借鉴了变分评分蒸馏的思想,通过最小化学生模型分布与教师模型分布之间的KL散度来实现知识传递。
具体来说,当学生模型生成一个完整场景后,系统会给这个场景添加不同程度的噪声,然后让教师模型和辅助模型分别预测如何去除这些噪声。教师模型的预测指向真实场景分布,而辅助模型的预测指向学生模型的当前分布。两者的差异就构成了指导学生模型优化的梯度信息。
在结构化损失函数的设计中,关键点选择算法的实现也很有技巧。系统首先为每个点计算K个最近邻(默认K=180),然后计算邻域的协方差矩阵,通过特征值分解得到主成分。曲率值通过最小特征值与所有特征值之和的比值来计算,这样就能准确识别出几何变化最剧烈的点。
为了平衡计算效率和效果,研究团队将关键点数量设置为总点数的1/30。这个比例既能保证重要特征的捕捉,又不会带来过大的计算负担。在实际应用中,系统会先从全部点中随机选择1/10,然后从这些点中选择曲率最高的1/3作为最终的关键点。
六、消融实验:验证每个组件的重要性
为了证明ScoreLiDAR各个组件的必要性,研究团队进行了详细的消融实验。结果显示,如果移除整个结构化损失函数,性能会显著下降。在SemanticKITTI数据集上,Chamfer Distance会从0.342恶化到0.419,Jensen-Shannon Divergence从0.399恶化到0.430。
更细致的分析显示,场景级损失和点级损失都发挥着重要作用,但侧重点不同。场景级损失主要确保整体布局的准确性,而点级损失则负责保持关键特征的相对位置关系。两者缺一不可。
研究团队还测试了不同采样步数对性能的影响。虽然ScoreLiDAR在单步采样时速度最快(仅需1.1秒),但质量会有所下降。在4步和8步采样时,ScoreLiDAR能够在速度和质量之间达到很好的平衡,这也是推荐的使用配置。
七、实际应用前景:自动驾驶的重要推进
ScoreLiDAR的成功不仅仅是学术上的突破,更重要的是它为自动驾驶技术的实际应用带来了实质性改进。在自动驾驶系统中,激光雷达数据的实时处理能力直接关系到车辆的安全性和可靠性。
传统的扩散模型虽然能够生成高质量的完整场景,但30多秒的处理时间显然无法满足实时性要求。相比之下,ScoreLiDAR的5秒处理时间已经接近实用阈值,特别是在结合其他传感器数据的多模态感知系统中,这种速度提升的价值更加明显。
更重要的是,ScoreLiDAR生成的完整场景能够帮助自动驾驶系统更准确地识别和理解周围环境。在一些关键场景中,比如车辆被建筑物遮挡、行人部分隐藏在其他物体后面等情况下,完整的场景信息能够显著提升系统的感知能力和决策质量。
研究团队展示的定性结果也很有说服力。在一个典型案例中,原始LiDAR扫描显示某个区域只有一辆车,但ScoreLiDAR补全后的场景正确识别出了两辆车,这与真实场景完全吻合。这种差异在实际驾驶中可能意味着避免事故与否的区别。
八、技术局限与未来发展
尽管ScoreLiDAR取得了显著成功,研究团队也坦诚地指出了一些局限性。首先,该方法的性能很大程度上依赖于教师模型的质量。如果教师模型本身存在偏差或不足,学生模型也会继承这些问题。
其次,在某些情况下,ScoreLiDAR可能会出现"过度补全"的现象,即在本来不存在物体的区域生成额外的点。这主要是因为在预处理阶段,系统需要通过复制原始点来增加点云密度,如果复制倍数设置不当,就可能导致最终结果中出现多余的点。
从计算资源角度来看,虽然ScoreLiDAR的推理速度已经大幅提升,但训练过程仍然需要相当的计算资源。需要同时训练学生模型和辅助扩散模型,这在一定程度上增加了训练复杂度。
研究团队还指出,目前的方法主要专注于几何场景补全,虽然他们在补充材料中展示了语义场景补全的初步结果,但这方面还需要更深入的研究和优化。
九、与相关工作的比较分析
在激光雷达场景补全领域,现有方法主要分为几个类别。基于深度补全的方法试图恢复稀疏深度图,但往往受限于二维表示的局限性。基于有符号距离场(SDF)的方法使用体素网格表示场景,但容易因体素分辨率限制而丢失细节。
扩散模型的引入为该领域带来了革命性改变,特别是LiDiff等方法通过直接在点云上操作,避免了二维投影的信息损失。然而,这类方法的计算复杂度也相应增加,推理时间成为实际应用的主要瓶颈。
ScoreLiDAR通过知识蒸馏技术巧妙地解决了这个矛盾,既保持了扩散模型的高质量输出,又大幅提升了处理速度。与其他加速技术(如一致性模型、渐进式蒸馏等)相比,ScoreLiDAR专门针对三维点云场景的特点进行了优化,因此能够取得更好的效果。
研究团队与其他17个相关方法进行了详细对比,结果显示ScoreLiDAR在速度和质量的平衡上明显优于现有方案。特别值得注意的是,一些速度更快的传统方法(如LMSCNet)虽然处理时间只有0.4秒,但补全质量远低于ScoreLiDAR。
十、实验设置与评估指标解读
研究团队采用了严格的实验设置来确保结果的可靠性和可比性。他们使用SemanticKITTI数据集的序列00-07和09-10进行训练,序列08用于测试。对于KITTI-360数据集,他们在序列00上进行评估,但模型并未在KITTI-360上训练,这证明了方法的泛化能力。
在评估指标方面,研究团队选择了三个关键指标。Chamfer Distance衡量两个点集之间的相似度,通过计算每个点到另一个点集中最近点的距离来评估几何精度。Jensen-Shannon Divergence评估两个概率分布的相似性,能够反映补全场景与真实场景在统计特性上的一致性。Earth Mover's Distance则从另一个角度衡量点云分布的差异。
这些指标的选择很有针对性。Chamfer Distance主要关注局部精度,Jensen-Shannon Divergence关注全局分布,而Earth Mover's Distance则提供了另一个视角的验证。三个指标的综合表现能够全面反映方法的性能。
研究团队还引入了IoU(交并比)指标来评估场景占用情况,虽然这个指标主要适用于基于体素的方法,但仍能提供有价值的参考信息。在不同体素分辨率下的IoU结果显示,ScoreLiDAR在较低分辨率下表现良好,这与其基于点云的处理方式是一致的。
说到底,ScoreLiDAR代表了激光雷达场景补全技术的一个重要进步。它不仅解决了现有扩散模型速度慢的问题,还通过精心设计的结构化损失函数提升了补全质量。这种"又快又好"的特性使其具备了真正的实用价值。
对于自动驾驶行业来说,ScoreLiDAR的出现可能会加速相关技术的产业化进程。更快的处理速度意味着更低的计算成本和更好的实时性,这对于商业化部署至关重要。同时,更高的补全质量也意味着更安全、更可靠的感知系统。
当然,从实验室到实际应用还有一段路要走。研究团队已经开源了相关代码和模型,这将有助于学术界和工业界的进一步研究和改进。随着更多研究者的参与和更多实际场景的测试,ScoreLiDAR有望在未来的自动驾驶系统中发挥重要作用,让我们的道路交通变得更加安全智能。
Q&A
Q1:ScoreLiDAR比现有技术快多少?
A:ScoreLiDAR将激光雷达场景补全时间从30多秒缩短到约5秒,实现了超过5倍的速度提升。在SemanticKITTI数据集上从30.55秒降至5.37秒,在KITTI-360上从29.43秒降至5.14秒,同时补全质量还有所改善。
Q2:ScoreLiDAR的核心技术原理是什么?
A:ScoreLiDAR采用双向梯度指导机制和结构化损失函数。双向梯度指导让学生模型同时接受预训练教师模型和辅助模型的指导,结构化损失函数则专门针对三维点云的几何特性,包含场景级和点级两个层次的约束。
Q3:ScoreLiDAR在自动驾驶中有什么实际应用价值?
A:ScoreLiDAR能帮助自动驾驶汽车更快更准确地理解周围环境。5秒的处理时间接近实时应用要求,高质量的场景补全能让汽车更准确识别被遮挡的车辆、行人等关键目标,显著提升驾驶安全性。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.