信息工程大学联合中山大学发布RTPSeg数据集：首次引入热红外图像用于3D语义分割|点云|模态

分享至

RTPSeg充分验证了热红外图像在夜间和复杂光照条件下对3D语义分割的显著提升作用。

论文地址：https://doi.org/10.1016/j.isprsjprs.2026.01.008

项目开源地址：https://github.com/sssssyf/RTPSeg

在地面各类移动平台感知系统中，LiDAR点云语义分割是理解复杂道路环境的关键任务。然而，点云本身稀疏、缺乏纹理信息，使得单模态点云语义分割方法在复杂场景中表现受限。

过去，业界普遍采用可见光图像辅助3D语义分割，利用图像中的颜色和纹理信息来提升系统感知能力。但当强光、眩光、逆光、微光、无光等光照恶劣条件出现时，可见光图像的优势将迅速消失，多模态3D感知模型的稳定性难以保证。

比如在夜间城市道路上，车辆大灯直射下，可见光图像中行人或车辆轮廓模糊，色彩信息几乎丢失；又比如在黄昏或隧道出入口，光线剧烈变化，可见光传感器容易出现曝光过度或不足，导致关键目标难以识别。

在这种背景下，热红外图像因其对温度敏感、不受光照变化影响、稳定提供热辐射信息的特性，成为当前3D感知研究中极具潜力的补充模态。然而，行业内始终缺乏一个同时提供可见光、热红外图像和点云数据并用于3D语义分割的专用数据集，相关研究难以开展。

针对这一研究空白，信息工程大学联合中山大学在ISPRS J. P&RS上发表的工作《RTPSeg: A Multi-Modality Dataset for LiDAR Point Cloud Semantic Segmentation Assisted with 可见光-Thermal Images in Autonomous Driving》，首次构建了同时包含可见光图像、热红外图像和激光点云的3D语义分割数据集，并在此基础上提出了多模态融合基线模型RTPSegNet，在昼夜混合的测试场景中取得了70.07%的mIoU，显著超越了现有先进的LiDAR-only和可见光-LiDAR融合方法。

更重要的是，实验充分验证了热红外图像在夜间和复杂光照条件下对3D语义分割的显著提升作用，为如何提高地面移动系统全天候多模态3D感知的可靠性提供了重要借鉴。

行业痛点：当可见光图像失效时，多模态融合3D感知如何“睁眼”？

尽管热红外图像在捕捉颜色和纹理信息方面效果较差，但其可以提供场景中的热辐射信息，并突出表面温度高于周围环境的目标，在不同的光照条件下保持稳定的性能，因此对于道路环境感知具有重要意义。

近年来，热红外图像越来越多地被用作补充数据来处理复杂的城市驾驶场景，许多研究推动可见光-热红外图像融合的2D语义分割快速发展。尽管KAIST数据集同时提供可见光-热红外图像和点云以应对复杂场景，但其设计仅针对2D目标检测任务。

因此，KAIST只包含图像中运动目标的2D标注，没有纳入点云分析所需的3D标签。因此，集成热红外图像对于3D感知任务的有效性仍未得到验证。

早期的基于车载移动激光扫描系统的3D语义分割数据集通常是单模态数据集，仅包含点云，且不区分白天和夜晚场景。由于单模态传感器的固有局限性，研究人员从2019年开始关注构建多模态数据集，且通常包含由多个传感器采集的数据，如激光雷达、可见光相机、毫米波雷达和IMU等。KITTI是自动驾驶领域的开创性多模态数据集。

2019年，KITTI团队为KITTI提供了点级语义标注，并发布了SemanticKITTI数据集，标志着多模态3D语义分割研究的开端。

SemanticKITTI以39.2公里的采集数据和45亿个点的标注极大扩展了多模态3D语义分割数据集规模，但它只包含白天场景。nuScenes是另一个代表性的大规模多模态数据集，也是第一个携带自动驾驶车辆完整传感器套件的数据集，包括6个可见光相机、5个毫米波雷达和1个激光雷达。

此外，nuScenes还提供了具有挑战性的场景，具有复杂的光照条件，如夜间和雨天场景。随后的Waymo Open数据集在采集规模上与nuScenes相当，但标注频率高出五倍，从而进一步扩展了训练集的规模。近年来，这些国外知名厂商发布的具有显著影响力的自动驾驶多模态数据集通过利用额外的模态（主要是可见光图像）极大地推动了多模态3D语义分割的进展。

然而，由于可见光相机在恶劣光照条件下的固有缺陷，当前的多模态3D语义分割方法在复杂场景中仍然存在一定的局限性。因此，尽管热红外图像能够在恶劣光照条件下有效弥补可见光图像质量退化挑战，但行业内始终缺乏一个同时提供可见光、热红外图像和点云数据并用于3D语义分割的专用数据集，导致相关研究难以开展。

综上，RTPSeg是首个同时包含可见光图像、热红外图像与激光点云的3D语义分割数据集。虽然RTPSeg在规模上无法与SemanticKITTI、nuScenes和Waymo等国际知名数据集相媲美，但它填补了专用数据集的空白，并确立了一个新颖的多模态3D语义分割基准。

RTPSeg：首个用于自动驾驶感知研究的可见光图像-热红外图像-激光点云3D语义分割分据集

2.1 数据采集平台与传感器

研究团队搭建了一套专用的多传感器车载数据获取平台，同时集成了多个传感器：

所有传感器经过精确的时空同步，对可见光相机与热红外相机进行联合标定，利用IMU对LiDAR点云进行运动畸变校正，并以10Hz的LiDAR帧率为基准，匹配最近的图像帧，最终实现每个LiDAR点在可见光图像和热红外图像上的亚像素级投影对齐。

2.2 采集路线与场景分布

数据采集于中国广东省深圳市光明区，涵盖两种典型环境：

城区：约5.3公里，商业区与居民区混合，行人和车辆密度高，道路情况复杂。

村镇：约6.0公里，工业区和乡村住宅为主，道路较规整，车流稀疏。

每条路线均分别在白天（10:00–18:00）和夜晚（20:00–22:00）采集，总采集里程约22公里，形成103个数据序列，每个序列包括30连续帧，共计超过3000个同步多模态数据帧。

2.3 标注类别与统计

团队利用半自动标注工具对每一帧点云进行逐点语义标注，标注后再人工检查，涵盖城市环境中常见的18个语义类别目标：

移动目标：行人、骑行者、摩托车骑手、自行车、摩托车、汽车、卡车、公交车；

道路设施：行车道、人行道、路沿、围栏、交通护栏；

静态目标：建筑、高植被、低植被、杆状物、交通标志、交通灯。

其他：未标注目标（忽略）

总标注点数超过2.4亿，类别分布存在显著长尾效应。例如，“自行车”和“骑行者”点数占比均低于0.1%，而“行车道”和“高植被”占比分别达到30.32%和25.15%。这种天然的类别分布不平衡性为算法鲁棒性提出严峻挑战。

RTPSegNet：可见光图像-热红外图像-激光点云三模态融合，

推理时无图像模态输入负担

为了验证RTPSeg数据集的有效性，团队提出一个基线模型RTPSegNet。

训练：充分利用LiDAR点云、可见光图像、热红外图像三种模态互补信息。

推理：仅保留LiDAR点云分支，不再需要任何图像模态输入，避免了传感器视角差异挑战，同时提高推理效率。

3.1 独立模态分支

LiDAR点云分支：采用SPVCNN架构，利用稀疏点-体素卷积操作在精度和效率之间取得平衡，提取多尺度点云特征。
可见光图像分支：使用在ImageNet上预训练的ResNet34，提取原始分辨率逐像素特征。
热红外图像分支：采用独立且相同的ResNet34结构，将单通道热红外图像复制三通道后得到的伪三通道图像作为输入。

3.2 可见光图像-热红外图像-激光点云融合分支

由于可见光相机与热红外相机的视场角、空间分辨率不同，难以直接进行像素级融合，RTPSegNet巧妙利用投影点作为三模态融合的中间桥梁：

1. 通过标定参数，将每个三维点分别投影到可见光图像和热红外图像上，得到对应的2D像素坐标。

2. 利用三个传感器FoV重叠覆盖区域的三维点，提取对应的点特征、可见光像素特征、热红外像素特征。

3. 对三个特征分别经过MLP投影到同一特征空间后拼接，得到融合特征。

4. 设计自适应门控融合模块，能够根据变化场景动态调整不同模态特征的贡献：，

3.3 辅助预测分支

多模态融合过程只能发生在重叠点，融合后的特征经过多模态增强后更具判别力。为了让所有点云都能获得这种能力，RTPSegNet引入了知识蒸馏损失:

即让LiDAR分支的预测分布去模仿和逼近多模态融合分支的预测分布，实现多模态融合知识的迁移，迫使LiDAR分支即使在没有图像输入时也能拥有接近多模态融合分支的预测能力。因此，结合蒸馏损失函数，最终的总损失函数为：

实验验证：RTPSegNet刷新性能SOTA

4.1 实验设置

RTPSeg划分为白天训练集（50个序列）、白天测试集（5个序列）、夜晚训练集（44个序列）、夜晚测试集（4个序列），以及混合场景训练集（94个序列）、混合场景测试集（9个序列）。

4.2 RTPSegNet的不同版本在不同场景上的表现对比

关键结论：

1. 热红外图像增益的效果不止体现在夜晚，在白天仍然能作为3D感知的关键补充模态。

2. 三模态融合使夜间mIoU从61.60提升至63.05，提升幅度1.45%，是所有场景中绝对提升最高的，这表明热红外图像对弱光环境的补强作用具有重要价值。

4.3 RTPSegNet与SOTA方法的在RTPSeg混合场景上的表现对比

PTv3使用TTA测试增强技术可以在RTPSeg混合场景上达到70.45%的mIoU，但推理延迟高达478ms，无法满足延迟敏感需求。而RTPSegNet在53ms的延迟下达到70.07%，首次在实时性约束内实现了超越先进LiDAR-only和RGB-LiDAR融合方法，证明了热红外模态加入的特别优势以及多模态训练+轻量化推理路线的重要潜力。

为分析学习到特征的有效性，团队利用训练好的RTPSegNet对应分支从可见光图像和热红外图像中提取高维特征，并通过PCA对其进行可视化。可见光图像和热红外图像特征在特征空间中表现出特定于光照条件的显著差异。

夜间时，热红外图像特征在保持目标结构完整性方面优于可见光图像特征。在白天有利的光照条件下，可见光图像特征表现出的同质性保持和边缘细节保真度方面都更优。相比之下，热红外图像特征在白天更容易受到目标表面温度的热干扰，导致特定目标的表示模糊。

研究意义与展望：热红外传感器补齐全天候多模态3D感知关键短板

这项研究的意义在于：

1. 首次将热红外图像系统性地引入3D点云语义分割，为全天候自动驾驶感知提供了全新数据基础，RTPSeg填补的数据空白将催生一个极具潜力的研究方向。

2. 验证了热红外图像在各类场景上对于3D感知的重要作用，其贡献甚至超过可见光图像，打破了“图像辅助就是可见光图像辅助”的固有认知。

3.提出了一个高效、可部署的多模态融合框架RTPSegNet，训练时利用多模态，推理时回归单模态，兼顾精度与实时性。

未来，团队计划在多个待拓展方向继续做出努力：

更多标注任务：目前仅有3D语义分割标注，未来将增加3D检测框、实例分割、轨迹预测等标注，使数据集支持更广泛的自动驾驶相关任务。

恶劣天气场景：目前仅采集了晴天和阴天的昼夜数据，未来会加入雨、雪、雾、霾等极端天气，进一步挑战多模态感知系统的鲁棒性。

更多传感器融合：计划加装毫米波雷达，探索毫米波雷达+热红外相机+可见光相机+LiDAR的超多模态融合方案。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.