IROS 2025 | 清华发布Griffin：空地协同检测与跟踪数据集基准|算法|鲁棒性|数据流|深度思考模型

分享至

尽管近年来自动驾驶技术取得了显著进展，但单一视角的感知方式始终存在固有的局限性，特别是在遮挡物体的识别以及远距离探测方面面临诸多困难。虽然车车协同与车路协同技术提供了可能的解决方案，但其实际部署仍需要大规模的路侧单元建设与高密度的网联车辆普及，面临巨大的经济成本挑战。

相较之下，空地协同感知通过整合无人机的全景视角与地面车辆的精细观测，在智慧城市、应急响应、安防巡逻等场景下具备可快速部署的独特优势。然而，该领域的发展长期受制于公开数据集及标准化评估基准的缺乏。为此，作者提出了一套空地协同3D感知的综合基线方案，包含对应的数据集、算法评估框架与基线模型，均已完整开源：

论文标题： Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark 论文链接： https://arxiv.org/abs/2503.06983 代码链接： https://github.com/wang-jh18-SVM/Griffin 数据集下载： https://huggingface.co/datasets/wjh-svm/Griffin

图1：Griffin数据集中标注的可视化示例。地面车辆平台搭载了四个摄像头和一个激光雷达，空中无人机平台则配备了五个摄像头。每个视角均同时提供了RGB图像、实例分割真值标注与3D目标标注。图中的边界框展示了协同视角下的3D目标标注，表明单个智能体需要通过协同信息观察到自身视角下被遮挡的物体。作者通过红色圆圈和箭头突出标注了这类情况。一、动机与背景

尽管前景广阔，但空地协同感知系统的开发仍面临两大核心挑战。首先是动态视角失配问题——相较于车车/车路协同中传感器在水平面的相对运动，无人机视角存在动态的垂直高度变化及更大幅度的俯仰角、滚转角变化，加剧了跨视角特征对齐的复杂度。其次，现有无人机视角的3D感知数据集质量普遍存在缺陷，如下表所示，主流无人机协同数据集如CoPerception-UAV、UAV3D和AeroCollab3D均未考虑目标遮挡分析，导致其标注包含不可见区域的目标框；此外，多数数据集采用过度简化的固定视角或固定高度设定，与真实数据中受风力扰动与加减速影响的无人机动态姿态变化存在显著差异。

表1：代表性协同感知数据集对比

"Cams (/Agent)"列表示每个智能体上的摄像头数量。"Occ-Aware"列表示仿真数据集是否标注了目标的遮挡情况。"Altitude"表示路侧传感器的安装高度或无人机的巡航高度。
在"Source"列中，"Joint Sim"指CARLA与AirSim/SUMO的联合仿真，而"Sim"表示仅使用CARLA。
†属性来自V2U-COO原始论文（其数据集尚未公开）。其中"Altitude"列的"80®&70(L)"分别表示左右无人机的固定高度。

针对这些挑战，本研究的核心贡献主要体现在三个方面：

（1）推出了首个面向空地协同3D检测与跟踪任务的开源数据集Griffin，包含200多个动态场景的近3万帧、27万张多视角图像，且覆盖了不同天气、时段和地图场景。该数据集实现了实例级遮挡量化标注，并模拟了真实无人机在不同高度、不同风速扰动下的动态飞行特性。

（2）提出了一套用于综合评估空地协同3D检测与跟踪性能的统一框架，在涵盖经典检测、跟踪算法评价指标的基础上，进一步包含了通信成本、时延鲁棒性和无人机飞行高度适应性等评价维度。

（3）提出了AGILE（Aerial-Ground Instance-LEvel intermediate fusion）基线模型，也是首个空地协同实例特征级融合框架，实现了检测跟踪任务的联合优化。该方法证明了空地协同的有效性，在通信成本与感知精度之间实现了有效平衡。相关成果均已完整开源，为后续空地协同感知研究提供了坚实支撑。

二、Griffin数据集介绍 2.1 数据采集框架

空地协同感知数据采集框架采用模块化架构设计，主要包含两个核心部分：服务器端和客户端。服务器端用于模拟真实世界的交通场景和环境，基于虚幻引擎4构建，并整合了CARLA和AirSim两大仿真平台。客户端采用Python开发，包含四个功能模块，分别负责交通控制、无人机路径规划、场景配置和传感器管理。整体框架详见图2。

考虑到实际应用场景下不同平台的承载能力，地面车辆平台同时配备了环视摄像头和激光雷达，无人机平台则只携带环视摄像头。两种平台的设计方案详见图3。

图2：数据采集框架。虚线表示静态数据流（用于场景初始化），实线表示动态数据流（每帧均进行传输）。

图3：协同单元设计 2.2 数据预处理

在Griffin数据集中，作者规定了统一的世界坐标系、自车坐标系、传感器坐标系和仿真器坐标系来实现空间对齐，并将仿真器生成的3D标注统一转换至指定的右手坐标系，并同时支持KITTI和NuScenes两种标准格式的数据。为了确保时间同步，数据采集时采用CARLA的同步模式保证各传感器数据的时间一致性，同时提供了评测接口模拟通信时延，以便评估算法在不同时延条件下的鲁棒性。不同坐标系的设定详见表2。

表2：不同坐标系的设定

xyz坐标轴方向：ENU (东-北-上), FLU (前-左-上), RDF (右-下-前), RD (右-下), ESU (东-南-上), NED (北-东-下)。
坐标系手性：R (右手系), L (左手系)。

在数据标注方面，作者为每帧数据提供了完整的3D标注信息，包含行人、车辆等六类交通目标的详细参数：类别标签、跟踪ID、可见度，以及由空间坐标、三维尺寸和旋转角度构成的边界框。

针对现有数据集普遍存在的遮挡判断问题，作者实现了一种结合实例分割真值的目标可见率计算方法。得益于CARLA仿真器提供的实例分割真值传感器接口，作者在数据采集过程中，采用相同的传感器内外参数设定，同步录制了视角一致的RGB图像数据与实例分割真值数据。后处理阶段，作者根据环境中各目标真值的位姿与尺寸信息，在其检测框范围内采样一定数量的散点，并将其投影到实例分割真值中，通过对比像素的语义类别和实例编号，判断采样点是否被遮挡，进而计算目标的可见率百分比。可见率较低的目标均被筛选剔除，并辅以人工优化，以确保标注结果的精度与可靠性。

2.3 数据统计分析

作者构建了包含205个场景片段的数据集，每个片段持续15秒，对应150帧图像数据，总计生成了超过30,000帧数据和近275,000张图像。为保证数据集的多样性和泛化能力，作者在CARLA模拟器中选取了Town03和Town10HD两个城市场景地图，以及Town06和Town07两个郊区场景地图，并通过多维度的环境变量增强了采集场景丰富度。如图4所示，天气条件覆盖正午、黄昏、夜晚不同时段，晴朗、雨天、雾天等多种能见度，以及0至9m/s的风速组合；不同测试场景间的交通流密度和车辆速度等参数也有所不同。

图4：天气条件分布

此外，为进一步支持不同场景的研究需求，作者根据无人机飞行高度将采集数据划分为三个子集：25米左右的低空数据Griffin-25m、40米左右的中低空数据Griffin-40m，以及20-60米的随机高度数据Griffin-Random。同时，数据集还包含了地面车辆与无人机的多种协作模式，构建了丰富的相对定位形态。以Griffin-Random子集为例，无人机相对于车辆的位姿分布如图5所示。

图5：Griffin-Random中无人机的位姿分布。(a) 相对于自车的水平位置；(b) 垂直位置分布；(c) 相对于地面的俯仰与侧倾角分布。 2.4 基线算法框架

作者实现了一系列基线方法以提供性能参考，并为后续研究奠定基础。如图6所示，现有的协同感知方法一般可以被分为前融合、中融合、后融合三类，分别针对不同视角下的图像输入、神经网络特征、结果输出三个层次的数据进行融合，本项研究对这三类范式均进行了实现，共同构成了研究空地协同感知任务的基线框架。

图6：协同感知的不同融合阶段

对于中融合，即特征级融合范式，现有的协同感知方法大多选择图6.2(a)所示的BEV特征作为融合的媒介，将来自不同视角的BEV特征进行空间对齐后，融合重叠覆盖区域的特征。这一范式在车车、车路协同等场景下表现良好，但是在空地协同场景下，由于无人机在飞行过程中会产生较大的动态俯仰与侧倾角，生成的BEV特征平面并不与真实地面相平行，对齐空地视角的BEV特征会非常困难。

因此，本项研究提出的AGILE方法采用图6.2(b)所示的实例级中融合范式。实例级的对象查询（instance query）由BEV特征进一步生成，每个查询包括编码目标语义、几何属性的特征向量与显式的3D空间参考点。这些查询通过空间注意力机制动态聚焦于场景中的潜在目标，提供细粒度的场景表征。相较于稠密的BEV特征，这些稀疏的实例查询更加易于进行跨视角对齐，也更适用于空地协同场景。

具体而言，AGILE中采用BEVFormer作为主干网络，生成两视角独立的BEV特征，并参考TrackFormer的设计，从BEV特征中分别生成两视角的实例查询。每个查询都会在时序多帧间传递、更新，对应于多帧间感知到的同一实例目标。每一帧都会初始化一部分新的实例，对应新感知到的目标；当目标脱离视野后，对应的查询也会被摧毁。因此，这一范式在特征层面完成了对于目标的跟踪，可以同步输出目标的检测结果与跟踪ID。

针对无人机视角，作者利用机身定位信息，首先估计无人机坐标系下地面的位置，并据此确定实例参考点的初始化位置。这些实例查询随后与无人机视角下维护的BEV特征交互，更新特征、参考点与置信度。随后，将置信度高于检测阈值的实例查询传输给地面视角。

在地面视角下，作者首先利用外参矩阵和相对位置信息，将来自无人机的实例查询参考点投影到车辆坐标系中，实现显式对齐。同时，借鉴UniV2X的隐式对齐方法，将查询特征与外参旋转矩阵拼接后输入三层MLP网络，以更新其特征表示。随后，结合参考点的欧氏距离与特征相似度，对两视角的查询进行跨视角匹配，将匹配成功的查询对送入另一个三层MLP进行特征融合；未匹配但置信度较高的查询也被保留，共同用于生成检测框和跟踪轨迹。最终，通过与真实轨迹对比计算损失，实现检测与跟踪的联合优化。

此外，作者还实现了如图6.1所示的前融合方法和图6.3所示的后融合方法作为对比基线。前融合方法在数据层面对无人机和地面车辆的原始图像进行整合，首先将无人机摄像头的外参转换到车辆坐标系下，实现空间对齐，随后将所有图像共同输入BEVFormer模型，生成统一的BEV特征。下游任务采用与AGILE相同的架构，实现联合检测与跟踪功能。而后融合方法采用独立处理流程，无人机和车辆图像分别通过BEVFormer模型生成各自的检测框，随后利用基于欧几里得距离的匈牙利算法对两视角检测结果进行匹配，实现跨视角融合。在跟踪阶段，采用AB3DMOT框架，利用卡尔曼滤波方法进行运动预测，利用匈牙利算法关联跨帧目标。

三、实验结果

作者在Griffin-25m、Griffin-40m和Griffin-Random数据集上按照8:2划定训练与验证集，在以自车为中心102.4m×102.4m的感知范围内评估协同感知算法的性能。实验结果表明，AGILE方法展现出了多方面的优势。表3整体展示了Griffin-25m数据集上不同方法在多种时延条件下的检测和跟踪性能。

表3：在Griffin-25m数据集上不同延迟条件下的检测与跟踪性能

在性能表现方面，协同算法显著优于单视角方法，验证了空地协同的有效性。在零延迟条件下，所有融合方法相比无融合方案均展现出了明显提升。其中，前融合方法实现了71.0%的检测AP提升和79.9%的跟踪AMOTA提升，但通信开销极大；后融合方法虽然仅提供3.0%的AP增益，但将通信成本降低了三个数量级；而AGILE方法在保持高效通信的同时，仍取得12.6%的检测AP提升和19.8%的跟踪AMOTA提高。综合而言，AGILE方法在检测和跟踪任务中都较好地平衡了性能与通信传输数据量，体现了实例级融合对时序关联的强化作用。

在通信时延方面，尽管前融合在每个时延条件下均保持最高精度，但其性能下降幅度最为显著——在400毫秒延迟时AP下降33.6%，AMOTA下降36.0%。AGILE与后融合的性能下降百分比相近，但在所有延迟条件下AGILE的精度始终优于后融合。这表明AGILE在时延干扰下的鲁棒性更强，更适合实际场景中的动态通信环境。

表4：不同无人机飞行高度数据集下的检测与跟踪性能表现。括号内数值表示相较无融合方法的相对提升幅度。比较同一类协同方法在不同数据集上的指标相对提升幅度，可反映其对无人机高度变化的鲁棒性。

在飞行高度适应性方面，作者对比了不同无人机飞行高度下算法的检测与跟踪性能，结果如表4所示。可以发现协同感知方法对无人机高度变化较为敏感，在不同飞行高度下存在显著性能差异。在Griffin-25m数据集上，协同方法相比无融合基线取得最大提升；当高度升至40米（Griffin-40m）时，无人机视角下目标尺度缩小，导致协同性能明显下降；而在20-60米随机高度（Griffin-Random）场景中，由于不同数据帧中目标尺度、距离极不一致，跨视角对齐失效，实例融合与后融合方法的表现甚至不如无融合基线。这些发现凸显了开发自适应融合机制以应对动态高度变化的迫切需求。

四、结论与展望

本项研究提出了一个面向空地协同3D检测与跟踪的综合框架。实验验证了协同感知的有效性，但也揭示了当前方法的局限性，如应对无人机高度变化的泛化能力不足、通信带宽需求与感知性能的权衡问题等。未来研究可重点探索自适应无人机飞行高度与目标尺度的动态融合机制以及仿真到现实的迁移技术，以提升空地协同感知在复杂现实场景中的鲁棒性。

来源：公众号【CVer】

llustration From IconScout By Nadya Fedrunova

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.