TPAMI 2025重磅 | 清华、西电提出跨模态蒸馏方法，刷新多模态跟踪表现|实验|编码器|跟踪器|深度思考模型

TPAMI 2025重磅 | 清华、西电提出跨模态蒸馏方法，刷新多模态跟踪表现

分享至

作者单位：

清华大学、西安电子科技大学等

论文链接：

https://ieeexplore.ieee.org/abstract/document/10943265

简介

当前的多模态跟踪器通过复杂的骨干网络和融合策略实现了强劲性能，但这是以计算效率为代价的，限制了其在资源受限环境中的部署。另一方面，紧凑型多模态跟踪器虽具有更高效率，却常因特征表示能力有限而导致性能下降。为弥合紧凑型与复杂跟踪器之间的性能差距，提出了一种跨模态蒸馏框架。该框架包含互补感知掩码自编码器，通过选择性遮蔽单模态内的图像块来增强跨模态交互，从而迫使模型学习更鲁棒的多模态表示。此外，设计了特定-共性特征蒸馏模块，将模态特定信息和共享信息从强大模型的主干网络迁移至紧凑模型。还开发了多路径选择蒸馏模块，通过多路径机制指导简单融合模块从复杂融合策略中学习更精准的多模态信息。在六个多模态跟踪基准上的大量实验表明，所提出的轻量级跟踪器在保持高效性的同时，其性能超越了多数先进方法。

论文贡献

设计了首个基于Transformer的轻量级多模态跟踪器
提出CMD框架，通过知识蒸馏技术缩小教师模型与学生模型的性能差距。
在RGB-T、RGB-D、RGB-E三种多模态跟踪任务上验证了方法的有效性
最小版本仅用6.5M参数在RTX 2080Ti GPU上达到126 FPS，性能接近大型模型

研究动机

性能与效率矛盾：现有多模态跟踪器通过复杂的主干网络和融合策略获得强性能，但计算成本高、模型庞大，限制了在资源受限设备上的部署
轻量级模型性能不足：紧凑的多模态跟踪器虽然效率高，但由于特征表示能力有限，性能明显下降
知识转移效率低：现有知识蒸馏方法未深入研究教师模型和学生模型在单模态特征提取和多模态特征融合阶段的巨大差异

解决思路： 文中通过分析发现，将强大的Transformer多模态跟踪器（TBSI）逐步简化为紧凑模型时，参数从202M减少到6.2M，速度从32FPS提升到128FPS，但精度从70.5%下降到63.5%。因此提出了CMD框架来弥合这一性能差距。

论文方法概述

CMD框架通过四个阶段指导学生模型的学习过程：

图3. 采用的教师模型与学生模型架构。

教师模型：采用双流Transformer结构

双流主干网络提取单模态特征
多个跨模态交互模块探索互补信息
头网络进行目标定位和边界框回归

学生模型：采用早期融合结构

早期特征提取器（双流结构）
多模态特征融合模块
深层特征提取器（单流结构）
预测头网络

CMD框架

图6. 本文提出的CMD（跨模态蒸馏）框架概览。该框架致力于从四个阶段指导学生模型的学习过程：数据输入、特征提取、多模态特征融合和目标状态估计。

互补感知掩码自编码器（CAMAE）：采用ViT作为教师模型和学生模型的骨干网络。每个模态图像首先被分割成一组不重叠的小块，随后输入到Transformer编码器层中进行处理。为促进有意义的跨模态交互并从多模态数据中提取可靠信息，选择性地对单一模态中的图像块进行掩码处理。遵循标准token掩码方法，被遮蔽的图像块将由可学习的掩码 token向量替代。ViT中的自注意力机制能够同时实现特征提取和关系建模，有效捕获模板token与搜索区域token之间的空间依赖关系。教师模型中每个RGB模板 token计算如下：

特定-共同特征蒸馏（SCFD） ：该模块采用两阶段特征蒸馏机制，使学生模型中的轻量化特征提取模块能够从强大的教师模型中学习模态共性信息与模态特定信息（如图8所示）。首先对教师模型提取的单模态RGB特征与TIR特征进行跨模态交互处理，分别在网络不同层级突出模态共性信息与模态特定信息，以更好地指导学生模型学习。

图8. 提出的面向RGB模态的特定-共性特征蒸馏（SCFD）模块架构。E1-E12表示特征提取器中的Transformer编码器层，C1-C3代表教师模型中的跨模态交互层。该模块包含多个用于早期特征提取器的特定增强模块（SEMs）以及多个用于深度特征提取器的共性增强模块（CEMs）。面向TIR模态的SCFD模块采用与RGB模态相同的架构设计。

多路径选择蒸馏（MPSD）为更有效地学习教师模型中的互补信息探索能力，设计了多路径选择蒸馏（MPSD）模块。在从教师模型学习的过程中，学生模型可自适应优化路径以减小特征差异。以模板分支为例，首先计算学生模型融合特征与教师模型交互特征之间的融合蒸馏损失：

硬焦点响应蒸馏（HFRD）：为缓解数据不平衡问题，提出硬聚焦响应蒸馏（HFRD）模块，指导学生模型专注于从困难负样本中区分目标。首先，从教师模型获取响应图Rt ∈ RH×W。为防止教师模型在某些场景下未能对目标区域产生高响应值，采用基于真实边界框构建的高斯掩码Rg ∈ RH×W，按以下方式修正教师模型的响应图Rt：

步骤详细描述 Step 1: 教师模型训练

第一阶段 ：在大规模RGB数据集上预训练单模态跟踪网络
第二阶段 ：在特定多模态数据集上微调，激活跨模态交互模块

Step 2: 学生模型预训练

采用与教师模型相同的两阶段训练获得初始权重

Step 3: 知识蒸馏训练

其中：

：特定-共同特征蒸馏损失
：多路径选择蒸馏损失
：硬焦点响应蒸馏损失
：原始跟踪损失

Step 4: 模型剪枝

采用渐进式层级剪枝策略：

通过剪枝生成CMDTrack-T12、T9、T6、T4等不同参数规模的变体。

实验结果分析主要性能对比

效率对比分析

消融实验验证

融合结构对比 ：早期融合在性能和效率间达到最佳平衡
各模块贡献 ：CAMAE、SCFD、MPSD、HFRD均带来性能提升
教师模型影响 ：更强的教师模型带来更好的蒸馏效果
剪枝策略 ：渐进式剪枝在保持性能的同时大幅减少参数

应用验证

在真实场景中使用无人机和移动设备收集数据验证：

能在边缘设备上实时运行（首次实现基于Transformer的多模态跟踪器在边缘设备实时部署）
在遮挡、相机运动、低照度等挑战场景下保持准确跟踪

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.