网易首页 > 网易号 > 正文 申请入驻

TPAMI 2025重磅 | 清华、西电提出跨模态蒸馏方法,刷新多模态跟踪表现

0
分享至


作者单位:

清华大学、西安电子科技大学等

论文链接:

https://ieeexplore.ieee.org/abstract/document/10943265

简介

当前的多模态跟踪器通过复杂的骨干网络和融合策略实现了强劲性能,但这是以计算效率为代价的,限制了其在资源受限环境中的部署。另一方面,紧凑型多模态跟踪器虽具有更高效率,却常因特征表示能力有限而导致性能下降。为弥合紧凑型与复杂跟踪器之间的性能差距,提出了一种跨模态蒸馏框架。该框架包含互补感知掩码自编码器,通过选择性遮蔽单模态内的图像块来增强跨模态交互,从而迫使模型学习更鲁棒的多模态表示。此外,设计了特定-共性特征蒸馏模块,将模态特定信息和共享信息从强大模型的主干网络迁移至紧凑模型。还开发了多路径选择蒸馏模块,通过多路径机制指导简单融合模块从复杂融合策略中学习更精准的多模态信息。在六个多模态跟踪基准上的大量实验表明,所提出的轻量级跟踪器在保持高效性的同时,其性能超越了多数先进方法。

论文贡献

  • 设计了首个基于Transformer的轻量级多模态跟踪器

  • 提出CMD框架,通过知识蒸馏技术缩小教师模型与学生模型的性能差距。

  • 在RGB-T、RGB-D、RGB-E三种多模态跟踪任务上验证了方法的有效性

  • 最小版本仅用6.5M参数在RTX 2080Ti GPU上达到126 FPS,性能接近大型模型

研究动机
  1. 性能与效率矛盾:现有多模态跟踪器通过复杂的主干网络和融合策略获得强性能,但计算成本高、模型庞大,限制了在资源受限设备上的部署

  2. 轻量级模型性能不足:紧凑的多模态跟踪器虽然效率高,但由于特征表示能力有限,性能明显下降

  3. 知识转移效率低:现有知识蒸馏方法未深入研究教师模型和学生模型在单模态特征提取和多模态特征融合阶段的巨大差异

解决思路: 文中通过分析发现,将强大的Transformer多模态跟踪器(TBSI)逐步简化为紧凑模型时,参数从202M减少到6.2M,速度从32FPS提升到128FPS,但精度从70.5%下降到63.5%。因此提出了CMD框架来弥合这一性能差距。

论文方法概述

CMD框架通过四个阶段指导学生模型的学习过程:



图3. 采用的教师模型与学生模型架构。

教师模型:采用双流Transformer结构

  • 双流主干网络提取单模态特征

  • 多个跨模态交互模块探索互补信息

  • 头网络进行目标定位和边界框回归

学生模型:采用早期融合结构

  • 早期特征提取器(双流结构)

  • 多模态特征融合模块

  • 深层特征提取器(单流结构)

  • 预测头网络

CMD框架


图6. 本文提出的CMD(跨模态蒸馏)框架概览。该框架致力于从四个阶段指导学生模型的学习过程:数据输入、特征提取、多模态特征融合和目标状态估计。

互补感知掩码自编码器(CAMAE):采用ViT作为教师模型和学生模型的骨干网络。每个模态图像首先被分割成一组不重叠的小块,随后输入到Transformer编码器层中进行处理。为促进有意义的跨模态交互并从多模态数据中提取可靠信息,选择性地对单一模态中的图像块进行掩码处理。遵循标准token掩码方法,被遮蔽的图像块将由可学习的掩码 token向量替代。ViT中的自注意力机制能够同时实现特征提取和关系建模,有效捕获模板token与搜索区域token之间的空间依赖关系。教师模型中每个RGB模板 token计算如下:


特定-共同特征蒸馏(SCFD) :该模块采用两阶段特征蒸馏机制,使学生模型中的轻量化特征提取模块能够从强大的教师模型中学习模态共性信息与模态特定信息(如图8所示)。首先对教师模型提取的单模态RGB特征与TIR特征进行跨模态交互处理,分别在网络不同层级突出模态共性信息与模态特定信息,以更好地指导学生模型学习。


图8. 提出的面向RGB模态的特定-共性特征蒸馏(SCFD)模块架构。E1-E12表示特征提取器中的Transformer编码器层,C1-C3代表教师模型中的跨模态交互层。该模块包含多个用于早期特征提取器的特定增强模块(SEMs)以及多个用于深度特征提取器的共性增强模块(CEMs)。面向TIR模态的SCFD模块采用与RGB模态相同的架构设计。

多路径选择蒸馏(MPSD)为更有效地学习教师模型中的互补信息探索能力,设计了多路径选择蒸馏(MPSD)模块。在从教师模型学习的过程中,学生模型可自适应优化路径以减小特征差异。以模板分支为例,首先计算学生模型融合特征与教师模型交互特征之间的融合蒸馏损失:

硬焦点响应蒸馏(HFRD): 为缓解数据不平衡问题,提出硬聚焦响应蒸馏(HFRD)模块,指导学生模型专注于从困难负样本中区分目标。首先,从教师模型获取响应图Rt ∈ RH×W。为防止教师模型在某些场景下未能对目标区域产生高响应值,采用基于真实边界框构建的高斯掩码Rg ∈ RH×W,按以下方式修正教师模型的响应图Rt:


步骤详细描述 Step 1: 教师模型训练


  1. 第一阶段 :在大规模RGB数据集上预训练单模态跟踪网络

  2. 第二阶段 :在特定多模态数据集上微调,激活跨模态交互模块

Step 2: 学生模型预训练

采用与教师模型相同的两阶段训练获得初始权重

Step 3: 知识蒸馏训练

其中:

  • :特定-共同特征蒸馏损失

  • :多路径选择蒸馏损失

  • :硬焦点响应蒸馏损失

  • :原始跟踪损失

Step 4: 模型剪枝

采用渐进式层级剪枝策略:

通过剪枝生成CMDTrack-T12、T9、T6、T4等不同参数规模的变体。

实验结果分析 主要性能对比


效率对比分析


消融实验验证

  1. 融合结构对比 :早期融合在性能和效率间达到最佳平衡

  2. 各模块贡献 :CAMAE、SCFD、MPSD、HFRD均带来性能提升

  3. 教师模型影响 :更强的教师模型带来更好的蒸馏效果

  4. 剪枝策略 :渐进式剪枝在保持性能的同时大幅减少参数


应用验证

在真实场景中使用无人机和移动设备收集数据验证:

  • 能在边缘设备上实时运行(首次实现基于Transformer的多模态跟踪器在边缘设备实时部署)

  • 在遮挡、相机运动、低照度等挑战场景下保持准确跟踪


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-0横扫!巴萨重登榜首,2亿先生破门,争冠太激烈:前2只差1分

3-0横扫!巴萨重登榜首,2亿先生破门,争冠太激烈:前2只差1分

足球狗说
2026-01-26 01:12:28
多地将器官捐献纳入“见义勇为”评定,专家称概念扩展需审慎

多地将器官捐献纳入“见义勇为”评定,专家称概念扩展需审慎

澎湃新闻
2026-01-24 22:55:05
已有6地将器官捐献纳入"见义勇为"评定 专家提醒

已有6地将器官捐献纳入"见义勇为"评定 专家提醒

看看新闻Knews
2026-01-25 13:21:04
金饰价格大涨,女子拿出了2年前送给妈妈的古法金戒,锈迹般变色,锉开竟露出银色:“声音像铁的一样清脆”

金饰价格大涨,女子拿出了2年前送给妈妈的古法金戒,锈迹般变色,锉开竟露出银色:“声音像铁的一样清脆”

台州交通广播
2026-01-25 18:15:36
央视紧急曝光:克百威喷菜,大量流入武汉昆明郑州!

央视紧急曝光:克百威喷菜,大量流入武汉昆明郑州!

老特有话说
2026-01-25 23:09:49
马晓春撰文喷某记者形象猪头巴脑 称若参加聂老葬礼感冒了谁管我?

马晓春撰文喷某记者形象猪头巴脑 称若参加聂老葬礼感冒了谁管我?

劲爆体坛
2026-01-25 08:50:26
家长的控制欲能有多变态?网友:隔着屏幕都能感觉到这种窒息

家长的控制欲能有多变态?网友:隔着屏幕都能感觉到这种窒息

带你感受人间冷暖
2026-01-23 00:15:05
致死率75%!无药可救!印度突发人传人病毒!WHO拉响最高警报……

致死率75%!无药可救!印度突发人传人病毒!WHO拉响最高警报……

趣味探索
2026-01-25 22:08:12
游客自称爬衡山时脖子上80克金牌遗失,价值超10万元,警方上山帮助寻找

游客自称爬衡山时脖子上80克金牌遗失,价值超10万元,警方上山帮助寻找

极目新闻
2026-01-25 17:45:03
为啥城里的麻雀越来越少?而斑鸠却越来越多?两者之间有啥关系吗

为啥城里的麻雀越来越少?而斑鸠却越来越多?两者之间有啥关系吗

向航说
2026-01-24 00:45:03
大冷门!勇士26分打爆西部劲旅:库里迎里程碑,爱德华兹难救主

大冷门!勇士26分打爆西部劲旅:库里迎里程碑,爱德华兹难救主

体坛小李
2026-01-26 09:16:20
三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

博士观察
2026-01-25 20:18:40
魔笛助攻铁卫处子球,AC米兰1-1罗马,国米三喜临门成最大赢家

魔笛助攻铁卫处子球,AC米兰1-1罗马,国米三喜临门成最大赢家

钉钉陌上花开
2026-01-26 05:40:44
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
基辛格预言成真?美国四度击垮“老二”,中国成为第五个反杀者?

基辛格预言成真?美国四度击垮“老二”,中国成为第五个反杀者?

芳芳历史烩
2026-01-25 21:44:21
皇马的痛:5-2,19岁恩德里克闪耀法甲:上演帽子戏法,率队逼近前三

皇马的痛:5-2,19岁恩德里克闪耀法甲:上演帽子戏法,率队逼近前三

侧身凌空斩
2026-01-26 04:46:43
恩比德:不知为何在球员介绍时不再提我的绰号“The Process”

恩比德:不知为何在球员介绍时不再提我的绰号“The Process”

懂球帝
2026-01-26 08:05:08
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

元哥说历史
2026-01-23 09:30:03
雷军无奈宣布:全部下架!

雷军无奈宣布:全部下架!

电动知家
2026-01-25 15:31:25
2026-01-26 09:48:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5320文章数 64599关注度
往期回顾 全部

科技要闻

三星闪存,涨价100%

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

头条要闻

牛弹琴:特朗普非常难过 发文祈祷"中国别接管加拿大"

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

现货黄金历史首次突破5000美元

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
家居
健康
亲子
公开课

艺术要闻

你能在5秒内认出这18个字吗?看看专家怎么说!

家居要闻

在家度假 160平南洋混搭宅

耳石脱落为何让人天旋地转+恶心?

亲子要闻

小孩哥:我的天真还是被无鞋打败了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版