网易首页 > 网易号 > 正文 申请入驻

TPAMI 2025重磅 | 清华、西电提出跨模态蒸馏方法,刷新多模态跟踪表现

0
分享至


作者单位:

清华大学、西安电子科技大学等

论文链接:

https://ieeexplore.ieee.org/abstract/document/10943265

简介

当前的多模态跟踪器通过复杂的骨干网络和融合策略实现了强劲性能,但这是以计算效率为代价的,限制了其在资源受限环境中的部署。另一方面,紧凑型多模态跟踪器虽具有更高效率,却常因特征表示能力有限而导致性能下降。为弥合紧凑型与复杂跟踪器之间的性能差距,提出了一种跨模态蒸馏框架。该框架包含互补感知掩码自编码器,通过选择性遮蔽单模态内的图像块来增强跨模态交互,从而迫使模型学习更鲁棒的多模态表示。此外,设计了特定-共性特征蒸馏模块,将模态特定信息和共享信息从强大模型的主干网络迁移至紧凑模型。还开发了多路径选择蒸馏模块,通过多路径机制指导简单融合模块从复杂融合策略中学习更精准的多模态信息。在六个多模态跟踪基准上的大量实验表明,所提出的轻量级跟踪器在保持高效性的同时,其性能超越了多数先进方法。

论文贡献

  • 设计了首个基于Transformer的轻量级多模态跟踪器

  • 提出CMD框架,通过知识蒸馏技术缩小教师模型与学生模型的性能差距。

  • 在RGB-T、RGB-D、RGB-E三种多模态跟踪任务上验证了方法的有效性

  • 最小版本仅用6.5M参数在RTX 2080Ti GPU上达到126 FPS,性能接近大型模型

研究动机
  1. 性能与效率矛盾:现有多模态跟踪器通过复杂的主干网络和融合策略获得强性能,但计算成本高、模型庞大,限制了在资源受限设备上的部署

  2. 轻量级模型性能不足:紧凑的多模态跟踪器虽然效率高,但由于特征表示能力有限,性能明显下降

  3. 知识转移效率低:现有知识蒸馏方法未深入研究教师模型和学生模型在单模态特征提取和多模态特征融合阶段的巨大差异

解决思路: 文中通过分析发现,将强大的Transformer多模态跟踪器(TBSI)逐步简化为紧凑模型时,参数从202M减少到6.2M,速度从32FPS提升到128FPS,但精度从70.5%下降到63.5%。因此提出了CMD框架来弥合这一性能差距。

论文方法概述

CMD框架通过四个阶段指导学生模型的学习过程:



图3. 采用的教师模型与学生模型架构。

教师模型:采用双流Transformer结构

  • 双流主干网络提取单模态特征

  • 多个跨模态交互模块探索互补信息

  • 头网络进行目标定位和边界框回归

学生模型:采用早期融合结构

  • 早期特征提取器(双流结构)

  • 多模态特征融合模块

  • 深层特征提取器(单流结构)

  • 预测头网络

CMD框架


图6. 本文提出的CMD(跨模态蒸馏)框架概览。该框架致力于从四个阶段指导学生模型的学习过程:数据输入、特征提取、多模态特征融合和目标状态估计。

互补感知掩码自编码器(CAMAE):采用ViT作为教师模型和学生模型的骨干网络。每个模态图像首先被分割成一组不重叠的小块,随后输入到Transformer编码器层中进行处理。为促进有意义的跨模态交互并从多模态数据中提取可靠信息,选择性地对单一模态中的图像块进行掩码处理。遵循标准token掩码方法,被遮蔽的图像块将由可学习的掩码 token向量替代。ViT中的自注意力机制能够同时实现特征提取和关系建模,有效捕获模板token与搜索区域token之间的空间依赖关系。教师模型中每个RGB模板 token计算如下:


特定-共同特征蒸馏(SCFD) :该模块采用两阶段特征蒸馏机制,使学生模型中的轻量化特征提取模块能够从强大的教师模型中学习模态共性信息与模态特定信息(如图8所示)。首先对教师模型提取的单模态RGB特征与TIR特征进行跨模态交互处理,分别在网络不同层级突出模态共性信息与模态特定信息,以更好地指导学生模型学习。


图8. 提出的面向RGB模态的特定-共性特征蒸馏(SCFD)模块架构。E1-E12表示特征提取器中的Transformer编码器层,C1-C3代表教师模型中的跨模态交互层。该模块包含多个用于早期特征提取器的特定增强模块(SEMs)以及多个用于深度特征提取器的共性增强模块(CEMs)。面向TIR模态的SCFD模块采用与RGB模态相同的架构设计。

多路径选择蒸馏(MPSD)为更有效地学习教师模型中的互补信息探索能力,设计了多路径选择蒸馏(MPSD)模块。在从教师模型学习的过程中,学生模型可自适应优化路径以减小特征差异。以模板分支为例,首先计算学生模型融合特征与教师模型交互特征之间的融合蒸馏损失:

硬焦点响应蒸馏(HFRD): 为缓解数据不平衡问题,提出硬聚焦响应蒸馏(HFRD)模块,指导学生模型专注于从困难负样本中区分目标。首先,从教师模型获取响应图Rt ∈ RH×W。为防止教师模型在某些场景下未能对目标区域产生高响应值,采用基于真实边界框构建的高斯掩码Rg ∈ RH×W,按以下方式修正教师模型的响应图Rt:


步骤详细描述 Step 1: 教师模型训练


  1. 第一阶段 :在大规模RGB数据集上预训练单模态跟踪网络

  2. 第二阶段 :在特定多模态数据集上微调,激活跨模态交互模块

Step 2: 学生模型预训练

采用与教师模型相同的两阶段训练获得初始权重

Step 3: 知识蒸馏训练

其中:

  • :特定-共同特征蒸馏损失

  • :多路径选择蒸馏损失

  • :硬焦点响应蒸馏损失

  • :原始跟踪损失

Step 4: 模型剪枝

采用渐进式层级剪枝策略:

通过剪枝生成CMDTrack-T12、T9、T6、T4等不同参数规模的变体。

实验结果分析 主要性能对比


效率对比分析


消融实验验证

  1. 融合结构对比 :早期融合在性能和效率间达到最佳平衡

  2. 各模块贡献 :CAMAE、SCFD、MPSD、HFRD均带来性能提升

  3. 教师模型影响 :更强的教师模型带来更好的蒸馏效果

  4. 剪枝策略 :渐进式剪枝在保持性能的同时大幅减少参数


应用验证

在真实场景中使用无人机和移动设备收集数据验证:

  • 能在边缘设备上实时运行(首次实现基于Transformer的多模态跟踪器在边缘设备实时部署)

  • 在遮挡、相机运动、低照度等挑战场景下保持准确跟踪


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇家马德里不理解,为什么阿隆索不愿意给巴西天才机会

皇家马德里不理解,为什么阿隆索不愿意给巴西天才机会

本泽体育
2026-01-27 18:11:26
去医院看病最尴尬的是什么?网友:外科医生的八卦听的最多

去医院看病最尴尬的是什么?网友:外科医生的八卦听的最多

解读热点事件
2025-12-22 00:05:11
2-1大冷门,联赛第20掀翻联赛第1,47岁兰帕德率队2连胜终结

2-1大冷门,联赛第20掀翻联赛第1,47岁兰帕德率队2连胜终结

侧身凌空斩
2026-01-27 07:15:45
爆:原中国移动集团董事长奚国华!

爆:原中国移动集团董事长奚国华!

通信头条
2026-01-26 22:07:15
丁威迪:我想为火箭效力,我的好友DFS在那,火箭能争夺冠军

丁威迪:我想为火箭效力,我的好友DFS在那,火箭能争夺冠军

懂球帝
2026-01-27 10:09:06
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
美专家:中国人不可怕,可怕的是他们买光刻机却不是用来生产芯片

美专家:中国人不可怕,可怕的是他们买光刻机却不是用来生产芯片

肖兹探秘说
2026-01-14 20:41:32
医生发现:天冷坚持戴帽子的人,用不了多久,身体或迎来5大变化

医生发现:天冷坚持戴帽子的人,用不了多久,身体或迎来5大变化

健康之光
2026-01-27 12:00:07
理想员工吐槽李想全员会:一句也听不懂,找罗永浩聊就行了……

理想员工吐槽李想全员会:一句也听不懂,找罗永浩聊就行了……

柴狗夫斯基
2026-01-27 11:05:56
炸锅!世界第一 10 号拒曼城铁心投曼联  9 年长约锁死转会?

炸锅!世界第一 10 号拒曼城铁心投曼联 9 年长约锁死转会?

澜归序
2026-01-27 06:50:21
江苏一婆婆打扮精致像未婚,儿媳羡慕不来:公公比我老公有实力

江苏一婆婆打扮精致像未婚,儿媳羡慕不来:公公比我老公有实力

唐小糖说情感
2026-01-25 00:08:43
“公立春,脱衣过年;母立春,春节冻哭”,2026年春节冷到哭吗?

“公立春,脱衣过年;母立春,春节冻哭”,2026年春节冷到哭吗?

岐黄传人孙大夫
2026-01-27 11:50:03
46岁前TVB女星自爆与男友相处近半年,对新欢赞不绝口疑暗踩前夫郭晋安

46岁前TVB女星自爆与男友相处近半年,对新欢赞不绝口疑暗踩前夫郭晋安

TVB剧评社
2026-01-27 20:32:54
知名女演员突发声明!剧方道歉:已开除涉事人员

知名女演员突发声明!剧方道歉:已开除涉事人员

乡野小珥
2026-01-27 07:48:21
四川省绵阳市委副书记、市长李云接受审查调查

四川省绵阳市委副书记、市长李云接受审查调查

界面新闻
2026-01-27 16:59:44
中超转会:上港寻莱昂纳多替身,泰山敲定U23国脚,海牛凑齐5外援

中超转会:上港寻莱昂纳多替身,泰山敲定U23国脚,海牛凑齐5外援

中超伪球迷
2026-01-27 11:59:21
拒绝回归曼城!除非瓜帅下课!英超mvp太高调,还在记恨当年替补

拒绝回归曼城!除非瓜帅下课!英超mvp太高调,还在记恨当年替补

阿泰希特
2026-01-27 12:24:53
所谓“斯大林屠杀30多万远东中国人”的说法,到底是真是假?

所谓“斯大林屠杀30多万远东中国人”的说法,到底是真是假?

柳絮忆史
2026-01-23 10:10:39
用“野路子”掀桌,汽水音乐威胁到谁?

用“野路子”掀桌,汽水音乐威胁到谁?

青橙财经
2026-01-25 22:29:30
还没到春节就“飞不起了”?多地赴三亚机票上涨,部分时段突破4000元

还没到春节就“飞不起了”?多地赴三亚机票上涨,部分时段突破4000元

封面新闻
2026-01-27 14:11:07
2026-01-27 21:40:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5325文章数 64599关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

国科大星际航行学院正式成立 官网发文诚聘海外英才

头条要闻

国科大星际航行学院正式成立 官网发文诚聘海外英才

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

艺术
教育
健康
本地
游戏

艺术要闻

日本东京国立博物馆中的100幅宋画

教育要闻

慈济、绵外实验、一中.....绵阳多所初中设立绵中贯培创新班、南山创新班

耳石脱落为何让人天旋地转+恶心?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

玩家热议《GTA6》别再加入“马克兔”!会毁了游戏

无障碍浏览 进入关怀版