网易首页 > 网易号 > 正文 申请入驻

IJCAI 2024 | 基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

0
分享至

本章提出了一个基于 Transformer 的高效单阶段短时 RGB-T 单目标跟踪网USTrack。USTrack 的核心是提出联合特征提取 & 融合 & 关联建模方法,以解决传统三阶段融合跟踪网络在特征提取阶段缺乏模态交互的问题。从而增强跟踪网络了对多样的目标双模态外观和模态外观之间动态对应关系的适应能力。在此基础上,进一步提出了基于模态可靠性的特征选择机制。在三个主流 RGB-T 单目标跟踪基准数据集上的大量实验表明,本章的方法在实现了新的 SoTA 性能的同时,也创造了高达 84.2FPS 的最快跟踪速度。

论文题目: USTrack: Unified Single-Stage Transformer Network for Efficient RGB-T Tracking 论文链接: https://arxiv.org/abs/2308.13764 代码链接: https://github.com/xiajianqiang/USTrack

一、引言

如图 1所示,现有的三阶段 RGB-T 单目标跟踪网络通常采用两个独立的特征提取分支,分别负责提取两个模态的特征。然而,相互独立的特征提取分支会导致两个模态在特征提取阶段缺乏有效的信息交互。因此,一旦网络完成离线训练,其仅能从每个模态图像中提取固定的特征,无法根据实际的模态状态动态调整,以提取更具针对性的动态特征。这一局限性制约了网络对多样的目标双模态外观,以及模态外观间动态对应关系的适应能力

如图 2所示,这种特征提取方式并不适合 RGB-T 单目标跟踪的实际应用场景,特别是在复杂环境下,因为被跟踪目标的任意性会导致的目标双模态外观非常多样,并且两个模态外观之间的对应关系也会随着跟踪环境的变化而变化。例如,由于遮挡、光照变化或热交叉等因素,经常会出现某个模态外观的临时变化或缺失,从而导致两种模态的外观所覆盖的区域或轮廓并不总是一致的。三阶段融合跟踪无法很好地对三个功能部分进行协同设计,复杂的特征融合模块往往导致其有明显的速度瓶颈。

此外,现有基于Transformer的RGB-T单目标跟踪网络都是采用直接相加或级联的方式,将两个模态搜索区域的融合特征组合在一起,输入预测头,用于输出最终的预测结果。然而,当前 RGB-T 单目标跟踪数据集提供的视频图像并不是完全对齐的,而且,并不是每个模态搜索区域都可以提供有效信息,例如黑夜和热交叉跟踪场景下,RGB 模态搜索区域和红外搜索区域将无法提供有效的目标外观信息,存在大量的背景噪音。因此,直接通过按元素相加或级联两个搜索区域融合特征的单预测头结构,既没有考虑图像未对齐对跟踪性能的影响,也没有考虑如何处理带有大量背景噪音信息的搜索区域融合特征的问题。

为了解决当前三阶段融合跟踪范式所面临的问题,本章提出了一个基于Transformer 的高效单阶段 RGB-T 单目标跟踪网络 USTrack(Unified Single-Stage Transformer Network for Efficient RGB-T Tracking)。其核心是通过联合特征提取 &融合 & 关联建模方法,将三阶段融合跟踪范式的三个功能部分直接统一到一个ViT主干网中同时执行,从而实现在模态的交互下直接提取目标模板和搜索区域的融合特征,并同时构建两个融合特征之间的关联建模操作。

由于三个功能部分都是通过一次自注意力机制的执行同时完成的,因此,借助于自注意力机制的高可并行性,USTrack 也创造了当前 RGB-T 单目标跟踪的最快速度 84.2FPS。为了充分利用现有数据集提供的两个模态图像非对齐的精确真值标注,来适应RGB图像和热图像中目标的微小位置偏差,以及减轻无效模态产生的大量噪音信息对最终预测结果的影响,USTrack 还设计了一个基于模态可靠性的特征选择机制,该机制通过直接丢弃无效模态产生的融合特征来减少噪声信息对最终预测结果的影响。

本文的贡献如下:

  1. 针对当前三阶段融合跟踪网络在模态特征提取阶段缺乏模态交互的问题,本章提出联合特征提取 & 融合 & 关联建模方法。该方法可以在模态的交互下直接提取目标模板和搜索区域的融合特征,并同时执行两个融合特征之间的关联建模操作,首次为短时 RGB-T 单目标跟踪网络的设计提供了一种高效且简洁的单阶段融合跟踪范式。

  2. 首次提出基于模态可靠性的特征选择机制,该机制可以根据实际跟踪环境来评估不同模态图像的可靠性,并根据可靠性来丢弃无效模态生成的融合特征,减少噪音信息对最终预测结果的影响,从而进一步提高跟踪性能。

  3. 在三个主流 RGB-T 单目标跟踪基准数据集上的大量实验表明,本章的方法在实现了新的 SoTA 性能的同时,也创造了高达 84.2FPS 的最快跟踪速度。特别是在 VTUAV 短时跟踪器数据集和长时跟踪数据集上,USTrack 在 MPR/MSR 指标上比现有性能最好的方法高 11.1%/11.7% 和 11.3%/9.7%。

二、方法

如图 3所示,USTrack 的总体架构由三部分组成:双嵌入层、ViT 主干网和基于模态可靠性的特征选择机制。双嵌入层由两个独立的嵌入层组成。这是考虑到注意力机制是基于相似度去获取全局信息的,而不同模态数据的内在异质性,可能会导致两个模态对同一模式有不同的特征表示形式,如果直接通过注意力对模态信息进行融合,这种异质性可能会限制网络对模态共享信息的建模能力,从而影响后续的特征融合过程。

因此,USTrack使用两个可学习的嵌入层将不同模态对应的输入映射到一个有利于融合的潜在空间,在一定程度上对两个模态进行模式对齐,降低模态内在异质性对特征融合的影响。然后,将双嵌入层的所有输出级联为一个整体作为 ViT 主干网的输入,通过其中的自注意力层,来同时执行输入图像的特征提取,特征融合以及目标模板融合特征与搜索区域融合特征之间的关联建模操作,从而实现联合特征提取 & 融合 & 关联建模,统一 RGB-T 跟踪的三个功能阶段,为 RGB-T 跟踪提供一个高效的单阶段跟踪范式。

基于模态可靠性的特征选择机制包括两个预测头和两个可靠性评估模块。它允许两个预测头输出不同的结果,并根据模态可靠性的得分,帮助网络选择更适合当前跟踪场景的模态所对应的搜索区域融合特征用于最终的预测,从而减少无效模态产生的噪声信息对最终预测结果的影响。

三、实验结果

USTrack选择GTOT,RGBT234以及VTUAV数据集作为测试基准,测试结果如图 4所示。我们还以VTUAV为基准,对USTrack在不同挑战场景属性下的性能进行分析。如图 5所示,本文筛选了性能提升最为明显的6个挑战属性。分别为:形变(DEF)、尺度变化(SV)、完全遮挡(FO)、部分遮挡(PO)、热交叉(TC)以及极端照明(EI)。

具体来说,形变(DEF)和尺度变化(SV)挑战属性可以有效地体现了目标多样的双模态外观的差异。完全遮挡(FO)、部分遮挡(PO)、热交叉(TC)和极端照明(EI)挑战属性可以导致相应模态的外观发生变化或消失,有效地展示了目标在跟踪过程中两种外观之间的动态对应关系。USTrack 在具有这些挑战属性的跟踪场景下上取得了最显著的性能提升,可以较好的说明联合特征提取 & 融合 & 关联建模方法可以有效缓解三阶段融合跟踪范式中模态特征在提取阶段模态交互不足的问题,能够更好地适应目标多样的双模态外观和模态之间的动态关系。

图5

如图6和图7所示,为了验证基于模态可靠性的特征选择机制的有效性,我们在 RGBT234 基准数据集上,展开了带有特征选择机制的双预测头结构与几种常见预测头结构的对比实验,并给出了模态可靠性与实际跟踪场景良好对应关系的可视化的结果。

图6

图7

四、总结

本章提出了一个基于 Transformer 的高效单阶段短时 RGB-T 单目标跟踪网USTrack。USTrack 的核心是提出联合特征提取 & 融合 & 关联建模方法,以解决传统三阶段融合跟踪网络在特征提取阶段缺乏模态交互的问题。从而增强跟踪网络了对多样的目标双模态外观和模态外观之间动态对应关系的适应能力。在此基础上,进一步提出了基于模态可靠性的特征选择机制。该机制通过直接摒弃无效模态产生的融合特征,来减少了噪声信息对最终预测结果的影响,从而获得更好的跟踪性能。USTrack 在三个主流数据集上实现了 SoTA 性能,并以 84.2 FPS 的速度创造了最快 RGB-T 跟踪推理速度的新记录。值得注意的是,在目前规模最大的 RGB-T 单目标跟踪基准数据集 VTUAV 上,该方法比现有 SoTA 方法在评估指标 MPR/MSR 上分别增加了 11.1%/11.7% 和 11.3%/9.7%,取得了较大的性能突破,为该基准数据集增添了一个新的功能强大的基线方法。

作者信息 夏坚强 :军事科学院国防科技创新研究院硕士研究生。研究兴趣包括视觉图像处理、目标检测、单目标跟踪等。第一作者发表CCF A类会议一篇,获2022年“华为杯”第四届中国研究生人工智能创新大赛华为专项一等奖。 赵健 ,中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人、青年科学家,西北工业大学光电与智能研究院研究员,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、具身智能。 共发表CCF-A类论文50余篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用,产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖(2023)、吴文俊人工智能自然科学奖一等奖(2/5,2022)、新加坡模式识别与机器智能协会(PREMIA)Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖(一作,1/208,CCF-A类会议,2018),7次在国际重要科技赛事中夺冠。 担任北京图象图形学学会理事,国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委,《Pattern Recognition Letters》、《Electronics》特刊客座编辑,VALSE资深领域主席,ACM Multimedia 2021分论坛主席,CICAI 2022/2023领域主席,CCBR 2024论坛主席,中国人工智能学会/中国图象图形学学会高级会员,“挑战杯”大学生科技作品竞赛评委,中国人工智能大赛专家委委员等。 主页: https://zhaoj9014.github.io

llustration From IconScout By Twiri

-The End-

扫码观看

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两性关系:不管你信不信,寿命长的男人,大多都有这6个好习惯

两性关系:不管你信不信,寿命长的男人,大多都有这6个好习惯

白宸侃片
2026-05-21 16:06:37
趁丈夫洗澡,我用他微信让婆婆转八千,她秒转8万并留言:傻孩子,我儿子那420万的婚房早就写你名了,这钱你拿着零花

趁丈夫洗澡,我用他微信让婆婆转八千,她秒转8万并留言:傻孩子,我儿子那420万的婚房早就写你名了,这钱你拿着零花

LULU生活家
2026-05-25 08:37:59
外媒:中国J-16挂8枚PL-15,令美日欧恐慌

外媒:中国J-16挂8枚PL-15,令美日欧恐慌

世家宝
2026-05-25 19:54:48
雷霆提前一节缴械!SGA惨败提前打卡竟发笑 连庄MVP被小金人嘲讽

雷霆提前一节缴械!SGA惨败提前打卡竟发笑 连庄MVP被小金人嘲讽

颜小白的篮球梦
2026-05-25 10:47:04
本以为是烂剧,结果开播就榜单第一,终于有值得熬夜狂追的好剧了

本以为是烂剧,结果开播就榜单第一,终于有值得熬夜狂追的好剧了

金风说
2026-05-25 13:54:38
关于金价,华尔街集体改口!花旗看低至4300美元

关于金价,华尔街集体改口!花旗看低至4300美元

21世纪经济报道
2026-05-25 21:15:52
距世界杯仅18天!尼科·威廉斯又伤了,西班牙飞翼要缺席世界杯?

距世界杯仅18天!尼科·威廉斯又伤了,西班牙飞翼要缺席世界杯?

仰卧撑FTUer
2026-05-25 16:43:03
成都蓉城回应“饭局争议”:为了解新人融入情况,吃的工作餐

成都蓉城回应“饭局争议”:为了解新人融入情况,吃的工作餐

懂球帝
2026-05-25 14:18:30
喜报!首个台独政党服软!宣布愿回归中国,但提了一个条件

喜报!首个台独政党服软!宣布愿回归中国,但提了一个条件

晓徙娱乐
2026-05-26 00:58:06
方媛被传不再录桃花坞,哪是她不想录,是郭富城团队不敢让她再录了吧

方媛被传不再录桃花坞,哪是她不想录,是郭富城团队不敢让她再录了吧

科学发掘
2026-05-25 15:01:27
白酒四轮至暗时刻复盘:这一次,历史会重演吗?

白酒四轮至暗时刻复盘:这一次,历史会重演吗?

雪球
2026-05-25 15:53:43
“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

“别绿茶了,你就是个中年妇女!”女家长晒心机自拍,被戳破打脸

番外行
2026-05-25 15:15:10
《亢奋》女主全裸出镜!床都塌了

《亢奋》女主全裸出镜!床都塌了

娱圈观察员
2026-05-26 00:21:12
“蛋白吃得好,医院跑得少”,建议5种蛋白食物换着吃,增强体质

“蛋白吃得好,医院跑得少”,建议5种蛋白食物换着吃,增强体质

春序娱乐
2026-05-23 21:04:38
胡锡进:华为会被历史至少记住1000年,嘲讽的人让我无法理解

胡锡进:华为会被历史至少记住1000年,嘲讽的人让我无法理解

映射生活的身影
2026-05-26 02:07:09
币安创始人赵长鹏在迪拜冲浪失联?本人回应:假新闻

币安创始人赵长鹏在迪拜冲浪失联?本人回应:假新闻

界面新闻
2026-05-25 15:29:39
替代常规MacBook Pro!苹果MacBook Ultra配置曝光

替代常规MacBook Pro!苹果MacBook Ultra配置曝光

CNMO科技
2026-05-25 16:44:55
教育异化:别让分数扼杀民族灵魂

教育异化:别让分数扼杀民族灵魂

烽火瞭望者
2026-05-25 06:22:22
年薪9万存款1.9万,他却欠着6张信用卡1.3万

年薪9万存款1.9万,他却欠着6张信用卡1.3万

报错免疫体
2026-05-25 01:16:40
网友们这几天都在吃著名毛巾集团洁丽雅的瓜,讽刺其家族“丑闻”

网友们这几天都在吃著名毛巾集团洁丽雅的瓜,讽刺其家族“丑闻”

网络易不易
2026-05-17 12:29:12
2026-05-26 02:43:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2387文章数 596关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

房产
亲子
旅游
教育
游戏

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

亲子要闻

还有多少“儿童牙膏”在玩概念游戏? | 新京报快评

旅游要闻

美丽中国行|“无废细胞”激活绿色基因——三亚探索旅游城市可持续发展新路

教育要闻

罚抄10遍被投诉,一个电话让全班没了作业,孩子就毁这类家长手里

《暗黑破坏神4》国服本体免费活动延长至8月4日

无障碍浏览 进入关怀版