网易首页 > 网易号 > 正文 申请入驻

ECCV 2022 Oral | 大连理工/字节/港大提出Unicorn:目标跟踪任务的大统一模型

0
分享至

本文主要介绍一下我们最近的一篇unifying object tracking的工作:

目标跟踪领域主要可分成以下四项子任务:单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)。由于不同子任务在定义与设定上的差异,绝大多数现有跟踪算法都是被设计用来解决单一或者部分子任务的,缺乏向其他任务的拓展能力。显然,他们的长期割裂状态对于跟踪领域的发展并不友好。

我们提出了一种目标跟踪任务的大统一模型Unicorn,该模型只需一套网络结构、一套模型参数即可同时完成四种跟踪任务。Unicorn首次实现了目标跟踪网络结构与学习范式的大一统,在不同跟踪任务上使用完全相同的输入、骨干网络、特征嵌入、以及预测头部。 Unicorn在来自四种跟踪任务的8个富有挑战性的数据集(LaSOT, TrackingNet, MOT17, BDD100K, DAVIS-16, DAVIS-17, MOTS, BDD100K MOTS)上取得了优异的表现,在多个数据集上刷新了State-of-The-Art。

论文链接: https://arxiv.org/abs/2207.07078 代码链接: https://github.com/MasterBin-IIAU/Unicorn

一、Motivation

目标跟踪是计算机视觉中的基本任务之一,其旨在建立帧之间的像素级或实例级对应关系,并通常以box或mask的形式输出轨迹。根据不同的应用场景,目标跟踪问题主要分成了四个独立的子任务:SOT、MOT、VOS和MOTS。这导致大多数跟踪方法都是仅针对其中一个或部分子任务而设计的,每个领域的各自发展导致了长期的方法隔离和数据隔离,这种分裂的局面带来了以下缺点:

  • 跟踪器可能过拟合特定子任务的特性,缺乏向其他任务的泛化能力。

  • 独立的模型设计导致冗余的参数。例如,基于深度学习的跟踪器通常采用类似的backbone结构,但独立的跟踪模块设计理念阻碍了潜在的参数复用的可能。

本质上无论是SOT/VOS还是MOT/MOTS都是时序空间上特征的关联,区别只是instance的数量。那么很自然地要问一个问题:是否所有的主流追踪任务都可以用一个统一的模型来解决呢?尽管目前已经有一些工作(例如SiamMask、TraDes等)尝试用一个网络同时完成SOT&VOS或者MOT&MOTS,但是SOT与MOT之间始终难以统一。我们发现,阻碍SOT与MOT统一的主要障碍有以下三点:

  1. 被跟踪物体的特性不同。MOT 通常要跟踪几十甚至几百个特定类别的实例。SOT 需要跟踪参考帧中给定的一个目标,无论目标属于哪个类别

  2. 需要的对应关系不同。SOT 需要将目标与背景区分开来。MOT 需要将当前检测到的对象与之前的轨迹相匹配。

  3. 模型的输入不同。大多数 SOT 方法为了节省计算量并过滤潜在的干扰物,都是以一个小的搜索区域作为输入。然而,MOT算法为了将实例尽可能全地检测到,通常以高分辨率的全图作为输入。

Unicorn提出了两个核心设计:目标先验(target prior)和像素级对应关系(pixel-wise correspondence)来攻克以上挑战。具体来说:

  1. 目标先验作为检测头的一个额外输入,是在四个任务之间切换的开关。对于 SOT&VOS,目标先验是通过传播(propagation)得到的目标图,使预测头部能够专注于跟踪的目标。对于 MOT&MOTS,通过将目标先验设置为零,预测头部可以自然地退化成常规的特定类别的检测头部。

  2. 像素级对应关系是参考帧和当前帧的所有点对之间的相似度。SOT 对应关系和MOT对应关系都可以看作是像素级对应关系的子集。

  3. 借助目标先验和精确的像素级对应关系,SOT可以不再依赖搜索区域,从而和MOT一样接收全图作为输入。

二、Unicorn

Unicorn的整体结构主要包含三个组成部分(1)统一的输入和骨干网络(2)统一的特征嵌入(Unified Embedding)(3)统一的预测头部(Unified Head)。

2.1 Unified Embedding

目标跟踪的核心任务之一是在视频帧之间建立准确的对应关系。具体来说:

  • 对于SOT&VOS,像素级对应关系(pixel-wise correspondence)将用户指定的目标从参考帧(通常是第一帧)传播到第 t 帧,为最终的框或掩码预测提供强大的先验信息。

  • 对于 MOT&MOTS,实例级对应关系(instance-level correspondence)将第 t 帧上检测到的实例与参考帧(通常是第 t-1 帧)上的现有轨迹相关联。

像素级对应关系是参考帧 reference frame embedding(HW x C) 和当前帧current frame embedding (HW x C) 的两两点乘(HW x HW) 。同时,由于instance embedding是在frame embedding上从实例所在位置处提取得到的,因此实例级对应关系可以看作是像素级对应关系的子矩阵!即四种跟踪任务可以共享统一的Embedding!

Embedding的训练loss应该同时适用于四种跟踪任务的需要:

  • 对于SOT&VOS来说,虽然帧间的像素级对应关系没有现成的标签,但是可以通过监督传播后的target map来提供监督信号,即target map在目标所在区域的值等于1,其他区域的值为0。

  • 对于MOT&MOTS来说,实例级对应关系可通过标准的对比学习范式得到,对于参考帧和当前帧上的实例,属于同一ID的为正样本,其余的为负样本。

2.2 Unified Head

为了实现目标跟踪的大一统,另一个重要且具有挑战性的问题是如何为四种跟踪任务设计一个统一的预测头部。具体来说,MOT需要检测特定类别的目标,而SOT 需要检测参考帧中给定的任何类别的目标。为了弥补这一差异,Unicorn 为检测头部引入了一个额外的输入,称为目标先验(target prior),无需任何进一步修改,Unicorn 就可以通过这个统一的头部检测四项任务所需的各种目标。

如图所示,通过传播得到的当前帧目标图的估计可以提供关于要跟踪目标状态的强先验信息,这启发我们在检测 SOT&VOS 的目标时将其作为目标先验。同时,在处理 MOT&MOTS 时,我们可以简单地将目标先验设置为零。

2.3 Training and Inference

训练:整个训练过程分为两个阶段:SOT-MOT联合训练和VOS-MOTS联合训练。在第一阶段,使用来自 SOT&MOT 的数据对网络进行端到端优化。在第二阶段,固定其他参数,添加掩码分支,并使用来自 VOS&MOTS 的数据对网络进行优化。

测试:在测试阶段,对于 SOT&VOS,参考目标图只需在第一帧生成一次,并在后续帧中保持固定。Unicorn 直接挑选置信度最高的框或掩码作为最终的跟踪结果,无需像余弦窗那样对超参数敏感的后处理。此外,Unicorn 在每一帧上只需要运行一次骨干网络和计算一次对应关系,当有N个要跟踪的目标时,只需运行轻量级预测头N 次,而不是将整个网络运行N次 ,具有更高的效率。对于 MOT&MOTS,Unicorn 检测给定类别的所有目标并同时输出相应的实例嵌入。在BDD100K 和 MOT17上,数据关联分别采用的是基于Embedding和运动模型的匹配策略。


三、Performance

我们在来自四项跟踪任务的8个数据集上对Unicorn进行了评测。

3.1 SOT

Unicorn在两个大规模SOT数据集LaSOT和TrackingNet上均做到了state-of-the-art,Success指标相比于之前最优的方法STARK分别提升了1.4%和1.0%。

3.2 MOT

在MOT17数据集上,Unicorn在MOTA,IDF1,HOTA三项重要跟踪指标上均做到了state-of-the-art。

在BDD100K数据集上,Unicorn在mMOTA,mIDF1两项关键跟踪指标上均大幅领先之前效果最好的方法QDTrack,mMOTA和mIDF1两项指标分别有4.6%和3.2%的提升。

3.3 VOS

在DAVIS16和DAVIS17数据集上,第一帧无需精确的mask标注、仅使用box初始化,Unicorn仍取得了不错的成绩。在DAVIS16-17上,Unicorn相比于同样使用box初始化的SiamMask来说,J&F指标有17.6%和12.8%的提升!此外,尽管只利用box初始化,Unicorn的甚至也能和一些用mask初始化的方法(UniTrack,RANet等)相媲美。

3.4 MOTS

在MOTS Challenge数据集上,Unicorn在sMOTSA和IDF1两项重要跟踪指标上大幅领先于之前的方法,例如PointTrackV2、TrackFormer等。

在BDD100K MOTS数据集上,相比之前效果最好的PCAN,Unicorn在mMOTSA和mMOTSP两项指标上分别有2.2%和1.0%的提升。

四、Demo

以下Demo展示了Unicorn在SOT、MOT、VOS、MOTS四项任务上的一些可视化效果。以下结果均使用同一套网络结构和模型参数。

五、Conclusion

Unicorn首次统一了四项目标跟踪任务的网络结构与学习范式,用一套统一的结构和参数在8个富有挑战性的数据集上取得了亮眼的表现。我们希望Unicorn能够为整个追踪领域带来一些启发,朝着通用视觉模型这一目标迈出扎实的一步。

文章来自: https://zhuanlan.zhihu.com/p/542266820 作者: 孙培泽

Illustration b y Marina Mogulska from icon s8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心怎么这么坏,甘蔗里掺石头泥块劣果,农夫与蛇再次上演陈耀心寒

心怎么这么坏,甘蔗里掺石头泥块劣果,农夫与蛇再次上演陈耀心寒

奇思妙想草叶君
2026-04-30 16:48:53
12年,劳动改变了什么?

12年,劳动改变了什么?

新华社
2026-05-03 09:03:22
妻子频繁给陌生人发儿子照片,男子起疑心做亲子鉴定,发现三个孩子两个不是亲生

妻子频繁给陌生人发儿子照片,男子起疑心做亲子鉴定,发现三个孩子两个不是亲生

大象新闻
2026-05-03 16:22:03
美加墨世界杯转播,亚洲周边其他国家都便宜,唯独对中国要高价

美加墨世界杯转播,亚洲周边其他国家都便宜,唯独对中国要高价

顺静自然
2026-05-03 11:46:19
田曦薇一定要挤成这样吗,不大好看

田曦薇一定要挤成这样吗,不大好看

TVB的四小花
2026-05-03 02:33:03
保罗:詹姆斯这么老还这么猛太疯狂!我打球、知道那多困难!

保罗:詹姆斯这么老还这么猛太疯狂!我打球、知道那多困难!

历史第一人梅西
2026-05-03 10:55:14
铁路员工站台抽烟遭举报,沈女士已“社死”:发文认错不该砸饭碗

铁路员工站台抽烟遭举报,沈女士已“社死”:发文认错不该砸饭碗

汉史趣闻
2026-05-02 18:11:50
云冈石窟突发大风,多块彩钢瓦板被刮到半空中,景区回应

云冈石窟突发大风,多块彩钢瓦板被刮到半空中,景区回应

极目新闻
2026-05-03 16:27:22
伦敦世乒赛:国乒首败诞生!林诗栋梁靖崑周启豪输球,王楚钦休战

伦敦世乒赛:国乒首败诞生!林诗栋梁靖崑周启豪输球,王楚钦休战

郝小小看体育
2026-05-03 05:29:45
冯提莫停播原因公开,患甲状腺癌晚期,医生断言:这辈子别想唱歌

冯提莫停播原因公开,患甲状腺癌晚期,医生断言:这辈子别想唱歌

草莓解说体育
2026-05-03 05:32:06
26岁天才股神坦言:如果迎来牛市,就买这种股票,赚到怀疑人生!

26岁天才股神坦言:如果迎来牛市,就买这种股票,赚到怀疑人生!

股经纵横谈
2026-04-30 20:14:13
68岁北京老炮迎娶小30岁银行高管,一场婚礼扯下多少遮羞布?

68岁北京老炮迎娶小30岁银行高管,一场婚礼扯下多少遮羞布?

小李子体育
2026-05-03 04:12:01
赖清德竟敢偷偷离台,大陆火速行动!国民党的狐狸尾巴藏不住了

赖清德竟敢偷偷离台,大陆火速行动!国民党的狐狸尾巴藏不住了

梦史
2026-05-03 13:58:28
男子地铁喷辣椒水后续:人已被抓,正脸被扒已社死,更多黑料流出

男子地铁喷辣椒水后续:人已被抓,正脸被扒已社死,更多黑料流出

暖心萌阿菇凉
2026-05-02 11:53:43
第四次补刀:图阿普谢宛如地狱末日!俄乌防长对比之拳怕少壮

第四次补刀:图阿普谢宛如地狱末日!俄乌防长对比之拳怕少壮

鹰眼Defence
2026-05-02 18:10:54
恐怖!!季后赛出勤率100%!!还有谁!

恐怖!!季后赛出勤率100%!!还有谁!

柚子说球
2026-05-02 22:04:41
越来越多车主直接弃车,不走报废流程,内行:聪明人都这么选

越来越多车主直接弃车,不走报废流程,内行:聪明人都这么选

小李子体育
2026-05-02 04:53:06
回报暴涨超十倍!张雪机车一战封神,资本50亿争抢投资,执意加码

回报暴涨超十倍!张雪机车一战封神,资本50亿争抢投资,执意加码

阿伧说事
2026-04-24 18:47:53
6人一个不留?首发也不留!凯尔特人淘汰后第一时间拆队!

6人一个不留?首发也不留!凯尔特人淘汰后第一时间拆队!

贵圈真乱
2026-05-03 12:54:13
随着艾伦16-17出局,斯诺克世锦赛决赛对阵出炉:吴宜泽PK世界第5

随着艾伦16-17出局,斯诺克世锦赛决赛对阵出炉:吴宜泽PK世界第5

侧身凌空斩
2026-05-03 06:29:18
2026-05-03 16:56:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2364文章数 596关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

巴菲特正式“退役”伯克希尔新掌门阿贝尔股东会首秀

头条要闻

巴菲特正式“退役”伯克希尔新掌门阿贝尔股东会首秀

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

房产
旅游
游戏
健康
军事航空

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

旅游要闻

入梦台城 · 穿越古今|台儿庄古城偶遇花神、镖师、说书人,游客直呼“演上了”

《红色沙漠》1.05.01补丁 修复宠物召唤问题

干细胞治烧烫伤面临这些“瓶颈”

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版