网易首页 > 网易号 > 正文 申请入驻

ACM MM2021 | 探索基于序列特征对齐的域适应目标检测方法

0
分享至

视觉模型在跨域场景下的稳定性和鲁棒性是可信人工智能的重要基础,目前京东探索研究院研究员在跨域场景下的目标检测、语义分割等视觉任务上已有多项研究成果[1, 2, 3, 4],这是提升视觉模型在应用场景下的安全性与可靠性的重要步骤。

针对如何提升Detection Transformer的跨域性能这一问题,本文介绍了探索研究院在域适应目标检测(Domain Adaptive Object Detection)领域的一项新工作“Exploring Sequence Feature Alignment for Domain Adaptive Detection Transformers”。该工作是探索研究院在Detection Transformer这一热门方向上的首项成果,已经被MultiMedia2021收录。

论文地址:

https://arxiv.org/abs/2107.12636

代码地址:

https://github.com/encounter1997/SFA

一、前言

目标检测是计算机视觉中的基本任务之一,具有广泛的运用价值[5]。尽管近年来现有的目标检测算法取得了长足进展,但是它们往往假设测试数据和训练数据采样自相同的数据分布。然而,在现实生活中,由于天气变化、场景变化、图像采集设备的不稳定性等原因,测试数据和训练数据的分布并不一致,其中往往存在域间隔(domain gap)。由于这些问题,如果直接将目标检测器运用到这些场景下,可能会面临性能下降明显的情况。

无监督域适应目标检测领域试图在有标注的源域数据上训练一个能泛化到目标域的目标检测器,以减少人工标注的成本。近年来,基于Faster RCNN,SSD,FCOS等的无监督域适应目标检测取得了很多进展。随着Vision Transformer[6, 7]和目标检测中Detection Transformer类方法的迅速发展,我们很自然地会希望这类目标检测器也具有跨域目标检测的能力。在这篇文章中我们将针对这一问题进行深入的探讨。

由于现有的域适应目标检测算法大部分是针对特定目标检测器结构的,例如DA-Faster[8]依赖于Faster RCNN中的RPN结构,EPN[9]需要FCOS中的centerness branch,它们并不能直接运用在Detection Transformer上。为此,我们首先探索一个简单的域适应方法:通过对CNN backbone提取的特征做特征分布对齐实现域适应。

如图1(a) 所示,尽管这种方法取得了一定效果,但相比于在transformer的序列特征上做分布对齐,带来的提升十分有限。通过图1(b) 中CNN,encoder(编码器)和decoder(解码器)提取的特征的可视化我们可以看出,在CNN backbone上做特征对齐只能保证CNN基础特征的分布的对齐,而被直接用于分类、定位预测的transformer序列特征上依然存在显著的分布差异。这限制了Detection Transformer的跨域性能。

图1 在CNN特征上进行对齐的主客观结果

二、解决方法

基于以上观察,我们提出基于序列特征对齐(Sequence Feature Alignment, SFA)的域适应方法来提升Detection Transformer的跨域性能。具体来说,它包含基于域查询的序列特征对齐和逐词的序列特征对齐,此外,我们提出二分图匹配一致性约束,进一步提升约束Detection Transformer的序列特征,提升其鲁棒性。我们的Domain Adaptive Detection Transformer整体框架如图2所示。


图2 SFA整体框架

基于域查询的序列特征对齐(domain query-based feature alignment)利用域查询对序列特征中的与域相关的特性做聚合,并在聚合了全局域特性的域查询上做特征对齐,从而在整体上对Transformer序列特征进行对齐。通过在Transformer的encoder和decoder中分别加入域查询token,使得这一方法能够很容易地并用,来对齐encoder和decoder中的序列特征。

值得注意的是,在编码器和解码器端采用这一方法具有不同的意义。具体来说,由于编码器输入的序列特征是由图像的特征图拉平(flatten)得到的,此处基于域查询的序列特征对齐从整体上对图像场景布局等层面做迁移。而解码器端的序列特征是由物体查询组成的,此处基于域查询的序列特征对齐是在物体间关系、前景与背景关系等层面上做迁移。

基于域查询的特征对齐只能在全局上对物体间关系和场景布局等层面减少域差异,而不能解决源域和目标域在纹理、风格等细节上的域差异。为了解决这一问题,我们提出对序列特征做逐词的特征对齐(token-wise feature alignment)。同样,该方法也能够很方便的适用于encoder和decoder中不同的序列特征。其中,在编码器端序列中的词代表图片的一块局部区域,因此,此处的逐词的序列特征对齐主要解决图像的局部纹理、表观等层面的差异。而解码器端的词代表物体个体,因此,此处的逐词的序列特征对齐是在图像的前景物体个体层面做特征对齐(类似于DA-Faster中的instance-level feature alignment)。

同时,为了实现更全面的特征对齐,我们采用渐进特征对齐,由浅层到深层,对Transformer编码器各层的输出逐一做特征对齐。

Detection Transformer采用二分图匹配将模型的输出与图像中的物体或背景进行一一对应。由于目标域上没有标签做监督,目标检测器容易在目标域上产生不准确的匹配。为此,我们对不同解码器层的输出做集成,并约束不同解码器层的输出,以产生一致的二分图匹配来实现更准确的检测。

值得注意的是,我们的方法不局限于Detection Transformer结构,而是可以广泛运用在此类目标检测器上,如DETR[5],Deformable DETR[6]。

我们从域适应和泛化性两个角度对SFA的跨域性能进行了理论分析,分析表明,我们的SFA能够显著提升Detection Transformer的跨域性能

三、实验结果

在实验部分,我们考虑了三种常见的域适应场景,即天气域适应(Cityscapes to Foggy Cityscapes),合成数据到真实数据域适应(Sim10k to Cityscapes)和场景域适应(Cityscapes to BDD100k daytime)。我们的方法在这三种场景下的结果如下表所示。可以看到,我们的方法能够在跨域场景下取得SOTA性能,超越基于Faster RCNN或基于FCOS的域适应方法。同时,我们的方法相比于Source only Deformable DETR基线性能有显著提升。

表1 天气域适应(Cityscapes to Foggy Cityscapes)实验结果

表2 合成数据到真实数据域适应(Sim10k to Cityscapes)实验结果

表3 场景域适应(Cityscapes to BDD100k daytime)实验结果

此外,为了深入理解SFA中每个模块的作用,我们对SFA中的主要组件——基于域查询的序列特征对齐(DQ),逐词的特征对齐(TW),二分图匹配一致性约(BMC)和层级式特征对齐(HR)做消融实验。结果如下表所示。

表4 消融实验实验结果

可以看出,我们的各个模块中,基于域查询的序列特征对齐和逐词的特征对齐均能显著提升模型的跨域性能,并且二者是互补的。而二分图匹配一致性和层级式特征对齐能够进一步提升模型的整体性能。

在附加材料中,我们将SFA运用到DETR上来提升其跨域性能,得到的结果如下表所示。

表5 在DETR上运用SFA实验结果

由于DETR相较于Deformable DETR有更少的先验(如稀疏采样),其依赖更多的数据来训练,导致其在Cityscapes to Foggy Cityscape上性能不佳(14.1 mAP50)。尽管如此,我们的方法能够显著提升其跨域性能,提升7.9 mAP50(相对提升56%)。

最后我们对SFA模型的输出以及特征进行可视化,包含:

1. 在不同跨域场景下的主观结果可视化,如图3所示。

图3 SFA模型在不同跨域场景下的主观结果可视化

2. CNN特征,encoder和decoder特征分布的可视化,如图4所示。可以看出,在不同域的序列特征的分布均已对齐,并且受益于渐进式特征对齐,CNN提取的特征也已对齐。

图4 SFA模型特征可视化

3. 对domain query关注区域的可视化,如图5所示。可以看到,domain query的主要权重出现在图像的上半部分雾比较浓(域差异显著)的区域。

图5 对domain query关注区域的可视化

四、总结与展望

本文提出了一种针对Detection Transformer的域适应方法SFA,其中主要包含基于域查询的序列特征对齐(DQFA)、逐词的序列特征对齐(TDA)和二分图匹配一致性损失,该方法的有效性已经通过实验和理论分析进行证明。希望我们的SFA能够成为基于Detection Transformer的域适应目标检测方法的基线。论文和代码已开源,欢迎大家关注。

参考文献:

[1] Zhang Q, Zhang J, Liu W, et al. Category anchor-guided unsupervised domain adaptation for semantic segmentation[J]. arXiv preprint arXiv:1910.13049, 2019.

[2] Gao L, Zhang J, Zhang L, et al. DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic Segmentation[J]. arXiv preprint arXiv:2107.09600, 2021.
[3] He F, Liu T, Tao D. Control batch size and learning rate to generalize well: Theoretical and empirical evidence[J]. Advances in Neural Information Processing Systems, 2019, 32: 1143-1152.
[4] He F, Liu T, Tao D. Why resnet works? residuals generalize[J]. IEEE transactions on neural networks and learning systems, 2020, 31(12): 5349-5362.
[5] Zhang J, Tao D. Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things[J]. IEEE Internet of Things Journal, 2020, 8(10): 7789-7817.
[6] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.
[7] Xu Y, Zhang Q, Zhang J, et al. ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias[J]. arXiv preprint arXiv:2106.03348, 2021.
[8] Chen Y, Li W, Sakaridis C, et al. Domain adaptive faster r-cnn for object detection in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3339-3348.
[9] Hsu C C, Tsai Y H, Lin Y Y, et al. Every pixel matters: Center-aware feature alignment for domain adaptive object detector[C]//European Conference on Computer Vision. Springer, Cham, 2020: 733-748.

Illustrastion by Natasha Remarchuk from Icons8

-The End-

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,

对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

>> 投稿请添加工作人员微信!

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别被“某音”前凸后翘的网红骗了

别被“某音”前凸后翘的网红骗了

健身S叔
2026-03-22 11:12:04
北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

历史人文2
2026-04-05 11:30:03
苏亚雷斯无缘世界杯,143场69球纪录戛然而止

苏亚雷斯无缘世界杯,143场69球纪录戛然而止

甜份超标的我
2026-06-01 00:12:01
德比斯创造最快圈速!获第8不是张雪机车的问题 比雅马哈更受限制

德比斯创造最快圈速!获第8不是张雪机车的问题 比雅马哈更受限制

念洲
2026-06-01 09:40:59
“最干净女演员”被富商苦追10年才嫁,如今和女儿被宠如宝

“最干净女演员”被富商苦追10年才嫁,如今和女儿被宠如宝

吃青菜长高
2026-05-26 16:31:47
香会爆发激烈交锋,短短3天全球见识了:日菲的软弱,中国的强大

香会爆发激烈交锋,短短3天全球见识了:日菲的软弱,中国的强大

闻识
2026-06-01 06:19:52
为什么很多拥有几百万存款的人,平时都很朴素?内行人:4大原因

为什么很多拥有几百万存款的人,平时都很朴素?内行人:4大原因

猫叔东山再起
2026-06-01 11:30:08
伊朗外交部:伊朗武装部队回击美军“侵略行动”

伊朗外交部:伊朗武装部队回击美军“侵略行动”

新华社
2026-06-01 16:58:04
六辆装甲车白守!无人机钻门缝炸穿指挥室,旅长当场脑浆迸裂

六辆装甲车白守!无人机钻门缝炸穿指挥室,旅长当场脑浆迸裂

深度报
2026-05-30 00:32:15
电车的“免费午餐”结束了:养路费改革的必然与公平

电车的“免费午餐”结束了:养路费改革的必然与公平

民间胡扯老哥
2026-05-30 06:39:32
中国人最擅长取外号了,网友:这评论区没半小时出不去

中国人最擅长取外号了,网友:这评论区没半小时出不去

另子维爱读史
2026-05-31 08:10:46
争前三!泰山签新后腰 马德鲁加不愁下家 外教打短工?韩鹏钉子户

争前三!泰山签新后腰 马德鲁加不愁下家 外教打短工?韩鹏钉子户

刀锋体育
2026-06-01 12:26:59
耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

小小河
2026-05-29 22:41:27
香格里拉论坛:日本防卫大臣未就可能的对台武器供应问题作出回答

香格里拉论坛:日本防卫大臣未就可能的对台武器供应问题作出回答

俄罗斯卫星通讯社
2026-06-01 15:07:12
中国刚划定,欧尔班有望接替古特雷斯,成为新任联合国秘书长?

中国刚划定,欧尔班有望接替古特雷斯,成为新任联合国秘书长?

杰丝聊古今
2026-06-01 11:14:51
阿斯:皇马方面否认与罗德里达成协议,格瓦表达想加盟的意愿

阿斯:皇马方面否认与罗德里达成协议,格瓦表达想加盟的意愿

懂球帝
2026-06-01 15:16:06
波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

花哥扒娱乐
2026-05-14 20:10:50
何猷君奚梦瑶大婚!一双儿女当花童,四太笑的开心,谷爱凌凑热闹

何猷君奚梦瑶大婚!一双儿女当花童,四太笑的开心,谷爱凌凑热闹

娱说瑜悦
2026-06-01 16:11:54
年轻人想去纪委工作,要三思而行!

年轻人想去纪委工作,要三思而行!

一口娱乐
2026-05-30 19:36:20
李明医生突然离世,年仅48岁!

李明医生突然离世,年仅48岁!

大风新闻
2026-06-01 15:53:06
2026-06-01 17:40:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2397文章数 596关注度
往期回顾 全部

科技要闻

两大芯片巨头打起来了

头条要闻

见习医生网购3元美工刀 拆快递时被割伤神经手无知觉

头条要闻

见习医生网购3元美工刀 拆快递时被割伤神经手无知觉

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树科技科创板IPO过会

汽车要闻

赛力斯联手字节打造"赛豆" 首款跨界车年内推出

态度原创

健康
亲子
房产
数码
军事航空

尝试干细胞疗法如何避免踩坑?

亲子要闻

宝蓝奶奶在干农活,宝蓝开着玩具小拖拉机来帮忙,好懂事。

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

数码要闻

价保618享国补促销双重优惠!天选7 Pro酷睿版新品到手价7989元起

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版