网易首页 > 网易号 > 正文 申请入驻

OW-DETR:谷歌等单位提出面向开放世界目标检测的视觉Transformer

0
分享至

开放世界目标检测(OWOD,Open-world object detection)是一个极具挑战性的计算机视觉话题,其任务是训练一个目标检测器,同时检测图片中已知类别和未知类别的目标。此外,还需要赋予检测器增量学习的能力,随着训练代数的深入,模型可识别的目标类别也在增加,这就要求检测器能够将未知目标与背景分离,同时生成高质量的候选框(candidate proposals)。与标准目标检测的任务设置相比,OWOD的任务设置难度较大,为此,Inception-AI、谷歌等单位提出了一种基于端到端Transformer开放世界对象检测框架OW-DETR。

本文提出的OW-DETR主要由三个模块构成,包括注意力驱动的伪标签生成(attention-driven pseudo-labeling)、新颖性分类(novelty classification)和客观性评分(objectness scoring)。本文的实验在MS-COCO和PASCAL VOC两个数据集上进行,在增量目标检测的设置下,达到了SOTA性能。

论文标题: OW-DETR: Open-world Detection Transformer 论文链接: https://arxiv.org/abs/2112.01513 (尚未开源)

一、引言

现有的目标检测任务设定中,在模型训练阶段和测试(推理)阶段,目标类别需要保持一致。本文所涉及的开放世界目标检测 (OWOD) 放宽了现有基准中考虑的闭集假设,即在训练时,需要考虑赋予模型逐步识别新类别的能力,以增量学习的方式更新模型的知识,而无需从头训练之前就识别的类。发表在CVPR2021上的ORE模型[1]首次对开放世界目标检测做出了尝试,ORE使用auto-labeling来收集一部分未知类别的伪数据,通过一个类别无关的RPN网络生成未知类别的候选框,需要注意的是,这些候选框与已知类别的标注框(GT)不重叠,但是其具有较高的RPN区域分数。随后将这些伪数据与已知类别数据一起进行聚类,学习未知类别的原型特征。此外,ORE 学习基于能量的二分类器来区分未知类和已知类。

本文提出的OW-DETR可以看作是对ORE模型的重新思考和改进。对于ORE方法中的聚类操作,只使用单个原型特征来表征未知类别,本文认为这种表征是不充分的,难以对未知目标中复杂类内变化进行建模。此外,由于ORE基于Faster-RCNN进行二次设计,没有明确建模长程依赖关系,这对于捕获包含不同对象的图像中的上下文信息至关重要,因此本文基于视觉Transformer架构,设计了一种新颖的多尺度上下文检测器,其中包括注意力驱动的伪标签生成、新颖性分类和客观性评分三个模块,共同作用有效提高了OWOD性能。本文所提的OW-DETR框架如下图所示。

二、方法

下图为本文方法的整体框架图,图片 首先通过一个多尺度backbone提取特征,随后输入到Transformer的Encoder和Decoder中,Decoder在通过跨尺度注意力和自注意机制驱动下,将一组 个可学习的query向量转换为对应的嵌入向量 ,随后被输入到三个独立分支(回归分支、新颖性检测分支和客观性评分分支)进行后续的定位和识别。除这三个分支之外,本文方法的基本框架与Deformable DETR[2]基本保持一致,首先使用二分匹配损失从GT标签中选择已知类的预测目标,然后从余下的目标查询向量中选择候选未知类的目标实例,其中候选目标实例是通过特征图的区域激活幅度来确定的, 较高对应的查询向量被标注为未知类别的伪标签数据

2.1注意力驱动的伪标签生成在这一模块中,作者引入了一种自上而下的伪标签生成方案,该方案在单阶段目标检测器中具有良好的泛化性。输入图像经过backbone得到特征图,特征图上的各区域的激活值大小反映了该空间位置上存在目标置信度,如下图所示。

表示经过通道平均计算后的特征图,特征图上每个目标的置信度分数 由下式计算得到:

其中 表示预测框的中心坐标和长宽。对于具有 个已知类目标的图像,经过二分匹配损失筛选后得到 个未知类别的目标实例,从中选取置信度分数较高的 个实例标记为伪标签。

2.2 新颖性分类

新颖性分类模块的训练完全依赖于上一节中介绍的注意力驱动生成的伪标签,而无需其他额外的监督信息。标准目标检测器中的分类分支会将输入的查询向量分类为已知类和背景类,即 。但是,当遇到未知类别的目标时,这种检测器无法将其归入任何一种类别。为了克服这个问题,本文在分类分支中引入了新颖类标(为了方便设置为0),训练数据为上一节得到的伪标签数据,其与已知类的实例共同训练分类分支,即

2.3 客观性评分

通过上述两个模块的处理,模型已经能够将输入的查询向量 分类到已知的C类或未知类中,但是模型仍然缺乏将已有知识从已知类别迁移到未知类别的能力,此外,单纯通过注意力驱动模块生成的伪标签可能不太准确,由于缺乏明确的未知类标签的监督,会导致大多数的查询向量在图像的背景区域进行预测。为了缓解这些问题,我们引入了一个前景目标分支 。该分支会对每个查询向量给出一个客观性评分,以便更好的将前景目标(已知和未知)与背景分开。这种与类别无关的评分还有助于模型将知识从已知类别转移到未知类别,即构成前景目标的特征。

三、实验效果

本文分别在MS-COCO和Pascal VOC数据集上进行了实验,为了满足开放世界目标检测的任务设定,本文仿照ORE[1]实验将MS-COCO分成四个子任务,每个任务包含20个类别,当网络学习前几个任务时,余下任务中的类别被视为未知类别,以增量的形式进行学习。对于已知类别,本文使用mAP作为评价指标。而对于未知类别,使用召回率作为评价指标

下表展示了本文方法与ORE方法在OWOD设定下的性能对比,其中mAP反映了模型对于已知类别的检测能力,召回率(U-Recall)量化了模型检索未知目标实例的能力。下表上栏中罗列的标准目标检测器(Faster R-CNN 和 DDETR)在已知类别中展现出了较高的mAP性能,但是它们并不适用于OWOD设定。为了公平起见,本文只与ORE方法比较了未知类别的检测效果,可以看到,本文方法在跨任务上提高了U-Recall分数,展示了更强的未知类检测能力,需要注意的是,由于在任务4中,所有的80个类别已经全部转为已知类,所以不会计算U-Recall。

除了使用召回率评估检测器对未知目标的检测能力,还可以通过检测器的mAP值与其在闭集设定上的mAP降低的程度来衡量。下表展示了这一实验对比结果,可以看出,通过对未知对象的实例进行建模,本文的方法在开集设定上相比其他方法有明显的优势。

为了更加直观展示本文方法检测未知目标的能力,本文进行了增量目标检测(iOD)的实验,该任务可以反映模型可以逐渐减少将未知目标的实例归类为已知类的混淆情况,从而能够将各种新遇到的未知类对象学习为真正的前景目标。本文的实验设置有三种情况,分别是10+10,15+5和19+1的组合,本文的方法在这三种增量组合上均取得了最佳效果,详细效果如下表所示。

下图展示了本文方法在MS-COCO测试集上的可视化效果,以及对应的注意力特征图A。其中黄色框表示已知类的目标,紫色框表示未知类的目标。可以观察到,本文方法可以有效的检测到未知类别的实例,例如左上角图像中的滑板、右上角图像中的网球拍以及左下角图像中的飞盘等等。

四、总结

本文针对开放世界目标检测问题提出了一种新的视觉Transformer网络OW-DETR。本文基于伪标签生成、新颖性分类和客观性评分三个模块相互协作在开集目标检测设定和增量目标检测设定上都达到了SOTA性能,这也展示了视觉Transformer网络在这种需要长程依赖关系建模问题上的天然优势。

参考文献

[1] KJ Joseph, Salman Khan, Fahad Shahbaz Khan, and Vineeth N Balasubramanian. Towards open world object detection. In CVPR, 2021.

[2] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. In ICLR, 2021.


作者:seven_

Illustrastion by By Pixel True from Iconscout

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底凉凉!黄一鸣案判了,结果大快人心,难怪王思聪不认孩子

彻底凉凉!黄一鸣案判了,结果大快人心,难怪王思聪不认孩子

赵昉是个热血青年
2026-06-27 19:49:44
太离谱,郭士强最新发言引众怒,比乔尔杰维奇还过分,真该下课了

太离谱,郭士强最新发言引众怒,比乔尔杰维奇还过分,真该下课了

宗介说体育
2026-07-05 09:46:10
送走艾顿后湖人交易计划曝光:打包范德彪、克内克特追逐顶级侧翼

送走艾顿后湖人交易计划曝光:打包范德彪、克内克特追逐顶级侧翼

夜白侃球
2026-07-04 23:48:12
哈工大研究:能抗击慢性炎症的行为,不是运动!而是8个生活方式

哈工大研究:能抗击慢性炎症的行为,不是运动!而是8个生活方式

陈医生健康杂谈
2026-07-05 11:35:15
国产摩托历史性突破!张雪拳击手发动机点火成功打破宝马多年垄断

国产摩托历史性突破!张雪拳击手发动机点火成功打破宝马多年垄断

沙雕小琳琳
2026-07-05 09:47:41
韩红要崩溃了!央视重温播放《天路》,是原唱巴桑版本,评论炸锅

韩红要崩溃了!央视重温播放《天路》,是原唱巴桑版本,评论炸锅

火山詩话
2026-07-03 08:34:47
55岁李菁菁现状曝光:京郊务农每月注射,前夫在她治疗时直播分手

55岁李菁菁现状曝光:京郊务农每月注射,前夫在她治疗时直播分手

往史过眼云烟
2026-07-05 09:49:48
拿球砸姆巴佩!巴拉圭门将回应:是他先拒我的握手 然后我才冲动的

拿球砸姆巴佩!巴拉圭门将回应:是他先拒我的握手 然后我才冲动的

风过乡
2026-07-05 08:59:11
八强宿命对决!法国再战摩洛哥,姆巴佩期待复制上届半决赛战绩!

八强宿命对决!法国再战摩洛哥,姆巴佩期待复制上届半决赛战绩!

海浪星体育
2026-07-05 10:42:53
这 4 大岗位将被移出事业编!!!

这 4 大岗位将被移出事业编!!!

细说职场
2026-07-04 19:38:59
没完没了抹黑挑拨中俄!这群人源源不断带节奏,背后目的藏不住了

没完没了抹黑挑拨中俄!这群人源源不断带节奏,背后目的藏不住了

一国之君历史
2026-07-02 13:50:53
靠轮换发球法制胜!蒯曼4-3逆转佐藤瞳晋级美国大满贯四强!

靠轮换发球法制胜!蒯曼4-3逆转佐藤瞳晋级美国大满贯四强!

篮球资讯达人
2026-07-05 11:58:13
Netflix出品,这部韩剧后劲太大了

Netflix出品,这部韩剧后劲太大了

来看美剧
2026-07-04 23:53:53
沮丧,摩洛哥前锋赛巴里世界杯伤退后掩面,三天前他刚刚加盟拜仁

沮丧,摩洛哥前锋赛巴里世界杯伤退后掩面,三天前他刚刚加盟拜仁

懂球帝
2026-07-05 01:54:09
WTT美国大满贯:松岛辉空4-0横扫丹麦悍将,强势晋级4强

WTT美国大满贯:松岛辉空4-0横扫丹麦悍将,强势晋级4强

俯身冲顶
2026-07-05 06:16:54
豪掷1亿美元,签下3名球员,薪资已超奢侈税,火箭队就赌下赛季了

豪掷1亿美元,签下3名球员,薪资已超奢侈税,火箭队就赌下赛季了

兵哥篮球故事
2026-07-05 10:55:18
我国的老朋友叶利钦:归还大片领土,却被俄罗斯人视为罪人!

我国的老朋友叶利钦:归还大片领土,却被俄罗斯人视为罪人!

抽象派大师
2026-06-30 01:16:43
WTT美国大满贯:男单4强赛全部诞生,张本惨败,勒布伦渔翁得利

WTT美国大满贯:男单4强赛全部诞生,张本惨败,勒布伦渔翁得利

童叔不飙车
2026-07-05 00:26:41
7月5日足球世界杯推荐:精选4场赛事解析,巴西vs挪威,含比分!

7月5日足球世界杯推荐:精选4场赛事解析,巴西vs挪威,含比分!

足球二串大王
2026-07-05 08:23:20
iPhone Ultra定制版抢先亮相:7月4日预售,10.5万元

iPhone Ultra定制版抢先亮相:7月4日预售,10.5万元

搞机小帝
2026-07-04 17:27:00
2026-07-05 12:51:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

中国为何援助"中高收入国家"佛得角 媒体披露原因

头条要闻

中国为何援助"中高收入国家"佛得角 媒体披露原因

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

数码
亲子
旅游
游戏
公开课

数码要闻

华强北存储行情回升 多款固态硬盘、内存条价格上涨

亲子要闻

颠覆认知的新发现!出生仅几十小时的婴儿,竟自带天生数感?

旅游要闻

从“路过风景”到“观照内心”——全国工商联旅游业商会常务会长俞锦方谈西藏旅游

索尼放弃PS实体版游戏 价格垄断令玩家担忧

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版