网易首页 > 网易号 > 正文 申请入驻

何恺明等最新论文:实例分割全新方法TensorMask,效果比肩 Mask R-CNN

0
分享至

新智元报道

来源:arxiv

编辑:肖琴

【新智元导读】FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask,首次在定性和定量上都接近于 Mask R-CNN 框架,为探索密集实例分割方法提供基础。

现代实例分割方法主要是先检测对象边界框,然后进行裁剪和分割, Mask R-CNN 是目前这类方法中最优秀的。

近日,来自 FAIR 的陈鑫磊、Ross Girshick、何恺明、Piotr Dollar 等人发表一篇新论文“TensorMask: A Foundation for Dense Object Segmentation”,从一个新的方向解决实例分割问题,并提出了一个名为 TensorMask 的通用框架。

论文地址:

https://arxiv.org/pdf/1903.12174.pdf

作者表示,TensorMask 达到了与 Mask R-CNN 相当的结果,有助于更全面地理解这项任务。

Ross Girshick、何恺明、Piotr Dollar 三人也是 Mask R-CNN 的作者,一作陈鑫磊博士毕业于 CMU,导师是 Tom Mitchell 教授,并曾在谷歌云 AI 李飞飞、李佳的指导下实习。

TensorMask:将实例分割视为4D张量预测

在密集、规则的网格上生成边界框对象预测的滑动窗口目标检测器 (sliding-window object detectors) 已经得到迅速发展,并得到了广泛的应用。

与此相反,现代的实例分割方法主要是先检测对象边界框,然后进行裁剪和分割,Mask R-CNN 推广了这种方法。

在这项工作中,我们研究了密集滑动窗口实例分割 (dense sliding-window instance segmentation) 的范例,令人惊讶的是,这方面的研究十分不足。

我们的核心发现是,这项任务与其他的密集预测任务 (如语义分割或边界框对象检测) 有本质的不同,因为每个空间位置的输出本身就是一个几何结构,具有自己的空间维度。

为了形式化地说明这一点,我们将密集实例分割视为一个 4D 张量 (4D tensors) 的预测任务,并提出了一个名为 TensorMask 的通用框架,该框架显式地捕获这种几何图形,并支持对 4D tensors 使用新的操作符。

图 1:TensorMask 的输出。我们将密集实例分割作为一种基于结构化 4D 张量的预测任务。除了获得具有竞争力的定量结果,TensorMask 还获得了定性上合理的结果。图中小的和大的物体都被很好地描绘出来,并且,重叠的物体也被正确地处理了。

我们证明了 tensor 这种想法可以相比 baseline 获得较大的增益,并且可以得到与Mask R-CNN 相当的结果。这些结果表明, TensorMask 可以作为密集掩码预测的新进展的基础,有助于更全面地理解这项任务。我们将发布本研究的代码。

弥补差距:实例分割中的密集方法

滑动窗口 (sliding-window) 范例 —— 通过查看放置在一组密集图像位置上的每个窗口来查找对象 —— 是计算机视觉中最早、也是最成功的概念之一,并且这个概念自然地与卷及网络相关。

然而,尽管目前性能最好的对象检测器依赖于滑动窗口预测来生成初始候选区域,但获得更准确的预测主要来自对这些候选区域进行细化的阶段,如 Faster R-CNN 和 Mask R-CNN,分别用于边界框目标检测和实例分割。这类方法已经主导了 COCO 目标检测挑战赛。

近年来,诸如 SSD 和 RetinaNet 之类的边界框目标检测器,避开了 “细化” 这个步骤,专注于直接的滑动窗口预测,已经有了复苏的趋势,并显示出有希望的结果。

相比之下,该领域在密集滑动窗口实例分割方面并没有取得同等的进展;对于 mask prediction,没有类似于 SSD / RetinaNet 这样的直接、密集的方法。

为什么密集的方法在边界框检测方面进展迅速,而在实例分割方面却完全缺失?这是一个基本科学上的问题。这项工作的目标就是弥补这一差距,并为探索密集实例分割方法提供基础

我们的主要观点是,定义 dense mask representations 的核心概念,以及这些概念在神经网络中的有效实现,都是缺乏的。

与边界框不同,边界框具有固定的低维表示而不考虑比例,分割掩码 (segmentation masks) 可以从更丰富、更结构化的表示中获益。例如,每个 mask 本身是一个 2D 空间映射,较大对象的 mask 可以受益于较大空间映射的使用。为 dense masks 开发有效的表示是实现密集实例分割的关键步骤。

为了解决这个问题,我们定义了一组用高维张量表示 mask 的核心概念,这些概念允许探索用于 dense mask prediction 的新颖网络架构。为了证明所提出的表示的优点,我们提出了几个这样的网络并进行了实验。

我们的框架称为 TensorMask,它建立了第一个密集滑动窗口实例分割系统,其结果接近于 Mask R-CNN。

左:自然表示。右:对齐表示 (Aligned representation)。

TensorMask 表示的核心想法是使用结构化的 4D tensors 表示空间域上的 mask

与以前的面向通道的方法不同,我们建议利用形状 (V, U, H, W) 的 4D tensors,其中(H, W) 表示目标位置,(V, U) 表示对应的 mask 的位置,它们都是几何子张量,也就是说,它们的轴有明确定义的 units 和关于图像的几何意义。

这种从非结构化通道轴上的 encoding masks 到使用结构化几何子张量的视角转变,使得定义新的操作和网络架构成为可能。这些网络可以以几何上有意义的方式直接作用于(V, U) 子张量,包括坐标变换、up-/downscaling 和金字塔的使用。

在 TensorMask 框架的支持下,我们在一个 4D tensors 的标度索引列表上建立了一个金字塔结构,我们称之为张量双金字塔 ( tensor bipyramid)。与特征金字塔类似,tensor bipyramid 是一个多尺度特征映射列表,它包含一个形状为 2kV、2ku、12kh、12kw 的 4D 张量列表,其中 k≥0 个索引尺度。这种结构在 (H, W) 和 (V, U) 几何子张量上都呈金字塔形状,但方向相反。这种设计捕捉了大对象具有粗糙空间定位的高分辨率 mask(大 k) 和小对象具有精细空间定位的低分辨率 mask(小 k) 的理想特性。

feature pyramid 和 tensor bipyramid 的比较

我们将这些组件组合成一个网络骨干和训练程序,类似 RetinaNet,其中我们的 dense mask predictor 扩展了原始的密集边界框预测器。

通过详细的消融实验,我们评估了 TensorMask 框架的有效性,并证明了明确捕捉该任务的几何结构的重要性。最后,我们展示了 TensorMask 与对应的 Mask R-CNN 产生了相似的结果 (见图 1 和图 2)。

TensorMask的架构

TensorMask 框架的核心思想是使用结构化的高维张量来表示一组密集滑动窗口中的图像内容 (例如 masks)。

图 2:使用 ResNet-101-FPN 骨干的 TensorMask 和 Mask R-CNN 的示例结果 (与图 6中使用的 Mask R-CNN 的图像相同)。结果在定量和质量上都很相似,表明密集滑动窗口范式确实可以有效地用于实例分割任务。请读者猜猜哪些结果是 TensorMask 生成的(答案见文末)。

TensorMask架构

我们已经展示了采用 TensorMask representations 的模型。这些模型有一个在滑动窗口中生成 masks 的 mask prediction head,以及一个用于预测对象类别的classification head,类似于滑动窗口目标检测器中的 box regression 和 classification heads。

实验和结果

我们报告了 COCO 实例分割的结果。所有的模型都在 ~118k train2017 图像上进行训练,并在 5k val2017 图像上进行测试。最终结果在 test-dev 上。我们使用 COCO mask 的平均精度 (用 AP 表示)。box AP 用 APbb 表示。

TensorMask 表示

首先,我们研究了使用 V =U=15 和 ResNet-50-FPN 骨干的 mask 的各种张量表示。表2 报告了定量结果,图 2 和图 9 显示了定性比较。

表2

与 Mask R-CNN 的比较

表 3 总结了 test-dev 上最好的 TensorMask 模型,并将其与当前用于 COCO 实例分割的主流方法 Mask RCNN 进行了比较。

表3

如上表所示,最好的 TensorMask 在 test-dev 上达到了 35.5 mask AP,接近于 mask R-CNN 的 36.8。

在 ResNet-101 中,TensorMask 实现了 37.3 mask AP,与 mask R-CNN 相比只有 1.0 AP 差距。

这些结果表明,密集滑动窗口方法可以缩小与 “先检测后分割” 方法的差距。定性结果如图 2、10、11 所示。

结论

TensorMask 是一个 dense sliding-window 实例分割框架,首次在定性和定量上都接近于 Mask R-CNN 框架。TensorMask 为实例分割研究建立了一个概念互补的方向。

(图2答案:第一行是Mask R-CNN的结果,第二行是TensorMask的结果。)

论文地址:

更多阅读

  • 大学统计学白上了?800多科学家联名反对“统计学意义”,P值该废了
  • 中国籍博士一作登Nature封面:仿生群体机器人问世,工程学重大突破!

【2019新智元 AI 技术峰会精彩回顾

2019年的3月27日,新智元再汇AI之力,在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云芯世界“为主题,聚焦智能云和AI芯片的发展,重塑未来AI世界格局。

同时,新智元将在峰会现场权威发布若干AI白皮书,聚焦产业链的创新活跃,评述AI独角兽影响力,助力中国在世界级的AI竞争中实现超越。

现场精彩回顾:

爱奇艺(全天):

https://live.iqiyi.com/s/19rsj6q75j.html

头条科技(上午):

m.365yg.com/i6672243313506044680/

头条科技(下午):

m.365yg.com/i6672570058826550030/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒸发1万亿!阿里巴巴,又跌麻了

蒸发1万亿!阿里巴巴,又跌麻了

财经锐眼
2026-03-24 18:09:57
张雪峰是AC米兰铁杆球迷,喜欢卡卡,俱乐部官方发文悼念

张雪峰是AC米兰铁杆球迷,喜欢卡卡,俱乐部官方发文悼念

米修体育
2026-03-25 04:30:53
撕破脸!16国印太联盟露獠牙:日本造导弹、菲律宾囤弹药

撕破脸!16国印太联盟露獠牙:日本造导弹、菲律宾囤弹药

老马拉车莫少装
2026-03-23 19:52:39
管泽元升级当爸爸!余霜官宣怀孕秒上热搜,众多电竞圈好友送祝福

管泽元升级当爸爸!余霜官宣怀孕秒上热搜,众多电竞圈好友送祝福

暴龙电竞号
2026-03-24 23:08:01
国内50万人大型研究:吃水煮蛋增加胆囊炎和高血脂风险,还能吃吗

国内50万人大型研究:吃水煮蛋增加胆囊炎和高血脂风险,还能吃吗

任医生聊健康
2026-03-24 13:54:12
800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

聚峰军评
2026-03-24 15:08:30
悬念不大!西部季后赛潜在对阵,大概率是这4组,全都是恩怨对决

悬念不大!西部季后赛潜在对阵,大概率是这4组,全都是恩怨对决

老梁体育漫谈
2026-03-25 00:03:38
女老师亲自出镜拍摄淫秽视频售卖最新后续,长相甜美,照片曝光

女老师亲自出镜拍摄淫秽视频售卖最新后续,长相甜美,照片曝光

老猫观点
2026-03-24 08:03:54
不要把女儿送出国留学!黄多多和考拉陷入风波,黄磊钟丽缇后悔了

不要把女儿送出国留学!黄多多和考拉陷入风波,黄磊钟丽缇后悔了

小撇说事
2026-03-23 23:34:24
楼上打工楼下透析续命!广州一制衣工厂超半数工人是尿毒症患者,老板:我做的是一件小事

楼上打工楼下透析续命!广州一制衣工厂超半数工人是尿毒症患者,老板:我做的是一件小事

上观新闻
2026-03-24 07:29:07
“怎么油价这么便宜”,男子加完油才发现竟是“中园石化”!涉事加油站已经营10多年,监管部门回应

“怎么油价这么便宜”,男子加完油才发现竟是“中园石化”!涉事加油站已经营10多年,监管部门回应

环球网资讯
2026-03-24 14:58:34
北京凌晨收到消息:日本砸36亿,想取代中国,考验印尼的时候到了

北京凌晨收到消息:日本砸36亿,想取代中国,考验印尼的时候到了

傲傲讲历史
2026-03-25 04:34:57
六部门:稳步推进农村供水价格改革

六部门:稳步推进农村供水价格改革

财联社
2026-03-24 11:49:09
上海足协宣布对上海海港U20队员的处罚决定

上海足协宣布对上海海港U20队员的处罚决定

五星体育
2026-03-24 23:39:16
315晚会后,不出意外的话,这7样东西再“无人问津”,白给也不要

315晚会后,不出意外的话,这7样东西再“无人问津”,白给也不要

海豚女王
2026-03-25 04:16:54
美国和以色列之间,一个变化正越来越明显!

美国和以色列之间,一个变化正越来越明显!

环球时报国际
2026-03-24 13:33:21
蔡崇信-阿里为战略误判付出超千亿代价,附最新访谈资料

蔡崇信-阿里为战略误判付出超千亿代价,附最新访谈资料

零售商业财经
2026-03-24 00:29:16
3.7万到12万+!高校思政课教师规模大增长

3.7万到12万+!高校思政课教师规模大增长

麦可思研究
2026-03-24 10:04:37
秦岭两位垃圾哥已经道歉,遭网暴后两人连觉都睡不好

秦岭两位垃圾哥已经道歉,遭网暴后两人连觉都睡不好

映射生活的身影
2026-03-24 16:12:25
楼市释放重磅信号!李嘉诚家族重返房地产,央媒76字直接定调

楼市释放重磅信号!李嘉诚家族重返房地产,央媒76字直接定调

复转这些年
2026-03-24 11:03:55
2026-03-25 07:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14804文章数 66718关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

美方拟停火一个月 15点结束伊朗冲突方案披露

头条要闻

美方拟停火一个月 15点结束伊朗冲突方案披露

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

教育
旅游
数码
房产
家居

教育要闻

重庆大学1死3伤后续:离世者是在读研究生,原因曝光

旅游要闻

花开颐和园

数码要闻

雷蛇新品来袭!毒蝰V4和巨甲虫V2专业版亮相

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

家居要闻

智慧生活 奢享家居

无障碍浏览 进入关怀版