网易首页 > 网易号 > 正文 申请入驻

TPAMI 2022 | 程明明团队提出LUSS:大规模无监督语义分割

0
分享至

语义分割是计算机视觉领域中被广泛关注的一个研究方向,其旨在针对图像中每一个像素进行分类。由于语义分割的固有挑战,目前大多数工作都关注于多样性受限(例如几十类)且数据规模受限场景的语义分割。尽管许多方法在这些受限的场景中取得了显著的效果,但是面对现实世界中常用的几百上千类物体规模带来的新挑战时,现有方法难以解决。这促使我们思考一个更具有挑战性的问题:语义分割是否可能用于多样性更强且规模更大的现实世界场景呢?

论文链接: https://arxiv.org/abs/2106.03149 代码链接: https://github.com/LUSSeg

由于巨大的数据规模和隐私问题,为现实世界场景的海量图像进行像素级标注是十分昂贵的。缺乏足够的标注数据限制了大规模语义分割任务的发展。另一方面,用数百万张甚至数十亿张图片(例如ImageNet, JFT-300M, 和Instagram-1B)进行无监督/自监督训练得到的分类模型已经展现出与有监督学习相当的分类能力。这促使我们考虑是否可以通过无监督学习的方式实现真实世界场景语义分割的目标。为此我们提出了一个新的问题:大规模无监督语义分割(Large-scale Unsupervised Semantic Segmentation,LUSS)。如图1所示,LUSS 任务的目标是在没有人工标注监督的情况下,通过模型自我学习从大规模图像数据中总结出多样化的语义类别,并将成百上千个类别分配给数百万以上的图像中的每个像素。

图表 1 LUSS任务的目标是模型在没有人类标注的情况下,通过自我学习将数百上千个类别中的标签分配给数百万以上的图像中的像素。
一、挑战

实现LUSS这一目标面临许多挑战,例如需要同时解决大规模数据下的形状相关的表征学习,类别相关的表征学习以及无监督的语义聚类。具体而言,模型需要提取类别相关的表征来区分大量类别,并利用物体形状、纹理和边界等像素级表征实现对物体的分割。两种表征在不冲突的情况下相互配合对实现 LUSS 至关重要。基于相关表征,模型需要利用鲁棒且高效的聚类算法从大规模数据中生成语义类别。同时,对像素进行分割需要准确地区分语义相关和无关的区域。

二、前景

实现LUSS任务使在现实世界场景下实现语义分割成为可能。同时,解决LUSS的挑战也能进一步提升许多相关任务的性能。例如,在LUSS任务中学习到的形状、类别相关的表征使LUSS模型可以被用作语义分割和实例分割等像素级下游任务的预训练模型。此外,利用小部分人工标注数据微调LUSS模型的半监督学习策略能够使LUSS 模型快速得到实际应用。


三、LUSS Benchmark和ImageNet-S数据集

为了方便评测对比,我们提出了一个LUSS benchmark,包括一个具有高度多样性的大规模数据集ImageNet-S和侧重不同角度的多种评价指标。

ImageNet-S数据集:

基于广泛使用的ImageNet[1]数据集中的精确像素级标签[1,2],我们提出了一个用于LUSS 任务的大规模像素级语义分割数据集 ImageNet-S。在移除了部分不可分割的类别后,ImageNet-S含有 ImageNet中的919 个类别和约120 万张训练图片。为更加全面地评测LUSS 任务并且探索未来的应用,我们为4万余张测试图片和约1%的训练图片(约9千张)提供了像素级语义分割标注。

ImageNet-S 数据集为LUSS任务提供了多样性强的大规模数据,在充分展示LUSS任务的挑战性的同时也为模型获取丰富的表征信息提供了数据支持。如图表2所示,ImageNet-S在数量规模和类别多样性上远高于常用的语义分割数据集。且得益于ImageNet的WordTree结构,ImageNet-S具有层次化的多粒度类别分级(图3)。为方便在计算资源有限的情况下进行研究,我们也划分了包含300类和50类的子集。ImageNet-S可在https://github.com/LUSSeg/ImageNet-S下载使用。

图表 2语义分割数据集图片数量类别统计。

图表 3 ImageNet-S层次化类别结构树。

ImageNet-S数据集除了可支持LUSS任务外,也可通过部分的训练集像素级标注实现半监督的大规模语义分割,从而对backbone模型的表征能力和自监督模型的表征能力进行评估。我们开源了一个用于半监督大规模语义分割的代码库,正在集成常见的backbone模型和自监督模型。

半监督大规模语义分割代码库 https://github.com/LUSSeg/ImageNetSegModel

LUSS的丰富评测指标:

由于在训练过程中没有人工标注的类别监督,LUSS模型不能像有监督模型一样进行直接评测。为此,我们为LUSS提出了三个评估方案,包括完全无监督评测,半监督评测以及基于距离匹配的评测。完全无监督评测将GT类别与模型生成的类别相匹配实现评测;半监督评测通过利用ImageNet-S的部分训练集语义分割标注来微调模型实现评测;基于距离匹配的评测通过对比训练集和测试集的表征距离实现评测。我们提供了测试集在线评测网站以供大家公平对比。

在线评测网站 https://lusseg.github.io

四、LUSS 基线方法

图表 4 LUSS任务的基线方法(PASS)。

如图表4所示,我们提出了一个用于 LUSS 任务的基线方法(名为PASS),包含自监督表征学习,伪标签生成和微调三个步骤。对于自监督表征学习,我们提出了

1. 一种非对比的像素级表征对齐策略,以在不损害类别表征的情况下增强像素级的表征。

2. 一个提高网络中间层表征质量的自深到浅的监督策略。

以上两种策略保证模型学到高质量且可共存的形状和类别表征信息。在标签生成阶段,我们提出了一种像素注意力机制来突出对类别贡献大的语义区域,以实现在大数据量下高效的像素级伪标签生成和微调。

PASS方法首次实现大规模的无监督语义分割(可视化结果见图表5),且相较于针对小规模数据设计的无监督语义分割方法有明显优势(见图表6)。此外如图表7所示,针对LUSS任务训练的PASS模型可以作为预训练模型提升下游有监督分割任务的性能。

PASS方法开源代码: https://github.com/LUSSeg/PASS

五、展望

LUSS任务与模型预训练、半监督学习、语义聚类、高效网络结构设计等方向密切相关。即使在算力有限的情况下,依然可以基于现有的自监督预训练模型来设计更强的大规模无监督语义分割算法。研究者也可使用ImageNet-S 300/50类的子集用较少算力进行包括自监督预训练在内LUSS算法的研究,例如只需要2张GPU用十几小时即可完成50类子集上无监督语义分割的完整训练。此外,得益于ImageNet-S的部分训练集像素级标注,可以用极低的计算开销进行半监督训练,例如只用单张GPU只需约1小时即可完成近千类语义分割任务的finetune训练。

图表 5 PASS方法在大规模无监督语义分割的可视化效果。

图表 6 PASS在LUSS任务下的性能。

图表 7 针对LUSS任务训练的PASS方法可以作为预训练提升有监督下游分割任务的性能。
Reference

[1] Deng, et al. “Imagenet: A large-scale hierarchical image database.” IEEE CVPR 2009.

[2] Beyer, et al. “Are we done with imagenet?.” arXiv 2020.

[3] Gao, et al. “Large-scale Unsupervised Semantic Segmentation”, IEEE TPAMI 2022.

作者:程明明 文章来源:知乎文章【https://zhuanlan.zhihu.com/p/579982777】

Illustr ation by Pixel true from Ic o n Scout

-The End-‍

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗再遭重击!伊拉克两大亲伊武装交枪,下一个真主党谁还敢当?

伊朗再遭重击!伊拉克两大亲伊武装交枪,下一个真主党谁还敢当?

通鉴史智
2026-06-04 14:50:40
全是眼泪!《主角》48集大结局:4人下线,忆秦娥丧夫又丧子!

全是眼泪!《主角》48集大结局:4人下线,忆秦娥丧夫又丧子!

阿纂看事
2026-06-03 20:03:25
难以置信!网传一家长因孩子跳舞没站C位,怒斥老师“要你好看”

难以置信!网传一家长因孩子跳舞没站C位,怒斥老师“要你好看”

火山詩话
2026-06-03 06:10:09
人民日报发文锐评《主角》,只字未提张艺谋,却给张艺谋提了个醒

人民日报发文锐评《主角》,只字未提张艺谋,却给张艺谋提了个醒

秋别离
2026-06-04 13:41:15
两位院士候选人接连被查

两位院士候选人接连被查

中国新闻周刊
2026-06-03 20:03:49
配角的实力有多强?当志愿军浴血奋战时,朝鲜人民军在干什么?

配角的实力有多强?当志愿军浴血奋战时,朝鲜人民军在干什么?

混沌录
2026-05-19 20:17:54
美国洛马怎么也没料到,没缴中国的990亿罚单,后果竟如此严重?

美国洛马怎么也没料到,没缴中国的990亿罚单,后果竟如此严重?

荷兰豆爱健康
2026-06-04 06:48:22
近70万海归挤回国,海归硕士求职被一句“我们不承认”给堵了回去

近70万海归挤回国,海归硕士求职被一句“我们不承认”给堵了回去

杰丝聊古今
2026-06-04 12:56:50
大换血!伊劳拉执掌利物浦后 阵中6人或将告别安菲尔德?

大换血!伊劳拉执掌利物浦后 阵中6人或将告别安菲尔德?

球事百科吖
2026-06-04 12:27:46
6月4日,人社部关于2026年调整退休人员基本养老金的通知公布了吗

6月4日,人社部关于2026年调整退休人员基本养老金的通知公布了吗

社保小达人
2026-06-03 09:50:27
155就被叫高达?看完身高分级,终于懂了日漫女主为什么都很矮

155就被叫高达?看完身高分级,终于懂了日漫女主为什么都很矮

国创漫话
2026-06-03 08:48:59
山东美女老板“大静静”去世,年仅42岁,日常开路虎,还有貂衣店

山东美女老板“大静静”去世,年仅42岁,日常开路虎,还有貂衣店

裕丰娱间说
2026-06-03 22:42:24
30亿甩卖1000家肯德基!外资连夜撤场,三家资本疯抢,谁拿谁通吃

30亿甩卖1000家肯德基!外资连夜撤场,三家资本疯抢,谁拿谁通吃

青眼财经
2026-06-03 13:35:54
老年人过夫妻生活时,要注意哪些问题?提醒:这5件事不能大意

老年人过夫妻生活时,要注意哪些问题?提醒:这5件事不能大意

健康科普365
2026-06-03 20:40:06
菲律宾争夺安理会席位惨败,票选结果被狠狠打脸

菲律宾争夺安理会席位惨败,票选结果被狠狠打脸

李橑在北漂
2026-06-04 10:46:41
克拉克森登场,目前NBA总决赛场上有两位菲律宾球员

克拉克森登场,目前NBA总决赛场上有两位菲律宾球员

懂球帝
2026-06-04 09:52:13
上海女排阵容更新迭代落地,蔡斌带队奔赴南京,多位老将选择退役

上海女排阵容更新迭代落地,蔡斌带队奔赴南京,多位老将选择退役

老觷系戏精北鼻
2026-06-04 14:41:38
年度旗舰要来了:华为Mate90外观实锤,延续经典圆形设计

年度旗舰要来了:华为Mate90外观实锤,延续经典圆形设计

互联鱼
2026-06-04 11:29:51
1230万欧对赌!若不签罗德里+哈兰德 里克尔梅付皇马10万会员会费

1230万欧对赌!若不签罗德里+哈兰德 里克尔梅付皇马10万会员会费

天光破云来
2026-06-04 11:36:09
"80后"李辉任四川省委副秘书长、省公务服务中心主任

"80后"李辉任四川省委副秘书长、省公务服务中心主任

中国经济网
2026-06-04 11:08:08
2026-06-04 15:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2402文章数 596关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

头条要闻

德国在联大遭遇"惨败" 德外长指责俄罗斯

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

亲子
手机
教育
健康
公开课

亲子要闻

高龄备孕很久为什么就是怀不上呢?卵巢功能衰退还能受孕吗?

手机要闻

苹果最新iPhone隐私广告指责Chrome等浏览器存在追踪问题

教育要闻

你们微笑高考、轻松跨越,未来的路 你们只管勇往直前

违规干细胞抗衰美容,为何肆无忌惮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版