网易首页 > 网易号 > 正文 申请入驻

CVPR 2022丨用“大白话“精确抠图!OPPO研究院提出CRIS框架,开启多模态预训练新进展

0
分享至

深度学习打天下的时代,多模态被众多学者“押注”为开启下一代人机交互的钥匙。尤其是OpenAI的CLIP模型,让人类见识了人工智能(AI)“打通”语言—视觉桎梏的威力。

虽然CLIP显著提升了一些图像级多模态任务,例如图文检索、视频文字检索等,但在像素级别多模态任务中表现不佳。例如“大白话抠图”这一图像指代分割(Referring Image Segmentation)领域。

如下图所示,当我们对着CLIP输入“一个金发的男孩,穿着蓝色的夹克”,简单微调的CLIP表现差强人意。

图注:CLIP抠图能力展示-Naive是指简单微调CLIP后的模型

近日,悉尼大学、墨尔本大学、OPPO研究院与快手科技等的研究员联合开发了CRIS,一种基于CLIP驱动图像指代分割框架,通过更加细粒度的多模态信息交互,对齐文本-像素的表征,完美实现“大白话抠图”。

效果如下:

输入:前头的那只斑马

输出:如下图。简单微调的CILP框架模糊了两只斑马,CRIS做到了完美识别。

图注:CILP与CRIS效果对比

准确聚焦多模态 匹配更细粒度的视觉概念

CRIS框架能够利用CLIP模型的知识来进行图像指代分割,具有强大的跨模态匹配能力。通俗而言,该框架能够准确聚焦“大白话”指定的图像区域。目前该项工作已被CVPR 2022收录。

实验表明,CRIS能够理解包含更多信息和重点的复杂句子,并同时“感知”到相应的对象。

1.本文的任务

让AI“顺畅”抠图

将语言与像素级别的视觉特征进行匹配,并学习更细粒度的视觉概念。

2.本文的创新

1.引入视觉-语言解码器,捕捉像素级特征的全局上下文关系,并将单词级的文本特征传 播 到像素级特征。

2.引入文本-像素的对比学习,对齐语言特征和对应的像素级特征,“筛出”不相关的像素级特征。

3.与CLIP有何不同

图注:CLIP与CRIS思想对比

CLIP遵循“双塔”架构,通过对比学习将图像和文本的特征在表征空间中进行对齐,从而学习到丰富的视觉概念。

CRIS能将细粒度的语义信息进行跨模态传递,并通过融合所有的像素级视觉特征与全局文本特征,采用对比学习将文本和相关的像素级特征拉近,同时,将无关的像素特征推远。

超越主流架构 完美解决CLIP不够细致问题

总体而言,CRIS模型有三部分组成:图像&文本特征提取、视觉—语言解码器、文本—像素级对比学习。

图注:CLIP驱动的图像指代分割框架

在图像和文本特征提取阶段 , 研究员设计了图像编码器、文本编码器、跨模态Neck等几部分。在图像编码器中,使用了ResNet的第2-4阶段进行提取多重视觉特征;文本编码器是指借用GPT-2的Transformer模式提取文本特征;而跨模态Neck的作用是通过融合文本和视觉特征获得多模态特征。

视觉—语言解码器 用来将语义信息从文本特征传递到视觉特征。解码器由n层网络组成,按照 Transformer 的标准架构,网络的每一层都包含一个多头自我注意层、一个多头交叉注意层和一个前馈网络。

文本特征和视觉特征作为输入,并在两个特征中加入位置编码进行捕捉位置信息。在训练过程中,首先将视觉特征输入多头自我注意层,目的是为了获得全局信息,即”进化“后的视觉特征。随后,采用多头交叉注意层将细粒度的语义信息”传递“到进化的视觉特征中,得到多模态特征。

文本—像素级对比学习用文本特征和像素级视觉特征的交互,获得细粒度的多模态信息。此举是为了解决CLIP不够“细致”的问题。

具体而言,先将“全局”文本和图像用下面的公式进行“改造”,其中, 和 是偏差, 和 是可学习的矩阵,用来将文本和图像转换成相同特征维度:

给定变换后的文本特征 和 像素级特征,定义文本—像素对比损失函数:

其中P和N表示正确样例(ground truth)中的“1”和“0”类,|P∪N|是基数(cardinality),σ是Sigmoid函数。最后,为了得到最终结果,将 重塑为 (H和W是原始图像的高和宽),并将其上采样至原始图像大小。

全方位超越SOTA 定性&定量“双料”实验着力论证

为了评估框架的有效性,研究员在三个主流的数据基准上进行了实验。具体包括RefCOCO、RefCOCO+、G-Ref。

实验过程中,用CLIP初始化文本和图像编辑器,用ResNet-50设计消融实验,并使用学习率 λ = 0.0001的Adam优化器训练,对网络进行 50 迭代轮次 (epoch) 的训练。在评价指标层面,采用IoU和 Precision@X两个主流指数评估方法有效性。

1.定量实验

与当前SOTA(state-of-the-art)方法对比结果如下表所示,CLIP驱动的图像指代分割在三个数据获得了更优的性能指标。例如在G-Ref数据集,比定位分割(Locate then Segmentation)在IOU上提高了5%。

2.定性实验

CLIP驱动的图像指代分割会提升实际体验么?如下图,研究员根据不同的设置,展示了可视化结果:没有对比学习和视觉-语言解码器的基线网络(c图),有着准确率更差的分割效果;单独缺少编码器(d图)和对比学习(e图)也会在某些区域出现“混沌”。

图注:不同设置下的可视化实验

3.消融实验

首先将删除文本—像素级对比学习与视觉—语言解码器的框架作为基线,然后将对比学习引入框架,实验结果如下表所示,IoU指标分别提升了1.98%、2.98% 和 3.43%;引入视觉—语言解码器之后,IoU也有一定幅度的改进。改进的原因,可能是这两个“组件”能帮助模型找到更多的信息,并将其迁移到更准确的像素级视觉特征中。

表注:模型在三个基准数据集上进行消融实验的结果

此外,还对视觉-语言解码器层数的作用进行了探究。如上表所示,当层数设置为n=1时,模型无法充分利用视觉和语言的多模态信息;当层数设置为n=4时,可能有过拟合的风险。因此,考虑到性能和效率,研究员将层数n = 3设置为默认值,且获得了准确率上的改进。

总结

本文研究的图像指代分割问题是计算机视觉与自然语言处理交叉领域中的一个重要问题,具有广泛的实际价值 和 长远的应用前景。在本文中,研究员通过创新CLIP结构,使得AI能够更准确理解图像与文本两种模态的数据。

未来,OPPO会继续将CRIS扩展到更多的需要应用图像指代分割问题的领域,例如在智能家居层面,帮助构建通过“喊话”就能准确命令家居机器人的系统。

OPPO 研究院 智能感知与交互研究部 计算机视觉算法岗位(全职和实习生)热招中!简历投递邮箱:liyaqian@oppo.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
偷偷代表国家出战?结果0比6惨败被外网嘲讽,原因抽象又离谱

偷偷代表国家出战?结果0比6惨败被外网嘲讽,原因抽象又离谱

17173游戏网
2026-05-15 14:24:26
恭喜白雨露!德比战轰3-0进世锦赛16强,追平1纪录,9000奖金到手

恭喜白雨露!德比战轰3-0进世锦赛16强,追平1纪录,9000奖金到手

刘姚尧的文字城堡
2026-05-16 10:46:51
原来梁靖崑的老婆是她,难怪能成为世界冠军,日本队输得不冤!

原来梁靖崑的老婆是她,难怪能成为世界冠军,日本队输得不冤!

林轻吟
2026-05-16 11:31:52
停更3年,千万粉丝网红改名宣布回归,4小时涨粉240万

停更3年,千万粉丝网红改名宣布回归,4小时涨粉240万

天津生活通
2026-05-14 10:34:09
北京官方收废品小程序上线!上门回收

北京官方收废品小程序上线!上门回收

家住昌平
2026-05-15 18:18:36
我两次住院儿媳都出去旅游,得知我把家产全给了女儿,她嚎啕大哭

我两次住院儿媳都出去旅游,得知我把家产全给了女儿,她嚎啕大哭

蝉吟槐蕊
2026-05-16 06:58:32
印度会重陷惨烈的韩元保卫战吗?

印度会重陷惨烈的韩元保卫战吗?

顾蔡卫
2026-05-16 01:17:50
A股又现大牛股,股价年内飙涨500%

A股又现大牛股,股价年内飙涨500%

21世纪经济报道
2026-05-16 10:24:01
分析:乌克兰真的在扭转战局吗?

分析:乌克兰真的在扭转战局吗?

被误解的时候能微微一笑
2026-05-12 16:39:15
这款99美元的手环,正在劝退所有戴智能手表的人

这款99美元的手环,正在劝退所有戴智能手表的人

时光慢邮啊
2026-05-15 01:31:26
特朗普贴身女助手被曝可随意使用总统手机,不受控行为引白宫不满

特朗普贴身女助手被曝可随意使用总统手机,不受控行为引白宫不满

译言
2026-05-15 22:04:51
三胎生父被曝后,张柏芝案终于判了,好消息传来难怪早已立好遗嘱

三胎生父被曝后,张柏芝案终于判了,好消息传来难怪早已立好遗嘱

叨唠
2026-05-15 04:02:27
海底捞男童烫伤后续,家长带媒体上门曝光,结果把自己曝光了

海底捞男童烫伤后续,家长带媒体上门曝光,结果把自己曝光了

天天热点见闻
2026-05-16 08:49:53
万万没想到!特朗普人还没到中国,内塔尼亚胡就开始敲打中国了!

万万没想到!特朗普人还没到中国,内塔尼亚胡就开始敲打中国了!

朝子亥
2026-05-16 12:05:03
随着中国3-1,日本5-0,U17亚洲杯最新排名出炉!中国晋级四强

随着中国3-1,日本5-0,U17亚洲杯最新排名出炉!中国晋级四强

薇说体育
2026-05-16 11:46:50
日媒:落选2010世界杯后,香川真司一度拒绝作为候补队员前往南非

日媒:落选2010世界杯后,香川真司一度拒绝作为候补队员前往南非

懂球帝
2026-05-16 00:24:11
从傲慢到沉默再到承认,三天中国行后,鲁比奥给了解放军一个排名

从傲慢到沉默再到承认,三天中国行后,鲁比奥给了解放军一个排名

阿绐聊社会
2026-05-16 10:40:51
福州市仓山区民政局原党组书记、局长陈晶被查

福州市仓山区民政局原党组书记、局长陈晶被查

海峡网
2026-05-15 15:50:04
A股:大家系好安全带了,不出意外的话,A股或将迎来黑色星期一?

A股:大家系好安全带了,不出意外的话,A股或将迎来黑色星期一?

趋势清风侠
2026-05-16 11:02:29
自我怀疑:这离谱的身材,是怎么长得?

自我怀疑:这离谱的身材,是怎么长得?

飛娱日记
2026-05-01 06:59:49
2026-05-16 12:47:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7280文章数 20751关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

30岁女子用爬楼机锻炼几分钟摔倒 抢救110分钟后身亡

头条要闻

30岁女子用爬楼机锻炼几分钟摔倒 抢救110分钟后身亡

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

家居
游戏
教育
旅游
房产

家居要闻

110㎡淡而有致的生活表达

电影收获好评后 《真人快打11》玩家数逼近最新作

教育要闻

市教委主任点赞!京城名校长不让孩子“你上我下的竞争”牛在哪里?

旅游要闻

广州“惠”启“5·19中国旅游日”全国主会场活动

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

无障碍浏览 进入关怀版