网易首页 > 网易号 > 正文 申请入驻

CVPR 2022丨用“大白话“精确抠图!OPPO研究院提出CRIS框架,开启多模态预训练新进展

0
分享至

深度学习打天下的时代,多模态被众多学者“押注”为开启下一代人机交互的钥匙。尤其是OpenAI的CLIP模型,让人类见识了人工智能(AI)“打通”语言—视觉桎梏的威力。

虽然CLIP显著提升了一些图像级多模态任务,例如图文检索、视频文字检索等,但在像素级别多模态任务中表现不佳。例如“大白话抠图”这一图像指代分割(Referring Image Segmentation)领域。

如下图所示,当我们对着CLIP输入“一个金发的男孩,穿着蓝色的夹克”,简单微调的CLIP表现差强人意。

图注:CLIP抠图能力展示-Naive是指简单微调CLIP后的模型

近日,悉尼大学、墨尔本大学、OPPO研究院与快手科技等的研究员联合开发了CRIS,一种基于CLIP驱动图像指代分割框架,通过更加细粒度的多模态信息交互,对齐文本-像素的表征,完美实现“大白话抠图”。

效果如下:

输入:前头的那只斑马

输出:如下图。简单微调的CILP框架模糊了两只斑马,CRIS做到了完美识别。

图注:CILP与CRIS效果对比

准确聚焦多模态 匹配更细粒度的视觉概念

CRIS框架能够利用CLIP模型的知识来进行图像指代分割,具有强大的跨模态匹配能力。通俗而言,该框架能够准确聚焦“大白话”指定的图像区域。目前该项工作已被CVPR 2022收录。

实验表明,CRIS能够理解包含更多信息和重点的复杂句子,并同时“感知”到相应的对象。

1.本文的任务

让AI“顺畅”抠图

将语言与像素级别的视觉特征进行匹配,并学习更细粒度的视觉概念。

2.本文的创新

1.引入视觉-语言解码器,捕捉像素级特征的全局上下文关系,并将单词级的文本特征传 播 到像素级特征。

2.引入文本-像素的对比学习,对齐语言特征和对应的像素级特征,“筛出”不相关的像素级特征。

3.与CLIP有何不同

图注:CLIP与CRIS思想对比

CLIP遵循“双塔”架构,通过对比学习将图像和文本的特征在表征空间中进行对齐,从而学习到丰富的视觉概念。

CRIS能将细粒度的语义信息进行跨模态传递,并通过融合所有的像素级视觉特征与全局文本特征,采用对比学习将文本和相关的像素级特征拉近,同时,将无关的像素特征推远。

超越主流架构 完美解决CLIP不够细致问题

总体而言,CRIS模型有三部分组成:图像&文本特征提取、视觉—语言解码器、文本—像素级对比学习。

图注:CLIP驱动的图像指代分割框架

在图像和文本特征提取阶段 , 研究员设计了图像编码器、文本编码器、跨模态Neck等几部分。在图像编码器中,使用了ResNet的第2-4阶段进行提取多重视觉特征;文本编码器是指借用GPT-2的Transformer模式提取文本特征;而跨模态Neck的作用是通过融合文本和视觉特征获得多模态特征。

视觉—语言解码器 用来将语义信息从文本特征传递到视觉特征。解码器由n层网络组成,按照 Transformer 的标准架构,网络的每一层都包含一个多头自我注意层、一个多头交叉注意层和一个前馈网络。

文本特征和视觉特征作为输入,并在两个特征中加入位置编码进行捕捉位置信息。在训练过程中,首先将视觉特征输入多头自我注意层,目的是为了获得全局信息,即”进化“后的视觉特征。随后,采用多头交叉注意层将细粒度的语义信息”传递“到进化的视觉特征中,得到多模态特征。

文本—像素级对比学习用文本特征和像素级视觉特征的交互,获得细粒度的多模态信息。此举是为了解决CLIP不够“细致”的问题。

具体而言,先将“全局”文本和图像用下面的公式进行“改造”,其中, 和 是偏差, 和 是可学习的矩阵,用来将文本和图像转换成相同特征维度:

给定变换后的文本特征 和 像素级特征,定义文本—像素对比损失函数:

其中P和N表示正确样例(ground truth)中的“1”和“0”类,|P∪N|是基数(cardinality),σ是Sigmoid函数。最后,为了得到最终结果,将 重塑为 (H和W是原始图像的高和宽),并将其上采样至原始图像大小。

全方位超越SOTA 定性&定量“双料”实验着力论证

为了评估框架的有效性,研究员在三个主流的数据基准上进行了实验。具体包括RefCOCO、RefCOCO+、G-Ref。

实验过程中,用CLIP初始化文本和图像编辑器,用ResNet-50设计消融实验,并使用学习率 λ = 0.0001的Adam优化器训练,对网络进行 50 迭代轮次 (epoch) 的训练。在评价指标层面,采用IoU和 Precision@X两个主流指数评估方法有效性。

1.定量实验

与当前SOTA(state-of-the-art)方法对比结果如下表所示,CLIP驱动的图像指代分割在三个数据获得了更优的性能指标。例如在G-Ref数据集,比定位分割(Locate then Segmentation)在IOU上提高了5%。

2.定性实验

CLIP驱动的图像指代分割会提升实际体验么?如下图,研究员根据不同的设置,展示了可视化结果:没有对比学习和视觉-语言解码器的基线网络(c图),有着准确率更差的分割效果;单独缺少编码器(d图)和对比学习(e图)也会在某些区域出现“混沌”。

图注:不同设置下的可视化实验

3.消融实验

首先将删除文本—像素级对比学习与视觉—语言解码器的框架作为基线,然后将对比学习引入框架,实验结果如下表所示,IoU指标分别提升了1.98%、2.98% 和 3.43%;引入视觉—语言解码器之后,IoU也有一定幅度的改进。改进的原因,可能是这两个“组件”能帮助模型找到更多的信息,并将其迁移到更准确的像素级视觉特征中。

表注:模型在三个基准数据集上进行消融实验的结果

此外,还对视觉-语言解码器层数的作用进行了探究。如上表所示,当层数设置为n=1时,模型无法充分利用视觉和语言的多模态信息;当层数设置为n=4时,可能有过拟合的风险。因此,考虑到性能和效率,研究员将层数n = 3设置为默认值,且获得了准确率上的改进。

总结

本文研究的图像指代分割问题是计算机视觉与自然语言处理交叉领域中的一个重要问题,具有广泛的实际价值 和 长远的应用前景。在本文中,研究员通过创新CLIP结构,使得AI能够更准确理解图像与文本两种模态的数据。

未来,OPPO会继续将CRIS扩展到更多的需要应用图像指代分割问题的领域,例如在智能家居层面,帮助构建通过“喊话”就能准确命令家居机器人的系统。

OPPO 研究院 智能感知与交互研究部 计算机视觉算法岗位(全职和实习生)热招中!简历投递邮箱:liyaqian@oppo.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
靴子落地! 孙永红被查,半年内黄岛区连续两任书记被查

靴子落地! 孙永红被查,半年内黄岛区连续两任书记被查

元芳有看法
2025-09-14 11:59:12
瞬间天黑!合肥突降暴雨!暴雨降温或即将抵达安徽

瞬间天黑!合肥突降暴雨!暴雨降温或即将抵达安徽

鲁中晨报
2025-09-14 15:32:06
令韩国人震惊的中国酸奶世界…

令韩国人震惊的中国酸奶世界…

奋斗在韩国
2025-09-13 19:06:56
王楚钦4-0张禹珍晋级决赛!韩媒:惨烈完败,无法逾越乒坛长城

王楚钦4-0张禹珍晋级决赛!韩媒:惨烈完败,无法逾越乒坛长城

颜小白的篮球梦
2025-09-14 16:04:00
谁还说我水!英超射手榜:约克雷斯4场3球,与哈兰德并列第一

谁还说我水!英超射手榜:约克雷斯4场3球,与哈兰德并列第一

直播吧
2025-09-13 21:41:09
在大陆骗吃骗喝,在台湾搞“暗独”,“两面人”夏立言决定不演了

在大陆骗吃骗喝,在台湾搞“暗独”,“两面人”夏立言决定不演了

南宗历史
2025-09-13 21:34:22
西班牙王室莱蒂齐亚王后与国王丈夫闹离婚,11亿元天价离婚分手费

西班牙王室莱蒂齐亚王后与国王丈夫闹离婚,11亿元天价离婚分手费

译言
2025-09-14 15:27:10
微软推出突破性实时翻译 API,143 个地区 76 种语言实时交流

微软推出突破性实时翻译 API,143 个地区 76 种语言实时交流

IT之家
2025-09-13 21:08:17
事关波兰领空无人机事件!美国务卿:“不可接受”!特朗普:“可能是失误”!中国代表:各方保持克制

事关波兰领空无人机事件!美国务卿:“不可接受”!特朗普:“可能是失误”!中国代表:各方保持克制

每日经济新闻
2025-09-14 07:27:53
秋天,不要买这4种蔬菜,没营养还会伤身体,菜贩子自己都不吃!

秋天,不要买这4种蔬菜,没营养还会伤身体,菜贩子自己都不吃!

阿龙美食记
2025-09-11 14:52:30
原来这么多疾病都与晚餐有关!医生:一定要改掉这几个晚餐坏习惯

原来这么多疾病都与晚餐有关!医生:一定要改掉这几个晚餐坏习惯

男女那点事儿儿
2025-09-14 16:21:12
中方迟迟未点头,韩国不惜“走后门”,希望中国不要驳了老友面子

中方迟迟未点头,韩国不惜“走后门”,希望中国不要驳了老友面子

张学昆看世界
2025-09-14 17:35:34
朱雨玲:已报警

朱雨玲:已报警

新京报
2025-09-14 10:23:29
预制菜“国标”讨论会参加者:当时争论焦点就是什么标准算预制菜,还讨论了“简单复热、复杂复热”

预制菜“国标”讨论会参加者:当时争论焦点就是什么标准算预制菜,还讨论了“简单复热、复杂复热”

红星新闻
2025-09-13 22:51:09
于朦胧坠楼最新,近期行程曝光,多位大佬硬刚讨真相,果然不简单

于朦胧坠楼最新,近期行程曝光,多位大佬硬刚讨真相,果然不简单

山河月明史
2025-09-14 16:12:55
下一个乌克兰出现?美防长扬言:中国敢动手,美国就下场!

下一个乌克兰出现?美防长扬言:中国敢动手,美国就下场!

健身狂人
2025-09-14 14:33:49
包养情人无数,娶初中同学女儿为妻,玩老婆闺蜜,嗜色如命的富豪

包养情人无数,娶初中同学女儿为妻,玩老婆闺蜜,嗜色如命的富豪

负面黑洞
2025-09-11 16:19:05
日本街头真实调查:2025年的日本普通人都有多少存款?

日本街头真实调查:2025年的日本普通人都有多少存款?

日本物语
2025-09-13 20:43:45
记者:申花今天下午前往亚冠客场,仅阿马杜、李可等几名伤员缺席

记者:申花今天下午前往亚冠客场,仅阿马杜、李可等几名伤员缺席

直播吧
2025-09-14 13:31:06
郭秀云坦言:她们拍三级片是为了生活,我是感兴趣,顺便气钱小豪

郭秀云坦言:她们拍三级片是为了生活,我是感兴趣,顺便气钱小豪

洲洲影视娱评
2025-09-12 18:51:34
2025-09-14 18:39:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6926文章数 20685关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

俄国防部:俄军在演习中发射"锆石"高超音速巡航导弹

头条要闻

俄国防部:俄军在演习中发射"锆石"高超音速巡航导弹

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

艺术
本地
数码
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

数码要闻

原热旗下首款 TWS 产品“OriG in 原点”耳机 9 月 23 日发布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版