网易首页 > 网易号 > 正文 申请入驻

CVPR 2022丨用“大白话“精确抠图!OPPO研究院提出CRIS框架,开启多模态预训练新进展

0
分享至

深度学习打天下的时代,多模态被众多学者“押注”为开启下一代人机交互的钥匙。尤其是OpenAI的CLIP模型,让人类见识了人工智能(AI)“打通”语言—视觉桎梏的威力。

虽然CLIP显著提升了一些图像级多模态任务,例如图文检索、视频文字检索等,但在像素级别多模态任务中表现不佳。例如“大白话抠图”这一图像指代分割(Referring Image Segmentation)领域。

如下图所示,当我们对着CLIP输入“一个金发的男孩,穿着蓝色的夹克”,简单微调的CLIP表现差强人意。

图注:CLIP抠图能力展示-Naive是指简单微调CLIP后的模型

近日,悉尼大学、墨尔本大学、OPPO研究院与快手科技等的研究员联合开发了CRIS,一种基于CLIP驱动图像指代分割框架,通过更加细粒度的多模态信息交互,对齐文本-像素的表征,完美实现“大白话抠图”。

效果如下:

输入:前头的那只斑马

输出:如下图。简单微调的CILP框架模糊了两只斑马,CRIS做到了完美识别。

图注:CILP与CRIS效果对比

准确聚焦多模态 匹配更细粒度的视觉概念

CRIS框架能够利用CLIP模型的知识来进行图像指代分割,具有强大的跨模态匹配能力。通俗而言,该框架能够准确聚焦“大白话”指定的图像区域。目前该项工作已被CVPR 2022收录。

实验表明,CRIS能够理解包含更多信息和重点的复杂句子,并同时“感知”到相应的对象。

1.本文的任务

让AI“顺畅”抠图

将语言与像素级别的视觉特征进行匹配,并学习更细粒度的视觉概念。

2.本文的创新

1.引入视觉-语言解码器,捕捉像素级特征的全局上下文关系,并将单词级的文本特征传 播 到像素级特征。

2.引入文本-像素的对比学习,对齐语言特征和对应的像素级特征,“筛出”不相关的像素级特征。

3.与CLIP有何不同

图注:CLIP与CRIS思想对比

CLIP遵循“双塔”架构,通过对比学习将图像和文本的特征在表征空间中进行对齐,从而学习到丰富的视觉概念。

CRIS能将细粒度的语义信息进行跨模态传递,并通过融合所有的像素级视觉特征与全局文本特征,采用对比学习将文本和相关的像素级特征拉近,同时,将无关的像素特征推远。

超越主流架构 完美解决CLIP不够细致问题

总体而言,CRIS模型有三部分组成:图像&文本特征提取、视觉—语言解码器、文本—像素级对比学习。

图注:CLIP驱动的图像指代分割框架

在图像和文本特征提取阶段 , 研究员设计了图像编码器、文本编码器、跨模态Neck等几部分。在图像编码器中,使用了ResNet的第2-4阶段进行提取多重视觉特征;文本编码器是指借用GPT-2的Transformer模式提取文本特征;而跨模态Neck的作用是通过融合文本和视觉特征获得多模态特征。

视觉—语言解码器 用来将语义信息从文本特征传递到视觉特征。解码器由n层网络组成,按照 Transformer 的标准架构,网络的每一层都包含一个多头自我注意层、一个多头交叉注意层和一个前馈网络。

文本特征和视觉特征作为输入,并在两个特征中加入位置编码进行捕捉位置信息。在训练过程中,首先将视觉特征输入多头自我注意层,目的是为了获得全局信息,即”进化“后的视觉特征。随后,采用多头交叉注意层将细粒度的语义信息”传递“到进化的视觉特征中,得到多模态特征。

文本—像素级对比学习用文本特征和像素级视觉特征的交互,获得细粒度的多模态信息。此举是为了解决CLIP不够“细致”的问题。

具体而言,先将“全局”文本和图像用下面的公式进行“改造”,其中, 和 是偏差, 和 是可学习的矩阵,用来将文本和图像转换成相同特征维度:

给定变换后的文本特征 和 像素级特征,定义文本—像素对比损失函数:

其中P和N表示正确样例(ground truth)中的“1”和“0”类,|P∪N|是基数(cardinality),σ是Sigmoid函数。最后,为了得到最终结果,将 重塑为 (H和W是原始图像的高和宽),并将其上采样至原始图像大小。

全方位超越SOTA 定性&定量“双料”实验着力论证

为了评估框架的有效性,研究员在三个主流的数据基准上进行了实验。具体包括RefCOCO、RefCOCO+、G-Ref。

实验过程中,用CLIP初始化文本和图像编辑器,用ResNet-50设计消融实验,并使用学习率 λ = 0.0001的Adam优化器训练,对网络进行 50 迭代轮次 (epoch) 的训练。在评价指标层面,采用IoU和 Precision@X两个主流指数评估方法有效性。

1.定量实验

与当前SOTA(state-of-the-art)方法对比结果如下表所示,CLIP驱动的图像指代分割在三个数据获得了更优的性能指标。例如在G-Ref数据集,比定位分割(Locate then Segmentation)在IOU上提高了5%。

2.定性实验

CLIP驱动的图像指代分割会提升实际体验么?如下图,研究员根据不同的设置,展示了可视化结果:没有对比学习和视觉-语言解码器的基线网络(c图),有着准确率更差的分割效果;单独缺少编码器(d图)和对比学习(e图)也会在某些区域出现“混沌”。

图注:不同设置下的可视化实验

3.消融实验

首先将删除文本—像素级对比学习与视觉—语言解码器的框架作为基线,然后将对比学习引入框架,实验结果如下表所示,IoU指标分别提升了1.98%、2.98% 和 3.43%;引入视觉—语言解码器之后,IoU也有一定幅度的改进。改进的原因,可能是这两个“组件”能帮助模型找到更多的信息,并将其迁移到更准确的像素级视觉特征中。

表注:模型在三个基准数据集上进行消融实验的结果

此外,还对视觉-语言解码器层数的作用进行了探究。如上表所示,当层数设置为n=1时,模型无法充分利用视觉和语言的多模态信息;当层数设置为n=4时,可能有过拟合的风险。因此,考虑到性能和效率,研究员将层数n = 3设置为默认值,且获得了准确率上的改进。

总结

本文研究的图像指代分割问题是计算机视觉与自然语言处理交叉领域中的一个重要问题,具有广泛的实际价值 和 长远的应用前景。在本文中,研究员通过创新CLIP结构,使得AI能够更准确理解图像与文本两种模态的数据。

未来,OPPO会继续将CRIS扩展到更多的需要应用图像指代分割问题的领域,例如在智能家居层面,帮助构建通过“喊话”就能准确命令家居机器人的系统。

OPPO 研究院 智能感知与交互研究部 计算机视觉算法岗位(全职和实习生)热招中!简历投递邮箱:liyaqian@oppo.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股芯片股走低 费城半导体指数跌4%

美股芯片股走低 费城半导体指数跌4%

财联社
2026-03-31 01:45:07
华为新机来了!4月18日,新机即将登场

华为新机来了!4月18日,新机即将登场

科技堡垒
2026-03-30 11:19:03
去世男老师资产被瓜分了

去世男老师资产被瓜分了

毒舌扒姨太
2026-03-30 22:34:13
梅西不再是绝对核心?专家直言:阿根廷真正的大腿,早已不是球王

梅西不再是绝对核心?专家直言:阿根廷真正的大腿,早已不是球王

7号观察室
2026-03-31 00:42:45
大反转!女子举报母亲去世后被“嫁给”弟弟调查结果出炉:小姨摇身一变成好人,未侵占遗产,网友炸锅

大反转!女子举报母亲去世后被“嫁给”弟弟调查结果出炉:小姨摇身一变成好人,未侵占遗产,网友炸锅

潇拾亿郎
2026-03-30 20:59:47
从脚抽筋到去世,仅仅1晚!这起悲剧,给所有人敲响了警钟

从脚抽筋到去世,仅仅1晚!这起悲剧,给所有人敲响了警钟

看世界的人
2026-03-01 18:43:45
争端升级,美国指责中国扣船,话音刚落,中方一句话让美下不来台

争端升级,美国指责中国扣船,话音刚落,中方一句话让美下不来台

乐天闲聊
2026-03-31 03:15:45
30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

30分钟锁定,误差1米:伊朗二号人物是怎么被精准斩首的?

苏格拉高
2026-03-30 07:40:12
图赫尔:我对球员退出集训这件事很失望,但我并不生球员的气

图赫尔:我对球员退出集训这件事很失望,但我并不生球员的气

懂球帝
2026-03-30 22:23:09
伊朗打对了,把伊斯兰世界最大的叛徒揪出来了!

伊朗打对了,把伊斯兰世界最大的叛徒揪出来了!

达文西看世界
2026-03-28 10:23:28
太可怜了!2張照片,几乎就是张雪峰人生的最後定格

太可怜了!2張照片,几乎就是张雪峰人生的最後定格

魔都姐姐杂谈
2026-03-28 04:04:21
中国股市:唯一不坑人的指标“换手率”,大于10%说明可以入场!

中国股市:唯一不坑人的指标“换手率”,大于10%说明可以入场!

股经纵横谈
2026-03-30 16:47:55
快讯!迪拜崩了,香港火了!

快讯!迪拜崩了,香港火了!

达文西看世界
2026-03-30 18:45:16
尼泊尔的“一妻多夫”有多尴尬?看完她们的生活后,满满的辛酸

尼泊尔的“一妻多夫”有多尴尬?看完她们的生活后,满满的辛酸

老谢谈史
2026-03-30 16:00:35
字节某员工:犹豫了很久,决定入籍新加坡了

字节某员工:犹豫了很久,决定入籍新加坡了

蚂蚁大喇叭
2026-03-30 16:32:25
失联数月,中国博士疑已遇难!警方在雪山发现遗体:或被雪崩冲下山谷

失联数月,中国博士疑已遇难!警方在雪山发现遗体:或被雪崩冲下山谷

华人生活网
2026-03-31 03:58:38
伊朗:发动第87波攻势 打击美军指挥中心

伊朗:发动第87波攻势 打击美军指挥中心

财联社
2026-03-31 02:52:09
爆传男篮拟归化伯里斯!他是谁?归化可能性到底有多大?

爆传男篮拟归化伯里斯!他是谁?归化可能性到底有多大?

你看球呢
2026-03-30 14:30:25
冷知识:千万不要买太大的蓝莓!!!

冷知识:千万不要买太大的蓝莓!!!

果壳
2026-03-30 16:12:50
“高市与小泉向中国道歉”,日民众发出正义呼声,右翼绝不会低头

“高市与小泉向中国道歉”,日民众发出正义呼声,右翼绝不会低头

冒泡泡的鱼儿
2026-03-29 23:58:40
2026-03-31 04:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7158文章数 20742关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

艺术
亲子
本地
时尚
公开课

艺术要闻

这个62岁大爷厉害了!他画的超写实美女骗了多少人?.....

亲子要闻

杰森抱着吉他给我们唱了几首,有个爱好生活挺丰富,听听唱的咋样

本地新闻

用Color Walk的方式解锁城市春日

“小白鞋”今年春夏又火了!这5双怎么搭都好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版