网易首页 > 网易号 > 正文 申请入驻

地表最强VLP模型!谷歌大脑和CMU华人团队提出极简弱监督模型,多模态下达到SOTA

0
分享至

新智元报道

来源:arxiv

编辑:Priscilla 好困

【新智元导读】谷歌大脑与CMU华人团队提出全新图像+文本预训练模型SimVLM,在最简单的模型结构与训练方式下也能在6个多模态基准领域达到SOTA,与现有VLP模型相比泛化能力更强。

近年来,视觉-语言预训练(vision-language pretraining, VLP)取得了快速进展。

各个研究团队也提出了很多方法,但很大一部分都需要将图像区域特征回归的对象检测或标记作为预训练目标的一部分,如LXMERT等。

这些方法需要有强大的物体检测模型,如Fast(er) R-CNN,而所需训练集则要 事先进行数据的标注 ,因此建立训练流水线的成本也会随之增加, 模型的可扩展性也会降低 。

另一方面,也有研究也提出了 利用多种跨模态损失函数作为训练目标的一部分 ,如图像-文本匹配等。

这些函数经常与图像标注生成、MLM(masked language modeling)等其它目标混合在一起,形成复合预训练损失,导致不同损失和数据集之间难以平衡,从而令优化程序变得复杂。

为此,卡内基梅隆大学和谷歌大脑的团队提出了一个 全新的图像-文本预训练模型SimVLM (Simple Visual Language Model)。

https://arxiv.org/pdf/2108.10904.pdf

SimVLM模型与现有的VLP模型有 三大区别 :


  1. 只使用了单一的预训练损失,是当前最简化的VLP模型;

  2. 只使用了弱监督,极大地降低了对预训练数据的要求;

  3. 使生成模型具备了极强的零样本能力,包含零样本跨模态迁移和开放式视觉问答(VQA)。


不仅如此,SimVLM在不使用任何trick和额外数据的情况下,同时在6种多模态基准上达到了SOTA,证明即使是最简单的架构和训练方式都能在多模态领域取得极佳的效果。

作者甚至发推直言:「PrefixLM is all you need for VLP!」

SimVLM

与之前的工作不同,SimVLM通过利用 大规模弱监督 来降低训练复杂度,并使用单个前缀语言建模目标进行端到端训练。

在不使用额外数据或针对特定任务的定制的情况下,生成的模型显着优于以前的预训练方法,并在包括VQA (+3.74% vqa-分数)、NLVR2(准确度+1.17%)、SNLI-VE(准确度+1.37%)和图像标注任务(平均CIDEr分数+10.1%)。

模型使用PrefixLM来保留视觉语言表征。PrefixLM与标准的语言模型不同,它能够对prefix序列应用双向注意力(如x

直观地说,图像可以被认为是其文本描述的前缀,因为它们经常出现在文本之前。

因此,对于一个给定的图像-文本堆,将长度为Ti的图像特征序列预置到文本序列中,并强制模型对长度为Tp≥Ti的前缀进行采样,只计算文本数据的语言模型损失。

与之前的VLP方法相比,论文提出的方法不仅有MLM中的双向语境表征,而且还可以进行类似于LM的文本生成。

SimVLM模型

用PrefixLM训练图像-文本堆的例子:对于纯文本的语料库,可以直接删除图像块,只使用文本标记。

结果分析

在零样本图像标注方面,SimVLM不仅能够 捕捉现实世界的概念 ,而且还能 提供对视觉输入的详细描述 。

(a)零样本图像标注 (b)零样本跨模态德语图像标注 (c)生成式VQA (d)零样本视觉文本补全 (e)零样本开放式VQA。

解码后的样本能够解释有多个物体的复杂场景(如有饮料的桌子);而且模型还显示出对细粒度抽象的理解,如具体的汽车品牌和型号(如阿斯顿-马丁);甚至在对人类来说可能很棘手的挑战性图片上表现得很稳健,比如抽象的图片。

结果表明,模型能够学习到广泛的现实世界的概念,并能在零样本的情况下进行概括。

此外,研究团队对一组多样化的视觉-语言基准进行系统实验,包括视觉问答、图像标注、视觉推理和多模态翻译等。

不仅将SimVLM模型作为预训练微调范式中的通用VL表征学习进行检查,而且还研究了其对开放式VL理解的零样本泛化。

经过实验前的准备与微调,从数据中可以看出,SimVLM明显优于所有现有模型,并且在所有任务上都实现了SOTA。这表明SimVLM的生成式预训练方法非常有效,而且表征弱监督的简单框架足以学习高质量的多模态表征。

常见VL基准上视觉-语言预训练方法的单一模型结果

SimVLM的零样本性能与CoCo上的完全监督基准相当,在概念丰富的NoCaps基准上具有强大的泛化能力,比预训练模型获得的分数更高。

在CoCo和NoCaps上的不同测试结果

作者在GLUE基准测试中将SimVLM与现有的VLP模型进行了比较,结果显示,SimVLM的性能优于现有的VLP方法,与BERT性能相当,表明SimVLM具有良好的语言理解能力。

BERT与其他VLP在GLUE基准上的单一文本任务性能比对

与SOTA表征学习方法相比,对ImageNet分类的线性评估。

此外,作者根据上图的线性评估计算ImageNet上的top-1准确率。

结果显示,SimVLM模型也学习了高质量的图像表征。

所有实验都表明,SimVLM能够有效地捕获特定于模态的信息,为弱监督下更强的视觉语言理解奠定了坚实的基础。

团队介绍

王子瑞 ,论文一作,卡内基梅隆大学语言技术研究所的博士生在读。

此前在卡内基梅隆大学获得了计算机科学和数学的学士学位。

项目曾在SuperGLUE数据集上获得了第一个高于人类的SOTA性能(超过90分)。

研究方向为迁移学习,元学习,自然语言处理,计算机视觉。

Jiahui Yu ,谷歌大脑的高级研究科学家。

于2020年在伊利诺伊大学厄巴纳-香槟分校获得博士学位。在2016年在中国科技大学获得了学士学位。

读博士期间曾在微软亚洲研究院、Face++/Megvii、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和谷歌大脑工作。

研究兴趣是序列建模(语言,语音,视频,金融数据),机器感知(视觉),生成模型(GANs),和高性能计算。

(Adams) Wei Yu ,谷歌大脑的研究科学家。

毕业于卡内基梅隆大学,在2015年获得了自然语言处理的硕士学位,2019年获得机器学习的博士学位。

Zihang Dai ,谷歌大脑的研究科学家。

本科就读于清华大学,并于2013年获得学士学位。2016年在卡内基梅隆大学获得计算机科学硕士学位,2020年获得博士学位。

Yuan Cao ,谷歌大脑的研究科学家。

曾就读于上海交通大学电子工程专业,在2005年获得学士学位,2008年获得硕士学位。

2015年在约翰斯·霍普金斯大学获得博士学位。

Yulia Tsvetkov ,华盛顿大学计算机科学与工程学院助理教授,于2016年获得卡内基梅隆大学博士学位。

参考资料:

https://arxiv.org/pdf/2108.10904.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Shams:小卡交易即将达成!最快明天!拒绝重建,快船追杰伦-布朗

Shams:小卡交易即将达成!最快明天!拒绝重建,快船追杰伦-布朗

Tracy的篮球博物馆
2026-06-30 10:57:50
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

球毛鬼胎
2026-06-30 17:00:26
Siegel:交易截止日以来 勇士多次公开表达希望留下巴特勒

Siegel:交易截止日以来 勇士多次公开表达希望留下巴特勒

北青网-北京青年报
2026-06-30 19:23:30
7月1日正式落地!人社56号令全面革新,工资、养老待遇迎来大调整

7月1日正式落地!人社56号令全面革新,工资、养老待遇迎来大调整

老特有话说
2026-06-30 16:04:40
郑钦文打的到底是谁的脸?

郑钦文打的到底是谁的脸?

网球之家
2026-06-30 09:31:03
小米正式官宣:6月30日,新机发布

小米正式官宣:6月30日,新机发布

科技堡垒
2026-06-28 12:59:18
3天死1000人,法国急购3万台空调,中国空调爆单,不打贸易战了?

3天死1000人,法国急购3万台空调,中国空调爆单,不打贸易战了?

古史青云啊
2026-06-30 11:31:42
德国队被淘汰,总理默茨发文:出局固然令人心痛,但我仍为你们骄傲;此前韩国队出局后,韩国总统李在明怒批球队表现

德国队被淘汰,总理默茨发文:出局固然令人心痛,但我仍为你们骄傲;此前韩国队出局后,韩国总统李在明怒批球队表现

大风新闻
2026-06-30 11:24:04
嫁给梁锦松24年被宠成公主,如今儿女双全已成才,74岁丈夫再争光

嫁给梁锦松24年被宠成公主,如今儿女双全已成才,74岁丈夫再争光

揽星河的笔记
2026-06-30 13:44:22
为何没罚点球?范戴克:教练事先列好了名单,顺序也是定好的

为何没罚点球?范戴克:教练事先列好了名单,顺序也是定好的

懂球帝
2026-06-30 16:30:37
森保一:接下来专注亚洲杯争冠,但即使夺冠也无法抹去世界杯之痛

森保一:接下来专注亚洲杯争冠,但即使夺冠也无法抹去世界杯之痛

兰亭墨未干
2026-06-30 06:25:03
“卡牌大师”名不虚传!作为第四官员的马宁,多次提醒主裁向替补席出牌

“卡牌大师”名不虚传!作为第四官员的马宁,多次提醒主裁向替补席出牌

红星新闻
2026-06-30 08:41:04
160架战斗机就位 2000枚导弹下发 1400名空军飞行员等候战斗令

160架战斗机就位 2000枚导弹下发 1400名空军飞行员等候战斗令

聚峰军评
2026-06-30 13:01:28
勇士奇才谈判巴特勒换浓眉!开启组建四巨头:老詹最多2300万年薪

勇士奇才谈判巴特勒换浓眉!开启组建四巨头:老詹最多2300万年薪

罗说NBA
2026-06-30 07:04:20
西方人突然发现,中国人对两次世界大战理解,似乎与他们不一样?

西方人突然发现,中国人对两次世界大战理解,似乎与他们不一样?

甜到你心坎
2026-06-26 03:13:42
恭喜文班亚马!恭喜马刺!快船拒绝1.26亿续约,小卡或重回老东家

恭喜文班亚马!恭喜马刺!快船拒绝1.26亿续约,小卡或重回老东家

鸣哥说体育
2026-06-29 19:31:40
开拓者官方欢迎莫兰特!2换1交易正式完成 杨瀚森利拉德迎新队友

开拓者官方欢迎莫兰特!2换1交易正式完成 杨瀚森利拉德迎新队友

罗说NBA
2026-06-30 09:12:32
CCTV5+直播中日男篮大战,12人名单没出炉,郭士强按最强阵容备战

CCTV5+直播中日男篮大战,12人名单没出炉,郭士强按最强阵容备战

体育大学僧
2026-06-30 13:19:58
这位像雕塑的刚果球迷,在夜店证明了:他也会动

这位像雕塑的刚果球迷,在夜店证明了:他也会动

快乐加载中21
2026-06-30 00:03:49
2026-06-30 20:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15572文章数 66944关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本队世界杯出局后 韩媒来劲了

头条要闻

日本队世界杯出局后 韩媒来劲了

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

本地
手机
亲子
公开课
军事航空

本地新闻

贵州小城的新目标:举办“村超”世界杯!

手机要闻

摩托罗拉Edge 70 Max手机获Qi 2.2.1认证,支持磁吸充电

亲子要闻

✨闪闪小葵花 成长正当时✨ 「寻找闪亮小主角」才艺展示活动 沉浸式趣味闯关打卡,定格萌娃灵动鲜活的高光成长瞬间~

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版