网易首页 > 网易号 > 正文 申请入驻

少到4个示例,击败所有少样本学习:DeepMind800亿模型真学会了

0
分享至

机器之心报道

编辑:陈萍、杜伟

DeepMind 的这个模型,可以说是「看一眼」就学会了。

关于智能,其关键点是在得到一个简短的指令时快速学习如何执行新任务的能力。例如,一个孩子在动物园看到动物时,他会联想到自己曾在书中看到的,并且认出该动物,尽管书中和现实中的动物有很大的差异。

但对于一个典型的视觉模型来说,要学习一项新任务,它必须接受数以万计的、专门为该任务标记的例子来进行训练。假如一项研究的目标是计数和识别图像中的动物,例如「三匹斑马」这样的描述,为了完成这一任务,研究者将不得不收集数千张图片,并在每张图片上标注它们的数量和种类。但是标注过程效率低效、成本高,对于资源密集型的任务来说,需要大量带注释的数据,并且每次遇到新任务时都需要训练一个新模型。

DeepMind 另辟蹊径,他们正在探索可替代模型,可以使这个过程更容易、更高效,只给出有限的特定于任务的信息。

在 DeepMind 最新公布的论文中,他们推出了 Flamingo(火烈鸟)模型,这是一个单一的视觉语言模型(visual language model,VLM),它在广泛的开放式多模态任务中建立了少样本学习新 SOTA。这意味着 Flamingo 只需少量的特定例子(少样本)就能解决许多难题,而无需额外训练。Flamingo 的简单界面使这成为可能,它将图像、视频和文本作为提示(prompt),然后输出相关语言。

  • 论文地址 https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
  • 代码地址:https://github.com/lucidrains/flamingo-pytorch

这个 Flamingo 模型到底有多智能呢?我们先来看下效果:Flamingo 可以进行开箱即用的多模式对话,下图展示的是使用 OpenAI 的 DALL·E 2 生成的「汤怪物」图像,在关于这张图像的不同问答中,Flamingo 都能准确地回答出来。例如问题:这张图片中有什么?Flamingo 回答:一碗汤,一张怪物脸在上面。

Flamingo 还能通过并识别出著名的斯特鲁普效应 (Stroop effect),例如事先给几个示例,如出题人给出表示绿色的单词 GREEN,并用蓝色的字体表示,回答者需要回答:颜色是绿色,用蓝色书写。在给出几组示例后,Flamingo 就学会了这种模式,当给出 YELLOW 绿色字体时,Flamingo 回答:颜色是黄色,用绿色书写。

此外,Flamingo 还能识别出这是 Stroop 测试。

下图给出了两个动物图片示例和一个标识它们名称的文本以及关于在哪里可以找到的描述,Flamingo 可以模仿这种风格,给定一个新图像以输出相关描述:例如,在给出栗鼠、柴犬示例后,Flamingo 模仿这种方式,输出这是一只火烈鸟,它们在加勒比海被发现。

Flamingo 还能进行算术(第四行):

就像大型语言模型一样,Flamingo 可以快速适应各种图像和视频理解任务,只需简单地提示它几个例子 (上图)。Flamingo 还具有丰富的视觉对话功能 (下)。

研究概述

模型架构 & 方法

在实践中,通过在两者之间添加新颖的架构组件,Flamingo 将每个经过单独预训练和冻结的大型语言模型与强大的视觉表示融合在一起。接着在仅来自网络上的互补大规模多模态混合数据上进行训练,而不使用任何为达到机器学习目的而标注的数据。

按照该方法,研究者从最近推出的计算最优的 700 亿参数语言模型 Chinchilla 入手,训练最终的 800 亿参数的 VLM 模型 Flamingo。完成训练后,Flamingo 经过简单的少样本学习即可直接适用于视觉任务,无需任何额外特定于任务的微调。下图为 Flamingo 架构概览。

首先是视觉处理和感知器重采样器(Perceiver Resampler)。Flamingo 模型的视觉编码器是一个预训练的 NFNet,研究者使用的是 F6 模型。在 Flamingo 模型的主要训练阶段,他们将视觉编码器冻结,这是因为它与直接基于文本生成目标训练视觉模型相比表现得更好。最后阶段是特征 X_f 的 2D 空间网格被展平为 1D,如下图 4 所示。

感知器重采样器模块将视觉编码器连接到冻结的语言模型(如上图 3 所示),并将来自视觉编码器的可变数量的图像或视频特征作为输入,产生固定数量的视觉输出,如下图 4 所示。

然后是在视觉表示上调整冻结的语言模型。如下图 5 所示,文本生成由一个 Transformer 解码器执行,并以感知器重采样器生成的视觉表示 X 为条件。研究者通过间插从仅文本语言模型中获得的预训练块以及使用感知器重采样器的输出作为输入从头训练的块来构建模型。

此外,为了使得 VLM 模型具有足够的可表达性并使它在视觉输入上表现良好,研究者在初始层之间插入了从头开始训练的门跨注意力密集块。

最后,如下图 7 所示,研究者在三种类型的混合数据集上训练 Flamingo 模型,分别是取自网页的间插图像和文本数据集、图像和文本对以及视频和文本对。

实验结果

在纳入研究的 16 个任务中,当每个任务仅给定 4 个示例时,Flamingo 击败了以往所有的少样本学习方法。在某些情况下,Flamingo 模型甚至优于针对每个任务单独进行微调优化并使用更多数量级特定于任务的数据的方法。这使得非专家人员可以快速轻松地在手头新任务上使用准确的视觉语言模型。

下图左为 Flamingo 在 16 个不同的多模态任务上与特定于任务的 SOTA 方法的少样本性能比较。图右为 16 个基准中的 3 个的预期输入和输出示例。

未来展望

Flamingo 是一个有效且高效的通用模型族,它们可以通过极少的特定于任务的示例应用于图像和视频理解任务。

DeepMind 表示,像 Flamingo 这类模型很有希望以实际的方式造福社会,并将继续提升模型的灵活性和能力,以便可以实现安全的部署。Flamingo 展示的能力为与学得视觉语言模型的丰富交互铺平了道路,这些模型能够实现更好的可解释性和令人兴奋的新应用,比如在日常生活中帮助人们的视觉助手等。

https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比肾虚更可怕的是脾虚!学会这个妙招,悄悄补脾惊艳所有人

比肾虚更可怕的是脾虚!学会这个妙招,悄悄补脾惊艳所有人

护士笔记
2024-05-31 11:01:34
65岁英国太太,一人独居20年,全屋布置那叫一个高级,真羡慕!

65岁英国太太,一人独居20年,全屋布置那叫一个高级,真羡慕!

阿离家居
2024-05-19 17:21:02
某地产央企原董事长,被逮捕!

某地产央企原董事长,被逮捕!

金石随笔
2024-06-01 00:19:33
体制内的尴尬称呼……

体制内的尴尬称呼……

时尚的弄潮
2024-05-31 23:40:12
发达国家,都是主动刺破房产泡沫,让大量资金和人才流向科技领域

发达国家,都是主动刺破房产泡沫,让大量资金和人才流向科技领域

说故事的阿袭
2024-05-31 15:58:51
个人所得税有变动!20%以上的个税按照0.3%征收

个人所得税有变动!20%以上的个税按照0.3%征收

一周讲税
2024-05-30 15:54:15
人有病,天知否?

人有病,天知否?

不死好鸟
2024-05-30 21:52:01
财政破产,亡国之兆

财政破产,亡国之兆

求实处
2024-05-10 23:05:43
从承诺归还沙俄抢走的土地,到提出出海权,大毛时隔100年再服软

从承诺归还沙俄抢走的土地,到提出出海权,大毛时隔100年再服软

元芳
2024-06-01 09:42:30
冯唐:跟底层人打交道,不要随和,越尊重他们,他们越容易欺负你

冯唐:跟底层人打交道,不要随和,越尊重他们,他们越容易欺负你

铁山学者
2024-05-28 07:27:49
未来这七大专业吃香,张雪峰力荐:我学了我能干,你没学干不了

未来这七大专业吃香,张雪峰力荐:我学了我能干,你没学干不了

妍妍教育日记
2024-05-31 21:12:33
孙安佐又出事! 泰国吸毒、擅闯民宅遭逮 孙鹏、狄莺无奈发声了

孙安佐又出事! 泰国吸毒、擅闯民宅遭逮 孙鹏、狄莺无奈发声了

阿芒娱乐说
2024-06-01 00:55:16
李亚鹏:我那“抽烟喝酒打麻将”的前妻王菲,竟是世上顶好的妈妈

李亚鹏:我那“抽烟喝酒打麻将”的前妻王菲,竟是世上顶好的妈妈

谈娱新语
2024-05-30 22:32:57
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
体制内,一位厅级干部的掏心忠告,也许能让你醍醐灌顶

体制内,一位厅级干部的掏心忠告,也许能让你醍醐灌顶

侃故事的阿庆
2024-05-12 07:55:02
美国和欧盟对中国商品出口的最新打击

美国和欧盟对中国商品出口的最新打击

匹夫来搞笑
2024-06-01 00:24:26
姆巴佩亲自点赞!贝克汉姆:在和梅西聊足球

姆巴佩亲自点赞!贝克汉姆:在和梅西聊足球

直播吧
2024-06-01 09:28:10
传微信支付被要求降低市场份额 官方回应来了

传微信支付被要求降低市场份额 官方回应来了

快科技
2024-05-31 22:48:06
吉利硬怼BYD油耗数据,这2.9升油耗到底是不是仙界科技?

吉利硬怼BYD油耗数据,这2.9升油耗到底是不是仙界科技?

差评
2024-05-31 13:48:51
女性X欲强不强,只需看4个地方【男生慎入】

女性X欲强不强,只需看4个地方【男生慎入】

坟头长草
2024-05-24 15:52:40
2024-06-01 14:02:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9040文章数 141934关注度
往期回顾 全部

科技要闻

华为上新!余承东:问界6月销量将超4万辆

头条要闻

女子被家暴挂粪袋成功离婚 前夫曾写信:做人留一线

头条要闻

女子被家暴挂粪袋成功离婚 前夫曾写信:做人留一线

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

艺术
健康
教育
公开课
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

【中招咨询】北京市第十三中学:最美王府中学

公开课

近视只是视力差?小心并发症

军事要闻

拜登称以色列提出新的三阶段停火方案

无障碍浏览 进入关怀版