网易首页 > 网易号 > 正文 申请入驻

少到4个示例,击败所有少样本学习:DeepMind800亿模型真学会了

0
分享至

机器之心报道

编辑:陈萍、杜伟

DeepMind 的这个模型,可以说是「看一眼」就学会了。

关于智能,其关键点是在得到一个简短的指令时快速学习如何执行新任务的能力。例如,一个孩子在动物园看到动物时,他会联想到自己曾在书中看到的,并且认出该动物,尽管书中和现实中的动物有很大的差异。

但对于一个典型的视觉模型来说,要学习一项新任务,它必须接受数以万计的、专门为该任务标记的例子来进行训练。假如一项研究的目标是计数和识别图像中的动物,例如「三匹斑马」这样的描述,为了完成这一任务,研究者将不得不收集数千张图片,并在每张图片上标注它们的数量和种类。但是标注过程效率低效、成本高,对于资源密集型的任务来说,需要大量带注释的数据,并且每次遇到新任务时都需要训练一个新模型。

DeepMind 另辟蹊径,他们正在探索可替代模型,可以使这个过程更容易、更高效,只给出有限的特定于任务的信息。

在 DeepMind 最新公布的论文中,他们推出了 Flamingo(火烈鸟)模型,这是一个单一的视觉语言模型(visual language model,VLM),它在广泛的开放式多模态任务中建立了少样本学习新 SOTA。这意味着 Flamingo 只需少量的特定例子(少样本)就能解决许多难题,而无需额外训练。Flamingo 的简单界面使这成为可能,它将图像、视频和文本作为提示(prompt),然后输出相关语言。

  • 论文地址 https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
  • 代码地址:https://github.com/lucidrains/flamingo-pytorch

这个 Flamingo 模型到底有多智能呢?我们先来看下效果:Flamingo 可以进行开箱即用的多模式对话,下图展示的是使用 OpenAI 的 DALL·E 2 生成的「汤怪物」图像,在关于这张图像的不同问答中,Flamingo 都能准确地回答出来。例如问题:这张图片中有什么?Flamingo 回答:一碗汤,一张怪物脸在上面。

Flamingo 还能通过并识别出著名的斯特鲁普效应 (Stroop effect),例如事先给几个示例,如出题人给出表示绿色的单词 GREEN,并用蓝色的字体表示,回答者需要回答:颜色是绿色,用蓝色书写。在给出几组示例后,Flamingo 就学会了这种模式,当给出 YELLOW 绿色字体时,Flamingo 回答:颜色是黄色,用绿色书写。

此外,Flamingo 还能识别出这是 Stroop 测试。

下图给出了两个动物图片示例和一个标识它们名称的文本以及关于在哪里可以找到的描述,Flamingo 可以模仿这种风格,给定一个新图像以输出相关描述:例如,在给出栗鼠、柴犬示例后,Flamingo 模仿这种方式,输出这是一只火烈鸟,它们在加勒比海被发现。

Flamingo 还能进行算术(第四行):

就像大型语言模型一样,Flamingo 可以快速适应各种图像和视频理解任务,只需简单地提示它几个例子 (上图)。Flamingo 还具有丰富的视觉对话功能 (下)。

研究概述

模型架构 & 方法

在实践中,通过在两者之间添加新颖的架构组件,Flamingo 将每个经过单独预训练和冻结的大型语言模型与强大的视觉表示融合在一起。接着在仅来自网络上的互补大规模多模态混合数据上进行训练,而不使用任何为达到机器学习目的而标注的数据。

按照该方法,研究者从最近推出的计算最优的 700 亿参数语言模型 Chinchilla 入手,训练最终的 800 亿参数的 VLM 模型 Flamingo。完成训练后,Flamingo 经过简单的少样本学习即可直接适用于视觉任务,无需任何额外特定于任务的微调。下图为 Flamingo 架构概览。

首先是视觉处理和感知器重采样器(Perceiver Resampler)。Flamingo 模型的视觉编码器是一个预训练的 NFNet,研究者使用的是 F6 模型。在 Flamingo 模型的主要训练阶段,他们将视觉编码器冻结,这是因为它与直接基于文本生成目标训练视觉模型相比表现得更好。最后阶段是特征 X_f 的 2D 空间网格被展平为 1D,如下图 4 所示。

感知器重采样器模块将视觉编码器连接到冻结的语言模型(如上图 3 所示),并将来自视觉编码器的可变数量的图像或视频特征作为输入,产生固定数量的视觉输出,如下图 4 所示。

然后是在视觉表示上调整冻结的语言模型。如下图 5 所示,文本生成由一个 Transformer 解码器执行,并以感知器重采样器生成的视觉表示 X 为条件。研究者通过间插从仅文本语言模型中获得的预训练块以及使用感知器重采样器的输出作为输入从头训练的块来构建模型。

此外,为了使得 VLM 模型具有足够的可表达性并使它在视觉输入上表现良好,研究者在初始层之间插入了从头开始训练的门跨注意力密集块。

最后,如下图 7 所示,研究者在三种类型的混合数据集上训练 Flamingo 模型,分别是取自网页的间插图像和文本数据集、图像和文本对以及视频和文本对。

实验结果

在纳入研究的 16 个任务中,当每个任务仅给定 4 个示例时,Flamingo 击败了以往所有的少样本学习方法。在某些情况下,Flamingo 模型甚至优于针对每个任务单独进行微调优化并使用更多数量级特定于任务的数据的方法。这使得非专家人员可以快速轻松地在手头新任务上使用准确的视觉语言模型。

下图左为 Flamingo 在 16 个不同的多模态任务上与特定于任务的 SOTA 方法的少样本性能比较。图右为 16 个基准中的 3 个的预期输入和输出示例。

未来展望

Flamingo 是一个有效且高效的通用模型族,它们可以通过极少的特定于任务的示例应用于图像和视频理解任务。

DeepMind 表示,像 Flamingo 这类模型很有希望以实际的方式造福社会,并将继续提升模型的灵活性和能力,以便可以实现安全的部署。Flamingo 展示的能力为与学得视觉语言模型的丰富交互铺平了道路,这些模型能够实现更好的可解释性和令人兴奋的新应用,比如在日常生活中帮助人们的视觉助手等。

https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拒绝辞职伺候婆婆,公公给我一耳光,我没闹把他儿子变成前夫

拒绝辞职伺候婆婆,公公给我一耳光,我没闹把他儿子变成前夫

奶茶麦子
2026-04-15 11:10:29
王楚钦突然入院就医原因曝光,夺冠后一细节引关注

王楚钦突然入院就医原因曝光,夺冠后一细节引关注

动物奇奇怪怪
2026-04-15 10:06:22
三人小组发声后,马英九回应来了,萧旭岑证实一事,邱毅一语道破

三人小组发声后,马英九回应来了,萧旭岑证实一事,邱毅一语道破

王姐懒人家常菜
2026-04-15 12:27:46
中国空军实力被严重低估:53个航空旅,放在全球处于什么水平?

中国空军实力被严重低估:53个航空旅,放在全球处于什么水平?

梁伫爱玩车
2026-04-13 21:07:17
又吹上了:中方不发一枪“封锁”台海,美国人没法退休

又吹上了:中方不发一枪“封锁”台海,美国人没法退休

观察者网
2026-04-15 11:20:11
脱口秀演员沈清曝王阳在剧组被执行导演指着鼻子骂

脱口秀演员沈清曝王阳在剧组被执行导演指着鼻子骂

老好人的愤怒
2026-04-15 06:02:16
周涛结束了和丈夫的12年婚姻,她说:这段婚姻太痛苦了,身心俱疲

周涛结束了和丈夫的12年婚姻,她说:这段婚姻太痛苦了,身心俱疲

阿讯说天下
2026-04-12 17:53:46
许世友被关押,看守送烧鸡和酒,多年后,看守当了南京军区副司令

许世友被关押,看守送烧鸡和酒,多年后,看守当了南京军区副司令

新一说史
2026-04-14 01:41:24
理想汽车被约谈!

理想汽车被约谈!

电动知家
2026-04-15 12:47:41
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
无视禁令,首艘中资油轮离港,伊朗百万大军就位,特朗普紧急收手

无视禁令,首艘中资油轮离港,伊朗百万大军就位,特朗普紧急收手

独步天涯
2026-04-15 15:14:40
胸有大志!绝平,绝杀,附加赛真的是天才想出来的!

胸有大志!绝平,绝杀,附加赛真的是天才想出来的!

风子说个球
2026-04-15 14:44:40
一字跌停闷杀!5天暴跌超30%,1.5万散户逃不出去

一字跌停闷杀!5天暴跌超30%,1.5万散户逃不出去

财经智多星
2026-04-15 12:05:45
吃杂粮不等于健康!医生提醒:这种杂粮少吃点,或引起血糖飙升

吃杂粮不等于健康!医生提醒:这种杂粮少吃点,或引起血糖飙升

芹姐说生活
2026-04-15 15:36:45
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
田馥甄首次回应与周杰伦陈年绯闻:不会因考古或是无事生非的内容产生特别反应

田馥甄首次回应与周杰伦陈年绯闻:不会因考古或是无事生非的内容产生特别反应

扬子晚报
2026-04-14 21:12:16
韩国与江苏对比:面积同为10多万,韩国高速4848公里,江苏多长?

韩国与江苏对比:面积同为10多万,韩国高速4848公里,江苏多长?

小兰聊历史
2026-04-14 23:50:08
成了!阿联酋王储当面答应中国:能源、投资全都要,美国看了沉默

成了!阿联酋王储当面答应中国:能源、投资全都要,美国看了沉默

坠入二次元的海洋
2026-04-15 13:35:15
男子晒列车上婴儿撕心裂肺哭闹20分钟,本以为将爆发冲突,没想到男子出手30秒哄睡婴儿,网友:这是本车厢MVP结算画面吗?

男子晒列车上婴儿撕心裂肺哭闹20分钟,本以为将爆发冲突,没想到男子出手30秒哄睡婴儿,网友:这是本车厢MVP结算画面吗?

观威海
2026-04-15 15:48:30
凭什么攻击伊朗?伊朗攻击过谁?伊朗总统连发数问质问美国

凭什么攻击伊朗?伊朗攻击过谁?伊朗总统连发数问质问美国

上游新闻
2026-04-15 13:19:01
2026-04-15 17:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12772文章数 142627关注度
往期回顾 全部

科技要闻

手机无死角上网?亚马逊砸百亿硬刚马斯克

头条要闻

年销10亿的网红"宋柚汁"柚含量仅2.7% "宋柚"是商标

头条要闻

年销10亿的网红"宋柚汁"柚含量仅2.7% "宋柚"是商标

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

曾志伟办73岁生日派对,逾百艺人到场

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

教育
时尚
艺术
亲子
数码

教育要闻

别再让妈妈背黑锅了

比性缘脑更可怕的东西,出现了

艺术要闻

这山水,荡涤胸中尘埃

亲子要闻

他发现了质数,并给它起了个名字:奇怪的数字

数码要闻

客厅电视买多大合适?TCL、海信、小米、华为等给出推荐规范

无障碍浏览 进入关怀版