网易首页 > 网易号 > 正文 申请入驻

少到4个示例,击败所有少样本学习:DeepMind800亿模型真学会了

0
分享至

机器之心报道

编辑:陈萍、杜伟

DeepMind 的这个模型,可以说是「看一眼」就学会了。

关于智能,其关键点是在得到一个简短的指令时快速学习如何执行新任务的能力。例如,一个孩子在动物园看到动物时,他会联想到自己曾在书中看到的,并且认出该动物,尽管书中和现实中的动物有很大的差异。

但对于一个典型的视觉模型来说,要学习一项新任务,它必须接受数以万计的、专门为该任务标记的例子来进行训练。假如一项研究的目标是计数和识别图像中的动物,例如「三匹斑马」这样的描述,为了完成这一任务,研究者将不得不收集数千张图片,并在每张图片上标注它们的数量和种类。但是标注过程效率低效、成本高,对于资源密集型的任务来说,需要大量带注释的数据,并且每次遇到新任务时都需要训练一个新模型。

DeepMind 另辟蹊径,他们正在探索可替代模型,可以使这个过程更容易、更高效,只给出有限的特定于任务的信息。

在 DeepMind 最新公布的论文中,他们推出了 Flamingo(火烈鸟)模型,这是一个单一的视觉语言模型(visual language model,VLM),它在广泛的开放式多模态任务中建立了少样本学习新 SOTA。这意味着 Flamingo 只需少量的特定例子(少样本)就能解决许多难题,而无需额外训练。Flamingo 的简单界面使这成为可能,它将图像、视频和文本作为提示(prompt),然后输出相关语言。

  • 论文地址 https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
  • 代码地址:https://github.com/lucidrains/flamingo-pytorch

这个 Flamingo 模型到底有多智能呢?我们先来看下效果:Flamingo 可以进行开箱即用的多模式对话,下图展示的是使用 OpenAI 的 DALL·E 2 生成的「汤怪物」图像,在关于这张图像的不同问答中,Flamingo 都能准确地回答出来。例如问题:这张图片中有什么?Flamingo 回答:一碗汤,一张怪物脸在上面。

Flamingo 还能通过并识别出著名的斯特鲁普效应 (Stroop effect),例如事先给几个示例,如出题人给出表示绿色的单词 GREEN,并用蓝色的字体表示,回答者需要回答:颜色是绿色,用蓝色书写。在给出几组示例后,Flamingo 就学会了这种模式,当给出 YELLOW 绿色字体时,Flamingo 回答:颜色是黄色,用绿色书写。

此外,Flamingo 还能识别出这是 Stroop 测试。

下图给出了两个动物图片示例和一个标识它们名称的文本以及关于在哪里可以找到的描述,Flamingo 可以模仿这种风格,给定一个新图像以输出相关描述:例如,在给出栗鼠、柴犬示例后,Flamingo 模仿这种方式,输出这是一只火烈鸟,它们在加勒比海被发现。

Flamingo 还能进行算术(第四行):

就像大型语言模型一样,Flamingo 可以快速适应各种图像和视频理解任务,只需简单地提示它几个例子 (上图)。Flamingo 还具有丰富的视觉对话功能 (下)。

研究概述

模型架构 & 方法

在实践中,通过在两者之间添加新颖的架构组件,Flamingo 将每个经过单独预训练和冻结的大型语言模型与强大的视觉表示融合在一起。接着在仅来自网络上的互补大规模多模态混合数据上进行训练,而不使用任何为达到机器学习目的而标注的数据。

按照该方法,研究者从最近推出的计算最优的 700 亿参数语言模型 Chinchilla 入手,训练最终的 800 亿参数的 VLM 模型 Flamingo。完成训练后,Flamingo 经过简单的少样本学习即可直接适用于视觉任务,无需任何额外特定于任务的微调。下图为 Flamingo 架构概览。

首先是视觉处理和感知器重采样器(Perceiver Resampler)。Flamingo 模型的视觉编码器是一个预训练的 NFNet,研究者使用的是 F6 模型。在 Flamingo 模型的主要训练阶段,他们将视觉编码器冻结,这是因为它与直接基于文本生成目标训练视觉模型相比表现得更好。最后阶段是特征 X_f 的 2D 空间网格被展平为 1D,如下图 4 所示。

感知器重采样器模块将视觉编码器连接到冻结的语言模型(如上图 3 所示),并将来自视觉编码器的可变数量的图像或视频特征作为输入,产生固定数量的视觉输出,如下图 4 所示。

然后是在视觉表示上调整冻结的语言模型。如下图 5 所示,文本生成由一个 Transformer 解码器执行,并以感知器重采样器生成的视觉表示 X 为条件。研究者通过间插从仅文本语言模型中获得的预训练块以及使用感知器重采样器的输出作为输入从头训练的块来构建模型。

此外,为了使得 VLM 模型具有足够的可表达性并使它在视觉输入上表现良好,研究者在初始层之间插入了从头开始训练的门跨注意力密集块。

最后,如下图 7 所示,研究者在三种类型的混合数据集上训练 Flamingo 模型,分别是取自网页的间插图像和文本数据集、图像和文本对以及视频和文本对。

实验结果

在纳入研究的 16 个任务中,当每个任务仅给定 4 个示例时,Flamingo 击败了以往所有的少样本学习方法。在某些情况下,Flamingo 模型甚至优于针对每个任务单独进行微调优化并使用更多数量级特定于任务的数据的方法。这使得非专家人员可以快速轻松地在手头新任务上使用准确的视觉语言模型。

下图左为 Flamingo 在 16 个不同的多模态任务上与特定于任务的 SOTA 方法的少样本性能比较。图右为 16 个基准中的 3 个的预期输入和输出示例。

未来展望

Flamingo 是一个有效且高效的通用模型族,它们可以通过极少的特定于任务的示例应用于图像和视频理解任务。

DeepMind 表示,像 Flamingo 这类模型很有希望以实际的方式造福社会,并将继续提升模型的灵活性和能力,以便可以实现安全的部署。Flamingo 展示的能力为与学得视觉语言模型的丰富交互铺平了道路,这些模型能够实现更好的可解释性和令人兴奋的新应用,比如在日常生活中帮助人们的视觉助手等。

https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股全线下挫,科技七巨头、芯片股普跌,携程跌超17%,白银狂飙突破93美元

美股全线下挫,科技七巨头、芯片股普跌,携程跌超17%,白银狂飙突破93美元

21世纪经济报道
2026-01-15 07:28:38
李连杰公开病情:没换心脏、肿瘤7厘米长,活着都是为了别人

李连杰公开病情:没换心脏、肿瘤7厘米长,活着都是为了别人

大龄女一晓彤
2026-01-02 13:56:56
马卡:前阿雅克肖主席阿兰在其母亲葬礼上被狙击手射杀身亡

马卡:前阿雅克肖主席阿兰在其母亲葬礼上被狙击手射杀身亡

懂球帝
2026-01-14 07:39:15
切尔西2-3阿森纳,赛后评分:不是哲凯赖什第一,切尔西49号第一

切尔西2-3阿森纳,赛后评分:不是哲凯赖什第一,切尔西49号第一

侧身凌空斩
2026-01-15 06:13:19
秋瓷炫:我这辈子最正确的决定,就是39岁高龄为中国籍小丈夫生子

秋瓷炫:我这辈子最正确的决定,就是39岁高龄为中国籍小丈夫生子

八斗小先生
2026-01-15 09:59:08
樊振东告知上海体育局媒体报道捐款280万不完全符合事实让删视频

樊振东告知上海体育局媒体报道捐款280万不完全符合事实让删视频

阿纂看事
2026-01-15 09:55:46
第一次见牛仔裤这么会穿的小姐姐,腰细臀翘,让人忍不住多看几眼

第一次见牛仔裤这么会穿的小姐姐,腰细臀翘,让人忍不住多看几眼

小乔古装汉服
2025-12-21 07:56:28
51票对50票!美国参议院否决限制特朗普战争权议案

51票对50票!美国参议院否决限制特朗普战争权议案

新京报
2026-01-15 08:28:04
最新:委内瑞拉恢复原油出口

最新:委内瑞拉恢复原油出口

参考消息
2026-01-14 20:24:42
命中率仅11%,防守出色又如何?赶紧练练三分吧!否则迟早被淘汰

命中率仅11%,防守出色又如何?赶紧练练三分吧!否则迟早被淘汰

兵哥篮球故事
2026-01-15 11:03:08
闫学晶儿子中戏合照流出,先读的预科,再进的本科班?

闫学晶儿子中戏合照流出,先读的预科,再进的本科班?

金牌娱乐
2026-01-12 11:50:11
唐方裕已任中央政策研究室主任

唐方裕已任中央政策研究室主任

农民日报
2026-01-15 09:54:21
“棋圣”聂卫平病逝,曾两度接受南都采访展现真性情

“棋圣”聂卫平病逝,曾两度接受南都采访展现真性情

南方都市报
2026-01-15 10:13:09
果不其然,柬埔寨变天了!总理洪玛奈突然宣布加大与美国全面合作,这颗甜枣背后到底藏着什么药?

果不其然,柬埔寨变天了!总理洪玛奈突然宣布加大与美国全面合作,这颗甜枣背后到底藏着什么药?

老杉说历史
2026-01-14 19:19:08
俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

秀秀情感课堂
2026-01-13 13:40:03
2年被世界第1连赢5次!38岁丁俊晖无奈:我的水平不如他 真打不过

2年被世界第1连赢5次!38岁丁俊晖无奈:我的水平不如他 真打不过

风过乡
2026-01-15 07:32:15
天助国际米兰:0-0大冷门,意甲第4遭意甲第14逼平,落后榜首3分

天助国际米兰:0-0大冷门,意甲第4遭意甲第14逼平,落后榜首3分

侧身凌空斩
2026-01-15 03:27:16
11国达成稀土共识,美日乐了!高市率先出手,日网友:中国要哭

11国达成稀土共识,美日乐了!高市率先出手,日网友:中国要哭

兵器海陆空视频
2026-01-14 19:27:59
91版《雪山飞狐》重聚,龚慈恩从年轻温柔到老,69岁汤镇宗好精神

91版《雪山飞狐》重聚,龚慈恩从年轻温柔到老,69岁汤镇宗好精神

大铁猫娱乐
2026-01-14 15:40:03
被拐30年儿子认亲14小时就走,全程冷脸,网友:穷家标签太刺眼

被拐30年儿子认亲14小时就走,全程冷脸,网友:穷家标签太刺眼

老特有话说
2025-12-06 17:31:27
2026-01-15 11:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12118文章数 142536关注度
往期回顾 全部

科技要闻

反垄断大棒,为何砸向了携程

头条要闻

聂卫平女儿:父亲明明恢复好了 为什么上天这样无情

头条要闻

聂卫平女儿:父亲明明恢复好了 为什么上天这样无情

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

赵又廷高圆圆婚后11年谈夫妻生活

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

曝Model Y或降到20万以内!

态度原创

游戏
艺术
家居
手机
公开课

玩家反馈推动决定:制作人谈《生化9》重回浣熊市

艺术要闻

历代书家集字春联大集合

家居要闻

心之所向 现代建构之美

手机要闻

苹果确认Final Cut Pro买断版与订阅版可共存,通过图标区分

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版