网易首页 > 网易号 > 正文 申请入驻

Masked Autoencoders Are Scalable Vision Learners 论文导读

0
分享至

Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题。这也是KaiMing大神在2年后的第一篇一作论文。

采用带有掩码的语言建模系统,如谷歌的 BERT 及其自回归对应物,如 OpenAI 的 GPT,已经在自然语言处理 (NLP) 任务中取得了惊人的性能,并能够训练包含超过 1000 亿个参数的泛化 NLP 模型。

但是在计算机视觉中自编码方法的进展和性能远远落后于它们在 NLP 能力。 一个问题自然会出现:掩码自动编码在视觉和语言领域有何不同? FAIR 论文解决了这个问题,并证明了 Masked Autoencoders (MAE) 可以是用于计算机视觉的可扩展自监督学习器。

研究人员首先讨论了视觉和语言领域中带有掩码的自编码器的差异,总结为以下三点:1) 到现在为止两者架构还是不同的; 2)语言和图像的信息密度不同; 3)自动编码器的解码器将潜在表示映射回输入,在重建文本或图像时扮演不同的角色。

然后,该论文提出了一种简单、有效且可扩展的 用于视觉表示学习的MAE方法。所提出的 MAE 方法背后的想法很简单——将来自输入图像的随机块被屏蔽,然后在像素空间中重建丢失的块。该团队将其 MAE 的双核心设计和方法总结为:

我们开发了一个非对称编码器-解码器架构,其中一个编码器只对可见的patches子集进行操作(没有掩码标记),以及一个轻量级解码器,可以从潜在表示和掩码标记重建原始图像。

我们发现屏蔽大部分输入图像,例如 75%,会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型,将训练速度提高 3 倍或更多,并提高准确性。

论文在 ImageNet-1K (IN1K) 训练集上进行了自监督的预训练,然后进行了监督训练,以通过端到端的微调或线性探测来评估表示。他们使用 ViT-Large (ViT-L/16) 作为他们的模型并验证Top1准确性。

结果表明,MAE 学习了非常高容量的模型,这些模型也能很好地泛化。 使用普通的 ViT-Huge 模型,MAE 在 ImageNet-1K 上进行微调时达到了 87.8% 的准确率。

论文认为,扩展性好的简单算法是深度学习的核心。在NLP中,简单的自监督学习方法可以指数级别的增益模型。在计算机视觉中,尽管在自监督学习方面取得了进展,但实际的预训练模式仍主要受到监督。在ImageNet和迁移学习中观察到,自动编码器(autoencoder)提供了非常强的优势。视觉中的自监督学习现在可能正走上与NLP类似的轨道。

论文地址:arxiv/abs/2111.06377

本文来自 syncedreview,作者:Hecate He

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗凌晨紧急发文,最高领袖决定退让一步,全世界长舒一口气

伊朗凌晨紧急发文,最高领袖决定退让一步,全世界长舒一口气

无人倾听无人倾听
2026-04-08 10:20:41
斯诺克2场7-2!3大冠军上半场落后,江俊告急,庞俊旭5-0到5-4!

斯诺克2场7-2!3大冠军上半场落后,江俊告急,庞俊旭5-0到5-4!

刘姚尧的文字城堡
2026-04-12 21:32:31
佛爷邀请!皇马36岁传奇有望回归:退役2年 今夏转型任职

佛爷邀请!皇马36岁传奇有望回归:退役2年 今夏转型任职

叶青足球世界
2026-04-12 15:26:58
闭门会谈一小时,只要和平不谈统一?郑丽文八字回应,大陆表态了

闭门会谈一小时,只要和平不谈统一?郑丽文八字回应,大陆表态了

李健政观察
2026-04-12 12:34:13
后来,我才明白,断联后不删除、不拉黑、不联系的人,不是在等对方回头,而是在等自己放下

后来,我才明白,断联后不删除、不拉黑、不联系的人,不是在等对方回头,而是在等自己放下

品读时刻
2026-04-12 09:08:19
没实力,没情商,还双标,她上《浪姐》干啥来了

没实力,没情商,还双标,她上《浪姐》干啥来了

孤城落日
2026-04-12 21:36:16
看上去像“公务员”,其实连编制都没有的6个职业

看上去像“公务员”,其实连编制都没有的6个职业

细说职场
2026-04-12 17:02:40
曝何超蕸去世更多细节,闺蜜杨千嬅痛哭,最后露面状态已水肿疲惫

曝何超蕸去世更多细节,闺蜜杨千嬅痛哭,最后露面状态已水肿疲惫

小彭美识
2026-04-12 18:24:32
伊朗伊斯兰革命卫队海军发出警告

伊朗伊斯兰革命卫队海军发出警告

财联社
2026-04-12 22:23:06
88年陪娘赶集,与卖肉姑娘争价格,她放下刀说:合我脾气,结婚吧

88年陪娘赶集,与卖肉姑娘争价格,她放下刀说:合我脾气,结婚吧

千秋文化
2026-04-08 20:05:11
荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

傲傲讲历史
2026-04-12 08:05:50
“人养屋,屋养人”真有道理,家里这3个地方越干净,人越有福!

“人养屋,屋养人”真有道理,家里这3个地方越干净,人越有福!

唯晨说
2026-04-11 08:40:06
4.13日早评|大消息!美伊谈崩了!全球股市将巨震?

4.13日早评|大消息!美伊谈崩了!全球股市将巨震?

龙行天下虎
2026-04-13 02:54:29
特朗普威胁称“将把伊朗的残余力量终结”

特朗普威胁称“将把伊朗的残余力量终结”

界面新闻
2026-04-12 21:36:50
马筱梅带娃回京,晒北京美景,穿白色裙子美翻了,张兰力挺儿媳妇

马筱梅带娃回京,晒北京美景,穿白色裙子美翻了,张兰力挺儿媳妇

情感大头说说
2026-04-13 03:03:33
没军人气质别演旅长,看了观众对王阳的评价,陈道明的话有人信了

没军人气质别演旅长,看了观众对王阳的评价,陈道明的话有人信了

陈述影视
2026-04-11 00:09:56
东风日产NX8动了理想的蛋糕,李想气的朋友圈飙脏话

东风日产NX8动了理想的蛋糕,李想气的朋友圈飙脏话

智电汽车.
2026-04-12 10:48:15
重磅:第四座“双机场”城市,来了!

重磅:第四座“双机场”城市,来了!

新浪财经
2026-04-13 00:42:31
空乘人员和郑丽文同框出镜,真是太美了!

空乘人员和郑丽文同框出镜,真是太美了!

达文西看世界
2026-04-12 09:39:42
4月看病要注意了!报销从80%降到50%,关键就在于这两样东西

4月看病要注意了!报销从80%降到50%,关键就在于这两样东西

刘哥谈体育
2026-04-12 05:38:27
2026-04-13 06:23:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1974文章数 1461关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

美中央司令部:4月13日起封锁伊朗港口海上交通

头条要闻

美中央司令部:4月13日起封锁伊朗港口海上交通

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

手机
时尚
本地
数码
房产

手机要闻

华为阔折叠设计图曝光!这外观你喜欢吗?

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

苹果版套娃 买台Mac Pro回家:打开一看里面还藏着一台Mac Pro

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

无障碍浏览 进入关怀版