网易首页 > 网易号 > 正文 申请入驻

Masked Autoencoders Are Scalable Vision Learners 论文导读

0
分享至

Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题。这也是KaiMing大神在2年后的第一篇一作论文。

采用带有掩码的语言建模系统,如谷歌的 BERT 及其自回归对应物,如 OpenAI 的 GPT,已经在自然语言处理 (NLP) 任务中取得了惊人的性能,并能够训练包含超过 1000 亿个参数的泛化 NLP 模型。

但是在计算机视觉中自编码方法的进展和性能远远落后于它们在 NLP 能力。 一个问题自然会出现:掩码自动编码在视觉和语言领域有何不同? FAIR 论文解决了这个问题,并证明了 Masked Autoencoders (MAE) 可以是用于计算机视觉的可扩展自监督学习器。

研究人员首先讨论了视觉和语言领域中带有掩码的自编码器的差异,总结为以下三点:1) 到现在为止两者架构还是不同的; 2)语言和图像的信息密度不同; 3)自动编码器的解码器将潜在表示映射回输入,在重建文本或图像时扮演不同的角色。

然后,该论文提出了一种简单、有效且可扩展的 用于视觉表示学习的MAE方法。所提出的 MAE 方法背后的想法很简单——将来自输入图像的随机块被屏蔽,然后在像素空间中重建丢失的块。该团队将其 MAE 的双核心设计和方法总结为:

我们开发了一个非对称编码器-解码器架构,其中一个编码器只对可见的patches子集进行操作(没有掩码标记),以及一个轻量级解码器,可以从潜在表示和掩码标记重建原始图像。

我们发现屏蔽大部分输入图像,例如 75%,会产生重要且有意义的自监督任务。将这两种设计结合起来使我们能够高效地训练大型模型,将训练速度提高 3 倍或更多,并提高准确性。

论文在 ImageNet-1K (IN1K) 训练集上进行了自监督的预训练,然后进行了监督训练,以通过端到端的微调或线性探测来评估表示。他们使用 ViT-Large (ViT-L/16) 作为他们的模型并验证Top1准确性。

结果表明,MAE 学习了非常高容量的模型,这些模型也能很好地泛化。 使用普通的 ViT-Huge 模型,MAE 在 ImageNet-1K 上进行微调时达到了 87.8% 的准确率。

论文认为,扩展性好的简单算法是深度学习的核心。在NLP中,简单的自监督学习方法可以指数级别的增益模型。在计算机视觉中,尽管在自监督学习方面取得了进展,但实际的预训练模式仍主要受到监督。在ImageNet和迁移学习中观察到,自动编码器(autoencoder)提供了非常强的优势。视觉中的自监督学习现在可能正走上与NLP类似的轨道。

论文地址:arxiv/abs/2111.06377

本文来自 syncedreview,作者:Hecate He

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月惊雷!医院耗材回扣连环爆:1200人退费8000万,追责才刚开始

4月惊雷!医院耗材回扣连环爆:1200人退费8000万,追责才刚开始

观星赏月
2026-04-19 22:02:10
放假通知!2026中小学暑假时间确定了,家长却表示难以接受

放假通知!2026中小学暑假时间确定了,家长却表示难以接受

凯旋学长
2026-04-19 15:04:39
真相大白!王宝强儿子近照,一眼认出亲爹是谁,宋喆是该哭还是该笑

真相大白!王宝强儿子近照,一眼认出亲爹是谁,宋喆是该哭还是该笑

八卦王者
2026-04-19 11:17:46
哈兰德本赛季平均每99分钟造一球英超球员第1,谢尔基第2

哈兰德本赛季平均每99分钟造一球英超球员第1,谢尔基第2

懂球帝
2026-04-20 03:34:11
白酒帝国的黄昏:珍酒李渡和华致酒行全面“塌房”

白酒帝国的黄昏:珍酒李渡和华致酒行全面“塌房”

深水财经社
2026-04-19 22:00:06
佟丽娅真人被偶遇!网友:陈思诚你眼酸不?

佟丽娅真人被偶遇!网友:陈思诚你眼酸不?

民宿体验志
2026-04-17 13:39:04
最新!美国10名顶尖科学家接连消失,特朗普紧急回应,原因被曝光

最新!美国10名顶尖科学家接连消失,特朗普紧急回应,原因被曝光

影像温度
2026-04-19 17:27:22
游戏已结束,中方断供钨原料,禁止日本人登岛,中国舰艇带炮上场

游戏已结束,中方断供钨原料,禁止日本人登岛,中国舰艇带炮上场

老籣说体育
2026-04-20 00:26:25
A股:刚刚,大消息传来,美方突抵巴基斯坦,周一将迎新关键节点

A股:刚刚,大消息传来,美方突抵巴基斯坦,周一将迎新关键节点

云鹏叙事
2026-04-20 00:00:09
伊朗未证实伊美复谈消息

伊朗未证实伊美复谈消息

界面新闻
2026-04-19 20:45:22
我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

千秋文化
2026-04-16 20:12:45
随着63岁穆帅率队2-1掀翻争冠劲敌,葡超最新积分榜出炉

随着63岁穆帅率队2-1掀翻争冠劲敌,葡超最新积分榜出炉

侧身凌空斩
2026-04-20 03:24:02
40岁演员周瑞自曝:近五个月未进组拍戏,蜗居10平小屋,无车无房

40岁演员周瑞自曝:近五个月未进组拍戏,蜗居10平小屋,无车无房

韩小娱
2026-04-19 18:29:27
性需求是人的活力来源,性需求是成年人最强大的生命力

性需求是人的活力来源,性需求是成年人最强大的生命力

加油丁小文
2026-04-03 11:30:07
伊万卡大秀秃噜了皮的膝盖。她的膝盖怎么会秃噜了皮呢?

伊万卡大秀秃噜了皮的膝盖。她的膝盖怎么会秃噜了皮呢?

一口娱乐
2026-04-18 13:00:29
网上都说他死了,他也没法证明自己还活着

网上都说他死了,他也没法证明自己还活着

万物杂志
2026-04-18 06:06:03
我国摧毁特大假酒网络:查获近2万箱、涉案2.6亿元,多在直播间销售

我国摧毁特大假酒网络:查获近2万箱、涉案2.6亿元,多在直播间销售

金融界
2026-04-19 14:16:10
快检查自家阳台!有人家里已大量出现,官方提醒:千万别摸

快检查自家阳台!有人家里已大量出现,官方提醒:千万别摸

环球网资讯
2026-04-18 16:23:18
法国情侣在泰国海滩“啪啪啪”,被捕后遮脸!当地人怒了!

法国情侣在泰国海滩“啪啪啪”,被捕后遮脸!当地人怒了!

新欧洲
2026-04-18 17:15:30
伊朗方面称只要存在海上封锁就不会谈判

伊朗方面称只要存在海上封锁就不会谈判

极目新闻
2026-04-19 22:27:17
2026-04-20 04:23:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1975文章数 1461关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
艺术
教育
手机
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

超模施特洛耶克写真曝光,简直美到窒息,别错过!

教育要闻

655家单位、1.29万个岗位,湖南用心帮大学生找工作

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

军事要闻

伊朗逼退美扫雷艇:美方求给15分钟撤退

无障碍浏览 进入关怀版