网易首页 > 网易号 > 正文 申请入驻

patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

0
分享至

机器之心报道

机器之心编辑部

ViT(Vision Transformer)等视觉模型的强大性能,是来自于 Transformer,还是被忽略的 patch?有研究者提出了简单 ConvMixer 模型进行证明,直接将 patch 作为输入,实验表明,ConvMixer 性能优于 ResNet 等经典视觉模型,并且在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。

近年来,深度学习系统中的卷积神经网络在处理计算机视觉任务中,一直占据主要地位。但最近,基于 Transformer 模型的架构,例如 ViT(Vision Transformer)架构(Dosovitskiy 等人,2020 年),在许多任务中都表现出了引人注目的性能,它们通常优于经典卷积网络,尤其是在大型数据集上表现更佳。

我们可以假设,Transformer 成为视觉领域的主导架构只是时间问题,就像它们在 NLP 领域中一样。然而,为了将 Transformer 应用于图像领域,信息的表示方法必须改变:因为如果在每像素级别上应用 Transformer 中的自注意力层,它的计算成本将与每张图像的像素数成二次方扩展,所以折衷的方法是首先将图像分成多个 patch,再将这些 patch 线性嵌入 ,最后将 transformer 直接应用于此 patch 集合。

我们不禁会问:像 ViT 这种架构强大的性能是来自 Transformer ,还是至少部分是由于使用 patch 作为输入表示实现的?

在本文中,研究者为后者提供了一些证据:具体而言,该研究提出了 ConvMixer,这是一个极其简单的模型,在思想上与 ViT 和更基本的 MLP-Mixer 相似,这些模型直接将 patch 作为输入进行操作,分离空间和通道维度的混合,并在整个网络中保持相同的大小和分辨率。然而,相比之下,该研究提出的 ConvMixer 仅使用标准卷积来实现混合步骤。尽管它很简单,但研究表明,除了优于 ResNet 等经典视觉模型之外,ConvMixer 在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。

  • 论文地址:https://openreview.net/pdf?id=TVHS5Y4dNvM
  • Github 地址:https://github.com/tmp-iclr/convmixer

特斯拉 AI 高级总监 Andrej Karpathy 在其个人社交网站推特上感叹道:我被新的 ConvMixer 架构震撼了。

有网友认为:「这项研究具有很重要的理论意义,因为它挑战了 ViT 有效性的原因。」

还有网友表示:「作为消融实验,我认为很有趣。我不认为这篇论文的目的是表达『 ConvMixer 是一个好的架构,值得研究者使用』,而是『这个简单的架构有效的帮助我们缩小了其他模型最有价值的特性范围』。」

一个简单的模型:ConvMixer

ConvMixer 由一个 patch 嵌入层和一个简单的全卷积块的重复应用组成。该研究保持 patch 嵌入的空间结构,如下图 2 所示。patch 大小为 p 和嵌入维度为 h 的 patch 嵌入可以实现具有 c_in 输入通道、h 个输出通道、内核大小 p 和步长 p 的卷积:

ConvMixer 块本身由 depthwise 卷积(即组数等于通道数 h 的分组卷积)和 pointwise(即内核大小为 1 × 1)卷积组成。每个卷积之后是一个激活函数和激活后的 BatchNorm:

在 ConvMixer 块的多次应用之后,执行全局池化以获得大小为 h 的特征向量,并将其传递给 softmax 分类器。

设计参数:ConvMixer 的实例化取决于四个参数:(1)宽度或隐藏维度 h(即 patch 嵌入的维度),(2)深度 d,或 ConvMixer 层的重复次数,(3 ) 控制模型内部分辨率的 patch 大小 p, (4) 深度卷积层的内核大小 k。研究者根据它们的隐藏维度和深度命名 ConvMixers,如 ConvMixer-h/d。他们将原始输入大小 n 除以 patch 大小 p 作为内部分辨率;但是请注意,ConvMixers 支持可变大小的输入。

动机:ConvMixer 架构基于混合思想。具体地,该研究选择了 depthwise 卷积来混合空间位置,选择 pointwise 卷积来混合通道位置。先前工作的一个关键思想是 MLP 和自注意力可以混合较远的空间位置,即它们可以具有任意大的感受野。因此,该研究使用较大的内核卷积来混合较远的空间位置。

实验结果

研究者首先在 CIFAR-10 上执行了小规模的实验,其中 ConvMixers 仅使用 0.7M 的参数实现了 96% 以上的准确率,验证了卷积归纳偏置的数据高效性。

此外,研究者不使用任何预训练或额外数据,在 ImageNet-1k 分类数据集上对 ConvMixers 进行了评估。他们将 ConvMixer 添加到 timm 框架中,并使用近乎标准的设置进行训练,包括默认 timm 增强、RandAugment、mixup、CutMix、随机删除(random erasing)和梯度标准裁剪。

研究者还使用了 AdamW 优化器和一个简单的 triangular 学习速度时间表。由于计算受限,他们没有在 ImageNet 上进行超参数调整,并较竞品模型训练了更少的 epoch。

结果如下表 1 所示。参数量为 52M 的 ConvMixer-1536/20 在 ImageNet 上实现了 81.4% 的 top-1 准确率,参数量为 21M 的 ConvMixer-768/32 实现了 80.2% 的 top-1 准确率。更宽的 ConvMixers 在训练 epoch 更少时出现收敛,但需要内存和计算。当卷积核更大时表现也很好:当卷积核大小从 K = 9 降至 K = 3 时,ConvMixer-1536/20 的准确率大约降了 1%。当 patch 更小时,ConvMixers 的表现明显更好。因此,研究者认为,更大的 patch 需要更深的 ConvMixers。他们使用 ReLU 训练了一个模型,以证明 GELU 是不必要的。

ConvMixers 模型和训练设置与 DeiT 非常相似。在最近的各向同性模型中,研究者认为 DeiT 和 ResMLP 是最公平的竞品模型,并且使用相同的过程训练了 ResNet(它的原始结果已经过时了)。从表 1 和下图 1 可以看到,ConvMixer 在给定的参数预算下实现了具有竞争力的结果:ConvMixer-1536/20 在使用明显更少参数的情况下,优于 ResNet-152 和 ResMLP-B24,并能够与 DeiT-B 竞争。不仅如此,ConvMixer-768/32 仅使用 ResNet-152 的 1/3 参数,就实现了与之相似的准确率。

但是,ConvMixers 的推理速度较竞品模型慢得多,这可能因为它们的 patch 更小。超参数调整和优化可以缩小这一差距,具体参见下表 2:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辛芷蕾方开撕微博风波升级!娃娃被偷再添实锤,杨幂大粉帮倒忙!

辛芷蕾方开撕微博风波升级!娃娃被偷再添实锤,杨幂大粉帮倒忙!

古希腊掌管月桂的神
2026-02-09 15:13:16
1年350万底薪!却打成球队老大!NBA最可怜的超巨,你该得到尊重

1年350万底薪!却打成球队老大!NBA最可怜的超巨,你该得到尊重

篮球扫地僧
2026-01-23 08:33:07
夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

谈史论天地
2026-02-07 13:20:03
曼联近3次联赛客战西汉姆均输球,上一次4连败是在1977年

曼联近3次联赛客战西汉姆均输球,上一次4连败是在1977年

懂球帝
2026-02-10 02:06:29
你发现没有?2026年还坚持买油车的人,基本都逃不出这4种情况

你发现没有?2026年还坚持买油车的人,基本都逃不出这4种情况

蜉蝣说
2026-02-09 15:26:57
英媒:中国将中子弹纳入常规装备,若属实,代理人战争算是废了

英媒:中国将中子弹纳入常规装备,若属实,代理人战争算是废了

风云人物看历史
2026-01-30 09:15:41
两位富婆网红被封杀,曾公开自己内裤4万元,调查发现全是假人设

两位富婆网红被封杀,曾公开自己内裤4万元,调查发现全是假人设

新游戏大妹子
2026-02-09 12:45:53
杨幂是不是有点飘了,那可是李冰冰,毕竟也是前辈,握手都不起身

杨幂是不是有点飘了,那可是李冰冰,毕竟也是前辈,握手都不起身

动物奇奇怪怪
2026-02-09 10:45:26
成本7亿,上映3天票房26.7万,徐峥懵了:内地观众怎么不买账了?

成本7亿,上映3天票房26.7万,徐峥懵了:内地观众怎么不买账了?

糊咖娱乐
2026-02-09 15:20:05
追觅拿下超级碗黄金广告位:30秒千万美金!霸屏全美

追觅拿下超级碗黄金广告位:30秒千万美金!霸屏全美

快科技
2026-02-09 20:58:03
2026春晚第四次联排仅1天,不雅事件再现,观众心再次悬起

2026春晚第四次联排仅1天,不雅事件再现,观众心再次悬起

萧狡科普解说
2026-02-09 22:50:31
场均37分,可惜生不逢时!NBA最强力的球星,今夏你也该主动离开

场均37分,可惜生不逢时!NBA最强力的球星,今夏你也该主动离开

老梁体育漫谈
2026-02-10 00:10:38
国防部举行2026年新春招待会

国防部举行2026年新春招待会

澎湃新闻
2026-02-09 22:24:02
最好的“年终奖”,蚂蚁P6晋升P7通过

最好的“年终奖”,蚂蚁P6晋升P7通过

蚂蚁大喇叭
2026-02-09 19:24:25
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
1903年,30岁梁启超和17岁王桂荃行房,两人大汗淋漓

1903年,30岁梁启超和17岁王桂荃行房,两人大汗淋漓

南权先生
2026-02-03 15:53:04
美国再加25%关税,特朗普提前庆祝,中国:抛售5000亿美债

美国再加25%关税,特朗普提前庆祝,中国:抛售5000亿美债

坠入二次元的海洋
2026-02-09 18:53:15
EPSN:快船去年就不看好哈登!哈登想重返火箭、但火箭不要!

EPSN:快船去年就不看好哈登!哈登想重返火箭、但火箭不要!

氧气是个地铁
2026-02-09 17:06:21
能看见此文,则说明你已具备无量福报

能看见此文,则说明你已具备无量福报

金沛的国学笔记
2026-02-07 17:50:24
外交部里有高人!

外交部里有高人!

燕梳楼频道
2025-11-22 12:46:09
2026-02-10 03:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12275文章数 142564关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

游戏
教育
数码
手机
公开课

推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童”"/> 主站 商城 论坛 自运营 登录 注册 推出“黑命贵”DLC后,《我的世界》被骂“洗脑儿童” ...

教育要闻

孩子爱玩手机不爱学习?你没用对方法!

数码要闻

曜越推出TG100桌面迷你机箱,219元

手机要闻

小米17 Max:去副屏+2亿像素!小米18:升级骁龙8 Elite Gen6 Pro

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版