网易首页 > 网易号 > 正文 申请入驻

模型越大,性能越好?苹果自回归视觉模型AIM:没错

0
分享至

机器之心报道

编辑:蛋酱、杜伟

视觉模型,同样遵循「参数越多性能越强」的规律?刚刚,一项来自苹果公司的研究验证了这个猜想。

过去几年,大规模预训练模型在 NLP 领域取得了成功,这类模型可以通过几个示例解决复杂的推理任务,也可以按照指令进行推理。

众所周知的是,预训练模型能取得成功的一个理论基础是,随着容量(即参数量)或预训练数据量的增加,模型能够不断提升性能。

这很自然地引发了研究者们的联想:使用自回归目标对 Transformers 进行缩放的成功是否仅限于文本?

在最新的一篇论文《Scalable Pre-training of Large Autoregressive Image Models》中,苹果的研究者提出了自回归图像模型(AIM),探讨了用自回归目标训练 ViT 模型是否能在学习表征方面获得与 LLMs 相同的扩展能力。

  • 论文链接:https://arxiv.org/pdf/2401.08541.pdf
  • 项目地址:https://github.com/apple/ml-aim

先说结论:研究者发现,模型容量可以轻松扩展到数十亿个参数,并且 AIM 能够有效利用大量未经整理的图像数据。

他们利用包括 ViT、大规模网络数据集和 LLM 预训练最新进展在内的工具集,重新审视了 iGPT 等自回归表征学习方面的前期工作,此外还引入了两处架构修改,以适应视觉特征的自回归预训练。

首先,研究者并没有像 LLM 通常那样将自注意力限制为完全因果关系,而是采用了 T5 中的前缀注意力。这一选择使得能够在下游任务中转向完全双向的注意力。其次,研究者使用了参数化程度较高的 token-level 预测头,其灵感来自对比学习中使用的预测头。他们观察到,这种修改大大提高了后续特征的质量,而在训练过程中的开销却很小。总体来说,AIM 的训练与最近的 LLM 训练类似,而且不依赖于监督式或自监督式方法所需的任何 stability-inducing 技术。

随后,研究者对一系列模型展开了研究,这些模型的参数从 600M 到 7B 不等,都是使用 20 亿带许可的未编辑图像进行预训练的。如图 1 所示,以 15 个图像识别基准的平均准确率来衡量,AIM 模型在与模型规模的关系上表现出很强的扩展性,容量越大的模型下游性能越好。更重要的是,验证集上的目标函数值与后续冻结特征的质量之间存在相关性。这一观察结果证明,自回归目标足以满足视觉特征的训练要求。此外,随着对更多图像进行训练,研究者还观察到了下游性能的持续改善,且没有饱和的迹象。总体而言,这些观察结果与之前关于扩展大型语言模型的研究结果是一致的。

但同时引起注意的是,本文实验所使用的模型规模有限,是否能在更大参数量级的模型上验证此规律,有待进一步探索。

方法概览

本文的训练目标遵循应用于图像 patch 序列的标准自回归模型。更准确地说,图像 x 被分割为 K 个不重叠 patch x_k 组成的网格 k ∈ [1, K],这些 patch 共同形成 token 序列。

研究者假设所有图像的序列顺序是固定的,因此除非另有说明,他们默认使用光栅(行优先)排序。给定上述顺序,一张图像的概率可以被分解为 patch 条件概率的乘积。

预测损失。研究者的训练目标自然会产生某些损失变体,每个变体对应分布 P (x_k | x_

架构

在骨干选择上,研究者采用了 Vision Transformer(ViT)架构。为了扩展模型容量,他们遵循语言建模中的常见做法,优先考虑扩展宽度而不是深度。下表 1 展示了 AIM 的设计参数,包括它的宽度和深度以及数据量、每个模型容量的优化方案。

AIM 整体模型架构如下图 2 所示。

在预训练期间,研究者将因果掩码用于自注意力层,以对给定先前 patch 的 patch 进行概率建模。更准确地说,给定一个自注意力层,patch i 的嵌入被计算如下:

前缀 Transformer。预训练中的自回归目标需要在自注意力操作中使用因果掩码,不过这与 ViT 模型在下游任务中的标准使用方法不同,后者要部署双向自注意力。下图 3 说明了因果和前缀注意力之间的差别。

MLP 预测头。使用这些头的目的是防止主干(trunk)特征在预训练目标中变得过于专门化,从而增强对下游任务的迁移能力。研究者选择了一种简单设计,在最终 transformer 层顶部使用 N 个多层感知机(MLP)块,从而独立地对每个 patch 进行处理。

直接实现。研究者观察到,AIM 使用相同的优化超参数集来扩展模型大小,无需进一步调整。

下游适应。研究者专注的场景中,所有模型权重对下游任务都是固定的。在这种情况下,他们只训练一个分类头,这可以减轻小型下游数据集过拟合的风险,并显著降低适应成本。

实验结果

首先,研究者从参数和训练数据的角度衡量了扩展本文方法所产生的影响。特别是,他们研究了预训练目标和下游性能在不同基准之间是否存在相关性;还研究了缩放对损失函数值的影响。所有这些实验都报告了在 IN-1k 验证集上的损失函数值。

从图 4 可以看出,在整个训练过程中,两个探针都得到了相应的改善,这表明优化目标会直接带来更好的下游性能。

他们同时发现,随着模型容量的增加,损失值和下游任务的准确性都有所提高。这一观察结果与在 LLMs 中观察到的趋势一致,可直接归因于目标函数的优化,这反过来又会导致学习到更强的表征。

图 5 中展示了在由 100 万张图像组成的小型数据集(即 IN-1k)或由 20 亿 张图像组成的大型数据集(即 DFN-2B+)上进行预训练时验证损失的变化情况。

在 IN-1k 上进行的训练很快就会带来较低的验证损失,然而这种损失在训练结束时会恶化,这表明了对训练数据的过拟合。当在未经整理的 DFN-2B 数据集上进行训练时,模型开始时的验证损失较高,但损失持续减少,没有过拟合的迹象。

当在同一数据集上添加少量 IN-1k 数据,可以观察到性能进一步提高,最终超过了在 IN-1k 数据集上的预训练。表 2 证实了这一点。

由于在使用 DFN-2B+ 数据集进行训练时没有观察到过拟合的迹象,因此研究者继续研究延长预训练计划长度的影响。图 6 展示了将预训练时间表的长度从 50 万次迭代增加到 120 万次迭代的影响。可以观察到,使用更长计划进行预训练的模型的验证损失明显降低。这表明可以通过增加模型容量或使用更长的时间表进行预训练来提高 AIM 的性能。

同时,研究者讨论了模型和训练目标的一些变化所产生的影响。这些消融实验使用 AIM-0.6B 模型进行,该模型已在 IN-1k 数据集上进行了预训练和评估。表 3 展示了消融实验的结果。

研究者还使用自回归目标训练的架构与 BERT 在语言领域以及 BEiT 和 MAE 在视觉领域流行的掩蔽目标进行了比较。他们在与 AIM 相同的设置中应用了掩蔽目标,从而将预训练目标对性能的影响与 AIM 和其他方法之间的其他设计选择的不同之处隔离开来。表 5 显示,AIM 在使用自回归目标时比使用掩蔽目标时表现更好。

表 6 展示了 AIM 与其他 SOTA 方法在 15 种不同基准中的 Attentive Probing 性能。

除此之外,研究者还探索了 LoRA 这种高效的微调方法,表 8 展示了对 AIM 进行 LoRA 微调的结果。LoRA 与 AIM 兼容,与冻结主干评估相比,性能有了很大提升。例如,AIM-7B 提高了 3.9%(与上一层性能相比),而微调的主干参数只提升 0.1%。

更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球接到消息,李在明迈出危险一步,中方已介入,希望韩慎重处理

全球接到消息,李在明迈出危险一步,中方已介入,希望韩慎重处理

梦史
2026-05-27 09:15:39
有种母爱叫放手,葛荟婕曾坦言不会认回小苹果,跟着汪峰有好资源

有种母爱叫放手,葛荟婕曾坦言不会认回小苹果,跟着汪峰有好资源

汪镛的创业之路
2026-05-27 01:58:38
新王加冕!奥利塞身价1.5亿欧元登顶,高居德甲历史第一!

新王加冕!奥利塞身价1.5亿欧元登顶,高居德甲历史第一!

田先生篮球
2026-05-27 20:11:12
欧洲要求俄罗斯“投降、赔款”,俄外长告知美方对乌打击计划!普京修改法律批准境外用兵:军队可用于保护境外俄公民

欧洲要求俄罗斯“投降、赔款”,俄外长告知美方对乌打击计划!普京修改法律批准境外用兵:军队可用于保护境外俄公民

每日经济新闻
2026-05-26 15:11:33
湖北大娘硬讹收割机后续!当地政府紧急介入,割四赔五不止个案

湖北大娘硬讹收割机后续!当地政府紧急介入,割四赔五不止个案

童童聊娱乐啊
2026-05-27 12:24:46
重磅!长鑫科技过会,市值冲击3万亿,背后盐城大佬又要敲钟了

重磅!长鑫科技过会,市值冲击3万亿,背后盐城大佬又要敲钟了

创客公社-江苏第一创投媒体
2026-05-27 21:23:57
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
哈登:想骂我你们就直说!

哈登:想骂我你们就直说!

柚子说球
2026-05-27 21:53:55
欧盟副主席:我不管中国怎么想,你不肯卖稀土,就是敲诈勒索欧盟

欧盟副主席:我不管中国怎么想,你不肯卖稀土,就是敲诈勒索欧盟

蜉蝣说
2026-05-26 17:43:40
张家界两钓鱼男子被洪水冲走 官方:两人已不幸身亡,善后工作正在进行

张家界两钓鱼男子被洪水冲走 官方:两人已不幸身亡,善后工作正在进行

红星新闻
2026-05-27 12:24:51
尊界V800实车上路:5.5米车长刷新国产MPV纪录

尊界V800实车上路:5.5米车长刷新国产MPV纪录

摸鱼算法
2026-05-27 04:33:09
SGA32+9夺赛点仍遭美媒炮轰:绝技倒地 主动对抗飞扑 联盟被操纵

SGA32+9夺赛点仍遭美媒炮轰:绝技倒地 主动对抗飞扑 联盟被操纵

颜小白的篮球梦
2026-05-27 11:50:25
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
沙拉维即将结婚,未婚妻把“小法老”头像贴在臀部比心示爱

沙拉维即将结婚,未婚妻把“小法老”头像贴在臀部比心示爱

懂球帝
2026-05-27 18:00:13
塞尔维亚总统夫人上海购物清单大揭秘

塞尔维亚总统夫人上海购物清单大揭秘

上观新闻
2026-05-27 12:38:05
小米,暴跌43.1%!

小米,暴跌43.1%!

车轱辘话V
2026-05-27 19:32:38
乌克兰每日消耗1万架无人机,俄军90%伤亡来自无人机!

乌克兰每日消耗1万架无人机,俄军90%伤亡来自无人机!

三言四拍
2026-05-26 12:40:30
矿难赔偿真相:2026年这个新标准,每个矿工家庭都该知道

矿难赔偿真相:2026年这个新标准,每个矿工家庭都该知道

黑翼天使
2026-05-26 16:48:55
这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,画面太辣眼

这跟不穿有啥区别?戛纳闭幕式,女星下垂、副乳突出,画面太辣眼

翰飞观事
2026-05-26 22:09:23
38岁窦骁凭《主角》刘红兵“追爱”出圈,一口陕普配大白牙,直接把观众拿捏了

38岁窦骁凭《主角》刘红兵“追爱”出圈,一口陕普配大白牙,直接把观众拿捏了

东方不败然多多
2026-05-28 04:16:00
2026-05-28 05:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

艺术
时尚
家居
旅游
本地

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力,科技公司都抢着用?

这几件单品太火了,今年流行的风格都离不开它

家居要闻

古老而持久 石影扶手椅

旅游要闻

5月27日最佳情报|晨韵如诗超治愈,蜀葵绽放花枝温婉雅致

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版