网易首页 > 网易号 > 正文 申请入驻

预测下一个像素还需要几年?谷歌:五年够了

0
分享至



机器之心报道

机器之心编辑部

既然语言可以当序列来学,那图像能不能也当序列来学?

通过将图像表示为像素序列,先前的研究表明通过下一像素预测,可以以一种简单、端到端的方式同时学习视觉识别与生成。

从概念上讲,下一像素预测非常容易扩展,因为它是无监督学习:无需任何人工标注。同时,将图像表示为像素序列,也对图像结构施加了最少的归纳偏置。

然而,尽管像素级端到端建模在早期被证明是可行的,但这一范式近年来却不再流行。

其主要原因在于出现了计算效率更高的方法,例如:使用视觉 tokenizer 进行 patch 级别学习。

尽管研究重心已经发生转移,但一个简单却极其关键的问题仍未被回答:我们距离真正大规模扩展下一像素预测,还有多远?

不可否认,相比自然语言中的下一词预测,下一像素预测要困难得多,主要有以下几点原因:

  • 首先,像素的语义信息极低。一个句子里的词通常包含丰富含义,而一个像素只是一点颜色信息,两者差距巨大。
  • 其次,像素之间的空间关系非常复杂,不容易用序列方式来表示。一个像素的颜色不仅受到周围邻域像素的影响,还受到图像中那些与它不相邻的物体和结构的影响。
  • 第三,随着图像分辨率升高,下一像素预测的计算量会急剧增加。例如,要生成一张 128 × 128 的图片,一个自回归模型必须逐个预测 16,384 个像素,一步都不能少。

在这篇论文中,来自 Google DeepMind 的研究者分析了下一像素预测在图像识别与图像生成两类任务中的扩展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下开展研究,在这一分辨率下,图像已开始呈现清晰的结构与可辨识的物体交互,因此可被视为对原生高分辨率图像的一种有意义的近似。

实验基于下一像素预测损失进行了初始 scaling 实验。如图 1 (a) 所示,结果表明:相较于文本 token,原始像素的学习需要显著更高(10–20 倍)的最优 token-parameter 比例。更具体地,要实现计算最优平衡,像素模型所需的 token-per-parameter 至少比语言模型高一个数量级(约 400 vs. 20)。

这一初步发现促使研究者进一步深入三个核心问题。第一,我们如何可靠地评估这些模型的性能,尤其是在较低分辨率下(低分辨率便于开展大量实验)?第二,基于下一像素预测损失得出的 scaling 规律,是否与更有意义的下游任务(如分类与图像补全)的 scaling 行为一致?第三,不同图像分辨率下的 scaling 趋势会如何变化?

为回答这些问题,本文围绕三类指标进行了系列可控实验。

在固定的 32×32 分辨率下,实验结果(见图 1 (b))显示:最优的 scaling 策略高度依赖目标任务,其中图像生成质量需要比分类任务或下一像素预测任务更大的 token-parameter 比例。此外,这些 scaling 动态并非静态不变;对 16×16 与 64×64 等不同分辨率的研究显示:随着分辨率提升,模型规模的增长必须显著快于数据规模的增长。

最后,鉴于训练算力正以每年四到五倍的速度增长,本文预测逐像素建模方式在未来五年内将变得可行。



  • 论文标题:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 论文地址:https://arxiv.org/pdf/2511.08704

方法介绍

本文从 32×32 分辨率的图像出发,在多种 IsoFlops(等算力)配置下训练了一系列 Transformer 模型,最大计算量达到 7e19 FLOPs,并从三个不同指标对其性能进行评估:下一像素预测目标、ImageNet 分类准确率以及以 Fréchet Distance 衡量的生成质量。结果发现:

  • 首先,最佳扩展策略强烈依赖任务类型:即使在固定的 32×32 分辨率下,分类任务与生成任务的最优 scaling 需求也完全不同,其中生成任务要达到最优效果所需的数据规模增长速度是分类任务的三到五倍。
  • 其次,随着图像分辨率的提升,最优 scaling 策略显示模型规模必须比数据规模增长得更快。更令人意外的是,根据趋势外推,像素级模型的主要瓶颈并不是训练数据,而是计算量。

本文采用 Transformer 架构进行研究,共四种规模,参数从 2800 万到 4.49 亿不等。Transformer 架构的详细信息列在表 1 中。



本文在 JFT-300M 数据集上进行预训练,该数据集包含 3 亿张多样化图像,规模是 ImageNet ILSVRC 2012 训练集的 10 倍以上。在分辨率为 32×32 的条件下,对数据集完整遍历一遍相当于处理超过 3000 亿个像素。训练过程采用标准的 Inception 风格随机裁剪,并以 50% 概率进行水平翻转。

在评估上,本文进行了两种评估方式,即图像分类和图像补全。

实验及结果

像素是否遵循与文本相同的规律?

答案是肯定的:对原始像素预测的扩展趋势与文本类似、可预测,但效率要低得多。由于单个像素所携带的语义信息远少于语言 token,本文估计模型在学习原始像素时,需要比语言模型多 10–20 倍的 token-per-parameter 才能达到有效学习。



本文进一步计算了在不同训练 FLOPs 下的最优 token-per-parameter 比例,并与典型语言模型进行比较。如图 1 (a) 所示,即便在超过 10^21 FLOPs 的训练预算下,学习原始像素仍然需要比语言 token 多 10–20 倍的数据量。

这表明,即便在低分辨率 32×32 图像中,单个像素的语义信息密度仍远低于语言 token,后者本身就是一种压缩且意义集中的信息单位。例如,cat 这个词是高度压缩的符号,携带着大量抽象信息:它是一种动物,有毛,会喵叫,有胡须。而单个像素本身几乎不包含语义,因为它的颜色值可能同时对应猫、汽车或天空的一部分。



总的来说,实验结果显示,下一像素预测的最优扩展趋势的确可以通过语言模型中已成熟的 scaling 框架进行预测。

最优 scaling 是否能直接迁移到下游任务?

答案是不行,至少不是以一种简单方式。在固定的 32×32 分辨率下,由下一像素预测损失得到的最优扩展策略对图像生成来说并非最优。具体而言,要获得良好的生成质量,需要一种更加数据驱动的 scaling 方式,即数据规模的增长速度必须明显快于模型规模的增长速度。

不同任务的最优 scaling 存在显著差异。如图 1 (b) 所示,基于独立 IsoFlops 配置得到的最优 token-to-parameter 比例在下一像素预测损失、ImageNet 分类 top-1 准确率以及基于图像补全的 Fréchet Distance 之间存在明显差别。

随着图像分辨率提升,最优 scaling 会改变吗?

答案是会的。随着图像分辨率的提高,最优扩展策略从在 32×32 分辨率下对模型规模与数据规模的平衡,转变为在更高分辨率下明显偏向更大的模型,而非更多的数据。

图像分类 vs. 图像生成。正如图 4 (a) 和图 4 (c) 所一致展示的,在更高分辨率下训练模型能够提升下游任务表现。

对于图像分类,从 16×16 切换到 32×32 时能够带来明显提升,但在 FLOPs 超过 1e20 的情况下,从 32×32 增加到 64×64 仅带来轻微改进。这表明:对于 ImageNet 分类任务,在 32×32 之后,进一步提升分辨率的收益趋于减弱。

相比之下,对于图像生成,32×32 附近的 scaling 趋势并未饱和,将分辨率从 32×32 提升至 64×64 能带来显著改进。直观来看,分辨率提高后,单像素的信息密度下降,但像素之间的视觉结构变得更复杂、更真实。抽象语义在低分辨率即可有效捕获,而细粒度纹理则需要更高分辨率。



我们距离原始下一像素预测还有多远?

目前由于巨大的计算成本而难以实际执行,但逐像素建模在未来五年内仍是一条可行路径,并能达到具有竞争力的性能。其主要瓶颈是计算量,而不是训练数据的可获得性。本文预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
估值数亿美元,A.O.史密斯中国要卖了

估值数亿美元,A.O.史密斯中国要卖了

融资中国
2026-05-05 09:59:32
特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

博览历史
2025-07-21 17:59:30
她是吴宜泽姐姐,血脉压制从小揪弟弟耳朵,长得漂亮是机车爱好者

她是吴宜泽姐姐,血脉压制从小揪弟弟耳朵,长得漂亮是机车爱好者

以茶带书
2026-05-05 16:57:12
今夜,利好!全线暴涨!

今夜,利好!全线暴涨!

中国基金报
2026-05-07 00:18:39
异动速递|日经225指数涨幅扩大至4%

异动速递|日经225指数涨幅扩大至4%

21世纪经济报道
2026-05-07 08:26:08
25年恩爱抵不过残忍现实,76岁张艺谋年老色衰,44岁陈婷花样年华

25年恩爱抵不过残忍现实,76岁张艺谋年老色衰,44岁陈婷花样年华

东方不败然多多
2026-05-07 01:53:21
上海,一女子把房子借给男同事住了10年,想要回房子却被拒绝:“我花640万买的,这是我的房子,不搬!”法院判了

上海,一女子把房子借给男同事住了10年,想要回房子却被拒绝:“我花640万买的,这是我的房子,不搬!”法院判了

励职派
2026-05-06 19:31:38
7日世乒赛程调整:孙颖莎王曼昱大战韩国队,王楚钦带队休息一天

7日世乒赛程调整:孙颖莎王曼昱大战韩国队,王楚钦带队休息一天

越岭寻踪
2026-05-07 03:02:51
留美“全线熔断”!?川普团队精准狙击留美家庭所有重要节点...

留美“全线熔断”!?川普团队精准狙击留美家庭所有重要节点...

华人生活网
2026-05-07 03:55:15
75岁的黄梅莹越活越潇洒,和儿子划清界限后,如今隐居在上海

75岁的黄梅莹越活越潇洒,和儿子划清界限后,如今隐居在上海

晓劗就是我
2026-05-07 04:22:58
油价大涨到0.42元/升,今年最大油价下跌后,5月8日晚油价或大涨

油价大涨到0.42元/升,今年最大油价下跌后,5月8日晚油价或大涨

油价早知道
2026-05-06 09:23:40
谢娜演唱会林志颖助阵,可惜他又矮又胖,皮肤黑肚子大,有点滑稽

谢娜演唱会林志颖助阵,可惜他又矮又胖,皮肤黑肚子大,有点滑稽

小娱乐悠悠
2026-05-06 07:20:02
伦敦世乒赛:5月7日赛程公布!中韩女团再交手,日德男团争4强

伦敦世乒赛:5月7日赛程公布!中韩女团再交手,日德男团争4强

全言作品
2026-05-07 06:55:07
旧手机变行车记录仪:比200美元专业设备更好用

旧手机变行车记录仪:比200美元专业设备更好用

爬虫饲养员
2026-05-05 20:50:43
印尼拿下140亿项目后,转身签入日本军单!中企停产果断撤资

印尼拿下140亿项目后,转身签入日本军单!中企停产果断撤资

你是我心中最美星空
2026-05-07 05:30:32
令人愤怒!15岁儿子每日逼要百元打游戏,不给便用污秽言语骂母亲

令人愤怒!15岁儿子每日逼要百元打游戏,不给便用污秽言语骂母亲

火山詩话
2026-05-07 07:32:07
卡塞米罗再次确认将离开曼联!多特蒙德2000万+签中卫新星达协议

卡塞米罗再次确认将离开曼联!多特蒙德2000万+签中卫新星达协议

足球侦探
2026-05-07 08:35:09
世界杯天价转播费在中国无人接盘,国际足联高管来华接受砍价

世界杯天价转播费在中国无人接盘,国际足联高管来华接受砍价

歪歌社团
2026-05-07 02:51:42
莱巴金娜:完全没考虑抗议奖金过低,球员们根本不凝聚

莱巴金娜:完全没考虑抗议奖金过低,球员们根本不凝聚

网球之家
2026-05-06 23:23:54
为什么发达国家对中国都不友好?

为什么发达国家对中国都不友好?

新浪财经
2026-05-04 07:26:54
2026-05-07 08:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12930文章数 142643关注度
往期回顾 全部

科技要闻

三星停止在中国大陆销售家电!知情人回应

头条要闻

牛弹琴:一位特殊的客人来到北京 12个细节很意味深长

头条要闻

牛弹琴:一位特殊的客人来到北京 12个细节很意味深长

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

特朗普:美伊“很有可能”达成协议

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

手机
教育
数码
艺术
本地

手机要闻

苹果被曝主动推迟发布iPhone 18 或为延长iPhone 17生命周期并压缩成本

教育要闻

家长,请不要动辄给孩子的冲突贴上“霸凌”的标签

数码要闻

Roku与TCL遭集体诉讼 被指固件更新将智能电视刷成砖

艺术要闻

这位老教授笔下的青年,活力满满

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版