网易首页 > 网易号 > 正文 申请入驻

预测下一个像素还需要几年?谷歌:五年够了

0
分享至



机器之心报道

机器之心编辑部

既然语言可以当序列来学,那图像能不能也当序列来学?

通过将图像表示为像素序列,先前的研究表明通过下一像素预测,可以以一种简单、端到端的方式同时学习视觉识别与生成。

从概念上讲,下一像素预测非常容易扩展,因为它是无监督学习:无需任何人工标注。同时,将图像表示为像素序列,也对图像结构施加了最少的归纳偏置。

然而,尽管像素级端到端建模在早期被证明是可行的,但这一范式近年来却不再流行。

其主要原因在于出现了计算效率更高的方法,例如:使用视觉 tokenizer 进行 patch 级别学习。

尽管研究重心已经发生转移,但一个简单却极其关键的问题仍未被回答:我们距离真正大规模扩展下一像素预测,还有多远?

不可否认,相比自然语言中的下一词预测,下一像素预测要困难得多,主要有以下几点原因:

  • 首先,像素的语义信息极低。一个句子里的词通常包含丰富含义,而一个像素只是一点颜色信息,两者差距巨大。
  • 其次,像素之间的空间关系非常复杂,不容易用序列方式来表示。一个像素的颜色不仅受到周围邻域像素的影响,还受到图像中那些与它不相邻的物体和结构的影响。
  • 第三,随着图像分辨率升高,下一像素预测的计算量会急剧增加。例如,要生成一张 128 × 128 的图片,一个自回归模型必须逐个预测 16,384 个像素,一步都不能少。

在这篇论文中,来自 Google DeepMind 的研究者分析了下一像素预测在图像识别与图像生成两类任务中的扩展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下开展研究,在这一分辨率下,图像已开始呈现清晰的结构与可辨识的物体交互,因此可被视为对原生高分辨率图像的一种有意义的近似。

实验基于下一像素预测损失进行了初始 scaling 实验。如图 1 (a) 所示,结果表明:相较于文本 token,原始像素的学习需要显著更高(10–20 倍)的最优 token-parameter 比例。更具体地,要实现计算最优平衡,像素模型所需的 token-per-parameter 至少比语言模型高一个数量级(约 400 vs. 20)。

这一初步发现促使研究者进一步深入三个核心问题。第一,我们如何可靠地评估这些模型的性能,尤其是在较低分辨率下(低分辨率便于开展大量实验)?第二,基于下一像素预测损失得出的 scaling 规律,是否与更有意义的下游任务(如分类与图像补全)的 scaling 行为一致?第三,不同图像分辨率下的 scaling 趋势会如何变化?

为回答这些问题,本文围绕三类指标进行了系列可控实验。

在固定的 32×32 分辨率下,实验结果(见图 1 (b))显示:最优的 scaling 策略高度依赖目标任务,其中图像生成质量需要比分类任务或下一像素预测任务更大的 token-parameter 比例。此外,这些 scaling 动态并非静态不变;对 16×16 与 64×64 等不同分辨率的研究显示:随着分辨率提升,模型规模的增长必须显著快于数据规模的增长。

最后,鉴于训练算力正以每年四到五倍的速度增长,本文预测逐像素建模方式在未来五年内将变得可行。



  • 论文标题:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 论文地址:https://arxiv.org/pdf/2511.08704

方法介绍

本文从 32×32 分辨率的图像出发,在多种 IsoFlops(等算力)配置下训练了一系列 Transformer 模型,最大计算量达到 7e19 FLOPs,并从三个不同指标对其性能进行评估:下一像素预测目标、ImageNet 分类准确率以及以 Fréchet Distance 衡量的生成质量。结果发现:

  • 首先,最佳扩展策略强烈依赖任务类型:即使在固定的 32×32 分辨率下,分类任务与生成任务的最优 scaling 需求也完全不同,其中生成任务要达到最优效果所需的数据规模增长速度是分类任务的三到五倍。
  • 其次,随着图像分辨率的提升,最优 scaling 策略显示模型规模必须比数据规模增长得更快。更令人意外的是,根据趋势外推,像素级模型的主要瓶颈并不是训练数据,而是计算量。

本文采用 Transformer 架构进行研究,共四种规模,参数从 2800 万到 4.49 亿不等。Transformer 架构的详细信息列在表 1 中。



本文在 JFT-300M 数据集上进行预训练,该数据集包含 3 亿张多样化图像,规模是 ImageNet ILSVRC 2012 训练集的 10 倍以上。在分辨率为 32×32 的条件下,对数据集完整遍历一遍相当于处理超过 3000 亿个像素。训练过程采用标准的 Inception 风格随机裁剪,并以 50% 概率进行水平翻转。

在评估上,本文进行了两种评估方式,即图像分类和图像补全。

实验及结果

像素是否遵循与文本相同的规律?

答案是肯定的:对原始像素预测的扩展趋势与文本类似、可预测,但效率要低得多。由于单个像素所携带的语义信息远少于语言 token,本文估计模型在学习原始像素时,需要比语言模型多 10–20 倍的 token-per-parameter 才能达到有效学习。



本文进一步计算了在不同训练 FLOPs 下的最优 token-per-parameter 比例,并与典型语言模型进行比较。如图 1 (a) 所示,即便在超过 10^21 FLOPs 的训练预算下,学习原始像素仍然需要比语言 token 多 10–20 倍的数据量。

这表明,即便在低分辨率 32×32 图像中,单个像素的语义信息密度仍远低于语言 token,后者本身就是一种压缩且意义集中的信息单位。例如,cat 这个词是高度压缩的符号,携带着大量抽象信息:它是一种动物,有毛,会喵叫,有胡须。而单个像素本身几乎不包含语义,因为它的颜色值可能同时对应猫、汽车或天空的一部分。



总的来说,实验结果显示,下一像素预测的最优扩展趋势的确可以通过语言模型中已成熟的 scaling 框架进行预测。

最优 scaling 是否能直接迁移到下游任务?

答案是不行,至少不是以一种简单方式。在固定的 32×32 分辨率下,由下一像素预测损失得到的最优扩展策略对图像生成来说并非最优。具体而言,要获得良好的生成质量,需要一种更加数据驱动的 scaling 方式,即数据规模的增长速度必须明显快于模型规模的增长速度。

不同任务的最优 scaling 存在显著差异。如图 1 (b) 所示,基于独立 IsoFlops 配置得到的最优 token-to-parameter 比例在下一像素预测损失、ImageNet 分类 top-1 准确率以及基于图像补全的 Fréchet Distance 之间存在明显差别。

随着图像分辨率提升,最优 scaling 会改变吗?

答案是会的。随着图像分辨率的提高,最优扩展策略从在 32×32 分辨率下对模型规模与数据规模的平衡,转变为在更高分辨率下明显偏向更大的模型,而非更多的数据。

图像分类 vs. 图像生成。正如图 4 (a) 和图 4 (c) 所一致展示的,在更高分辨率下训练模型能够提升下游任务表现。

对于图像分类,从 16×16 切换到 32×32 时能够带来明显提升,但在 FLOPs 超过 1e20 的情况下,从 32×32 增加到 64×64 仅带来轻微改进。这表明:对于 ImageNet 分类任务,在 32×32 之后,进一步提升分辨率的收益趋于减弱。

相比之下,对于图像生成,32×32 附近的 scaling 趋势并未饱和,将分辨率从 32×32 提升至 64×64 能带来显著改进。直观来看,分辨率提高后,单像素的信息密度下降,但像素之间的视觉结构变得更复杂、更真实。抽象语义在低分辨率即可有效捕获,而细粒度纹理则需要更高分辨率。



我们距离原始下一像素预测还有多远?

目前由于巨大的计算成本而难以实际执行,但逐像素建模在未来五年内仍是一条可行路径,并能达到具有竞争力的性能。其主要瓶颈是计算量,而不是训练数据的可获得性。本文预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

四川泸州“花坛白骨案”告破:女老板遭谋杀藏尸,嫌疑人“换脸”逃亡28年

封面新闻
2026-01-15 19:13:05
1月15日俄乌最新:俄罗斯狮子大开口

1月15日俄乌最新:俄罗斯狮子大开口

西楼饮月
2026-01-15 21:13:25
“我们就像东郭先生”,嫣然儿医房东一方回应李亚鹏长视频

“我们就像东郭先生”,嫣然儿医房东一方回应李亚鹏长视频

大象新闻
2026-01-15 16:29:04
贺娇龙运送回家画面曝光!强撑见家人最后一面,“五杯酒”引热议

贺娇龙运送回家画面曝光!强撑见家人最后一面,“五杯酒”引热议

李健政观察
2026-01-15 17:24:19
西贝将关停102家店,贾国龙:罗永浩事件后亏损超5亿,没一家盈利

西贝将关停102家店,贾国龙:罗永浩事件后亏损超5亿,没一家盈利

汉史趣闻
2026-01-15 16:38:24
补时丢2球!亚洲冠军从头名到出局 球员哭成泪人 中国队冲4强利好

补时丢2球!亚洲冠军从头名到出局 球员哭成泪人 中国队冲4强利好

侃球熊弟
2026-01-15 23:33:25
拼命的贺娇龙与将关掉102家门店的西贝

拼命的贺娇龙与将关掉102家门店的西贝

吴女士
2026-01-15 19:54:51
iPhone18ProMax再次确认,新技术遥遥领先

iPhone18ProMax再次确认,新技术遥遥领先

3C毒物
2026-01-15 00:08:40
A股:周四晚间传来3个核弹级利空!明天很可能会迎史诗级别大行情?

A股:周四晚间传来3个核弹级利空!明天很可能会迎史诗级别大行情?

股市皆大事
2026-01-15 17:16:08
无缘退役安置?原因曝光,全红婵工作3选1,或效仿张家齐

无缘退役安置?原因曝光,全红婵工作3选1,或效仿张家齐

卿子书
2026-01-15 14:31:50
西贝将关闭102家门店

西贝将关闭102家门店

财联社
2026-01-15 14:45:06
美航母打击群开往中东 特朗普:希望“速战速决”伊朗进入最高战备状态 约2000枚导弹可覆盖美以基地

美航母打击群开往中东 特朗普:希望“速战速决”伊朗进入最高战备状态 约2000枚导弹可覆盖美以基地

每日经济新闻
2026-01-15 21:38:58
多地紧急取消杀猪饭!株洲灿灿哭着求大家别来,翻车原因令人唏嘘

多地紧急取消杀猪饭!株洲灿灿哭着求大家别来,翻车原因令人唏嘘

古希腊掌管松饼的神
2026-01-15 16:05:22
47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

180视角
2026-01-15 13:33:23
47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

47岁贺娇龙抢救细节太催泪,生前曾一语成谶,和丈夫常分隔两地

古希腊掌管松饼的神
2026-01-15 11:14:09
中央纪委全会提年轻干部腐败,有何深意

中央纪委全会提年轻干部腐败,有何深意

中国新闻周刊
2026-01-15 20:02:26
加拿大打破核聚变世界纪录,为什么令整个能源行业震惊?

加拿大打破核聚变世界纪录,为什么令整个能源行业震惊?

百科密码
2026-01-15 16:05:03
迫于欧美的压力,伊朗政府宣布暂停处决

迫于欧美的压力,伊朗政府宣布暂停处决

一种观点
2026-01-15 08:56:47
伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

伊朗推迟处决,川普暂缓行动;中东上空“山雨欲来风满楼”

近距离
2026-01-15 11:21:15
乌克兰新任国防部长:出现20万逃兵,200万人逃避征兵

乌克兰新任国防部长:出现20万逃兵,200万人逃避征兵

澎湃新闻
2026-01-15 18:40:26
2026-01-16 02:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12126文章数 142536关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

本地
亲子
艺术
手机
健康

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

亲子要闻

爸爸妈妈必备的问题答案——这个世界没有鬼!因为孩子的认知和心理承受力太小了

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

手机要闻

三星手机屏幕防窥设计曝光,Galaxy AI基础功能永久免费

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版