网易首页 > 网易号 > 正文 申请入驻

预测下一个像素还需要几年?谷歌:五年够了

0
分享至



机器之心报道

机器之心编辑部

既然语言可以当序列来学,那图像能不能也当序列来学?

通过将图像表示为像素序列,先前的研究表明通过下一像素预测,可以以一种简单、端到端的方式同时学习视觉识别与生成。

从概念上讲,下一像素预测非常容易扩展,因为它是无监督学习:无需任何人工标注。同时,将图像表示为像素序列,也对图像结构施加了最少的归纳偏置。

然而,尽管像素级端到端建模在早期被证明是可行的,但这一范式近年来却不再流行。

其主要原因在于出现了计算效率更高的方法,例如:使用视觉 tokenizer 进行 patch 级别学习。

尽管研究重心已经发生转移,但一个简单却极其关键的问题仍未被回答:我们距离真正大规模扩展下一像素预测,还有多远?

不可否认,相比自然语言中的下一词预测,下一像素预测要困难得多,主要有以下几点原因:

  • 首先,像素的语义信息极低。一个句子里的词通常包含丰富含义,而一个像素只是一点颜色信息,两者差距巨大。
  • 其次,像素之间的空间关系非常复杂,不容易用序列方式来表示。一个像素的颜色不仅受到周围邻域像素的影响,还受到图像中那些与它不相邻的物体和结构的影响。
  • 第三,随着图像分辨率升高,下一像素预测的计算量会急剧增加。例如,要生成一张 128 × 128 的图片,一个自回归模型必须逐个预测 16,384 个像素,一步都不能少。

在这篇论文中,来自 Google DeepMind 的研究者分析了下一像素预测在图像识别与图像生成两类任务中的扩展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下开展研究,在这一分辨率下,图像已开始呈现清晰的结构与可辨识的物体交互,因此可被视为对原生高分辨率图像的一种有意义的近似。

实验基于下一像素预测损失进行了初始 scaling 实验。如图 1 (a) 所示,结果表明:相较于文本 token,原始像素的学习需要显著更高(10–20 倍)的最优 token-parameter 比例。更具体地,要实现计算最优平衡,像素模型所需的 token-per-parameter 至少比语言模型高一个数量级(约 400 vs. 20)。

这一初步发现促使研究者进一步深入三个核心问题。第一,我们如何可靠地评估这些模型的性能,尤其是在较低分辨率下(低分辨率便于开展大量实验)?第二,基于下一像素预测损失得出的 scaling 规律,是否与更有意义的下游任务(如分类与图像补全)的 scaling 行为一致?第三,不同图像分辨率下的 scaling 趋势会如何变化?

为回答这些问题,本文围绕三类指标进行了系列可控实验。

在固定的 32×32 分辨率下,实验结果(见图 1 (b))显示:最优的 scaling 策略高度依赖目标任务,其中图像生成质量需要比分类任务或下一像素预测任务更大的 token-parameter 比例。此外,这些 scaling 动态并非静态不变;对 16×16 与 64×64 等不同分辨率的研究显示:随着分辨率提升,模型规模的增长必须显著快于数据规模的增长。

最后,鉴于训练算力正以每年四到五倍的速度增长,本文预测逐像素建模方式在未来五年内将变得可行。



  • 论文标题:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 论文地址:https://arxiv.org/pdf/2511.08704

方法介绍

本文从 32×32 分辨率的图像出发,在多种 IsoFlops(等算力)配置下训练了一系列 Transformer 模型,最大计算量达到 7e19 FLOPs,并从三个不同指标对其性能进行评估:下一像素预测目标、ImageNet 分类准确率以及以 Fréchet Distance 衡量的生成质量。结果发现:

  • 首先,最佳扩展策略强烈依赖任务类型:即使在固定的 32×32 分辨率下,分类任务与生成任务的最优 scaling 需求也完全不同,其中生成任务要达到最优效果所需的数据规模增长速度是分类任务的三到五倍。
  • 其次,随着图像分辨率的提升,最优 scaling 策略显示模型规模必须比数据规模增长得更快。更令人意外的是,根据趋势外推,像素级模型的主要瓶颈并不是训练数据,而是计算量。

本文采用 Transformer 架构进行研究,共四种规模,参数从 2800 万到 4.49 亿不等。Transformer 架构的详细信息列在表 1 中。



本文在 JFT-300M 数据集上进行预训练,该数据集包含 3 亿张多样化图像,规模是 ImageNet ILSVRC 2012 训练集的 10 倍以上。在分辨率为 32×32 的条件下,对数据集完整遍历一遍相当于处理超过 3000 亿个像素。训练过程采用标准的 Inception 风格随机裁剪,并以 50% 概率进行水平翻转。

在评估上,本文进行了两种评估方式,即图像分类和图像补全。

实验及结果

像素是否遵循与文本相同的规律?

答案是肯定的:对原始像素预测的扩展趋势与文本类似、可预测,但效率要低得多。由于单个像素所携带的语义信息远少于语言 token,本文估计模型在学习原始像素时,需要比语言模型多 10–20 倍的 token-per-parameter 才能达到有效学习。



本文进一步计算了在不同训练 FLOPs 下的最优 token-per-parameter 比例,并与典型语言模型进行比较。如图 1 (a) 所示,即便在超过 10^21 FLOPs 的训练预算下,学习原始像素仍然需要比语言 token 多 10–20 倍的数据量。

这表明,即便在低分辨率 32×32 图像中,单个像素的语义信息密度仍远低于语言 token,后者本身就是一种压缩且意义集中的信息单位。例如,cat 这个词是高度压缩的符号,携带着大量抽象信息:它是一种动物,有毛,会喵叫,有胡须。而单个像素本身几乎不包含语义,因为它的颜色值可能同时对应猫、汽车或天空的一部分。



总的来说,实验结果显示,下一像素预测的最优扩展趋势的确可以通过语言模型中已成熟的 scaling 框架进行预测。

最优 scaling 是否能直接迁移到下游任务?

答案是不行,至少不是以一种简单方式。在固定的 32×32 分辨率下,由下一像素预测损失得到的最优扩展策略对图像生成来说并非最优。具体而言,要获得良好的生成质量,需要一种更加数据驱动的 scaling 方式,即数据规模的增长速度必须明显快于模型规模的增长速度。

不同任务的最优 scaling 存在显著差异。如图 1 (b) 所示,基于独立 IsoFlops 配置得到的最优 token-to-parameter 比例在下一像素预测损失、ImageNet 分类 top-1 准确率以及基于图像补全的 Fréchet Distance 之间存在明显差别。

随着图像分辨率提升,最优 scaling 会改变吗?

答案是会的。随着图像分辨率的提高,最优扩展策略从在 32×32 分辨率下对模型规模与数据规模的平衡,转变为在更高分辨率下明显偏向更大的模型,而非更多的数据。

图像分类 vs. 图像生成。正如图 4 (a) 和图 4 (c) 所一致展示的,在更高分辨率下训练模型能够提升下游任务表现。

对于图像分类,从 16×16 切换到 32×32 时能够带来明显提升,但在 FLOPs 超过 1e20 的情况下,从 32×32 增加到 64×64 仅带来轻微改进。这表明:对于 ImageNet 分类任务,在 32×32 之后,进一步提升分辨率的收益趋于减弱。

相比之下,对于图像生成,32×32 附近的 scaling 趋势并未饱和,将分辨率从 32×32 提升至 64×64 能带来显著改进。直观来看,分辨率提高后,单像素的信息密度下降,但像素之间的视觉结构变得更复杂、更真实。抽象语义在低分辨率即可有效捕获,而细粒度纹理则需要更高分辨率。



我们距离原始下一像素预测还有多远?

目前由于巨大的计算成本而难以实际执行,但逐像素建模在未来五年内仍是一条可行路径,并能达到具有竞争力的性能。其主要瓶颈是计算量,而不是训练数据的可获得性。本文预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国行居然也有!马斯克推出首款仿微信聊天应用 XChat

国行居然也有!马斯克推出首款仿微信聊天应用 XChat

XCiOS俱乐部
2026-04-11 19:23:43
巴基斯坦国防部长:新一轮美伊谈判将很快开始

巴基斯坦国防部长:新一轮美伊谈判将很快开始

界面新闻
2026-04-13 21:21:31
你的下一只龙虾何必是龙虾,这套大厂开源方案有点意思

你的下一只龙虾何必是龙虾,这套大厂开源方案有点意思

差评XPIN
2026-04-13 00:03:47
正式签约!火箭队旧将加盟CBA大黑马,全力冲击总决赛

正式签约!火箭队旧将加盟CBA大黑马,全力冲击总决赛

体坛瞎白话
2026-04-13 14:27:54
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
皇家选妃秘闻:裸检是最后一关,细节变态到九成女子都过不去

皇家选妃秘闻:裸检是最后一关,细节变态到九成女子都过不去

千秋文化
2026-02-07 17:26:57
美中央司令部:4月13日起封锁伊朗港口海上交通;伊朗:荒谬可笑!公布美方三大“无理要求”

美中央司令部:4月13日起封锁伊朗港口海上交通;伊朗:荒谬可笑!公布美方三大“无理要求”

新民晚报
2026-04-13 07:57:42
23岁住家保姆哭诉:高薪背后,竟隐藏雇主的禽兽要求

23岁住家保姆哭诉:高薪背后,竟隐藏雇主的禽兽要求

清茶浅谈
2025-04-26 19:21:42
运-30成功首飞,全球市场被垄断,目标是美国,成为全球最优秀!

运-30成功首飞,全球市场被垄断,目标是美国,成为全球最优秀!

温读史
2026-04-14 01:47:53
50岁李小冉浪姐现场爆猛料!后台憋尿到炸,闺蜜谢娜看哭

50岁李小冉浪姐现场爆猛料!后台憋尿到炸,闺蜜谢娜看哭

黔乡小姊妹
2026-04-12 09:38:38
光纤暴涨650%!真正赚钱的不是光纤,是它的“原材料”

光纤暴涨650%!真正赚钱的不是光纤,是它的“原材料”

风风顺
2026-04-13 04:10:03
中美差距开始缩小!我国GDP爆增3.36万亿,再次接近美国70%水平

中美差距开始缩小!我国GDP爆增3.36万亿,再次接近美国70%水平

南宗历史
2026-04-14 01:53:15
2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

睡前讲故事
2026-03-30 13:48:58
喷辣椒水保安已被行政拘留,抢房现场多人插队才导致秩序混乱

喷辣椒水保安已被行政拘留,抢房现场多人插队才导致秩序混乱

映射生活的身影
2026-04-14 01:58:18
与林彪分居的日子,叶群的奢侈生活

与林彪分居的日子,叶群的奢侈生活

梦韵
2026-04-11 01:45:07
王毅同巴基斯坦副总理兼外长达尔通电话

王毅同巴基斯坦副总理兼外长达尔通电话

新华社
2026-04-13 22:33:03
2026一定要多存钱:经济下行,建议你不要再买这9样东西

2026一定要多存钱:经济下行,建议你不要再买这9样东西

阿晪美食
2026-04-09 18:09:47
美国杨毅:湖人将被火箭横扫最多撑5场 詹姆斯肯定能刷出漂亮数据

美国杨毅:湖人将被火箭横扫最多撑5场 詹姆斯肯定能刷出漂亮数据

越岭寻踪
2026-04-14 00:54:59
10点准时封锁!美总统没料到:中东贵客当天官宣当天现身北京

10点准时封锁!美总统没料到:中东贵客当天官宣当天现身北京

共工之锚
2026-04-14 00:38:08
在迪拜工作华人感慨:不要信媒体吹牛,迪拜相当于我国二线城市

在迪拜工作华人感慨:不要信媒体吹牛,迪拜相当于我国二线城市

福建睿平
2026-04-13 11:06:38
2026-04-14 02:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12751文章数 142624关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

健康
房产
数码
时尚
教育

干细胞抗衰4大误区,90%的人都中招

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

数码要闻

壹号本ONEXStation i1迷你主机发售,18999元

今年春夏一定要拥有的4条裙子,这样穿减龄又好看!

教育要闻

老师们活的通透的几大标准,看看你做到了吗?

无障碍浏览 进入关怀版