![]()
这项研究由阿里巴巴集团AMAP团队的雷家晨、刘可立等研究人员,联合英伟达公司的朱利叶斯·伯纳和加州理工学院的郑宏凯共同完成,于2025年10月发表。感兴趣的读者可以通过论文编号arXiv:2510.12586v1查询完整研究内容。
想象一下,当你要画一幅画时,通常需要先在草稿纸上画个轮廓,然后再转移到正式画布上完成作品。目前主流的AI图像生成就是这样工作的——它们需要一个"中间商"(我们称之为VAE编码器)先把图像压缩成简化版本,在这个简化空间里生成图像,最后再还原成我们看到的完整图片。这种方式虽然有效,但就像通过中间商买东西一样,总会有些损失和额外成本。
阿里巴巴的研究团队提出了一个大胆的想法:能不能让AI直接在"真实世界"也就是像素空间里生成图像,跳过这个中间环节呢?这听起来简单,实际上却是个巨大的技术挑战。直接在像素空间生成图像就像直接在画布上作画,需要处理的信息量巨大,训练难度也成倍增加。
研究团队巧妙地借鉴了人类学习的过程。就像我们学画画时,通常先学会观察和理解事物的结构,然后再学习如何用画笔表达出来。他们设计了一个两阶段的训练方法:第一阶段让AI学会"看懂"图像,理解不同噪声程度下图像的语义信息;第二阶段再教AI如何"画出来",将理解转化为具体的像素生成。
这种方法的核心创新在于解决了一个关键问题:如何让AI在面对充满噪声的模糊图像时,仍然能够理解其中的语义内容。研究团队通过一种叫做"表征一致性学习"的技术,让AI学会将同一幅图像在不同噪声水平下的表征联系起来。这就像训练一个人在雾天、雨天或者光线不好的情况下,仍然能够认出同一个物体一样。
在实际测试中,这个名为EPG(End-to-end Pixel-space Generative)的模型在ImageNet-256数据集上达到了令人惊讶的效果:FID分数为2.04,仅需75次函数评估就能生成高质量图像。要知道,FID分数越低代表生成图像质量越好,而函数评估次数则关系到生成速度。这个成绩不仅超越了之前所有直接在像素空间工作的方法,甚至能够与那些使用"中间商"的主流方法相媲美。
更令人兴奋的是,研究团队还成功训练出了一个"一步生成"的一致性模型,能够在单次推理中就生成高质量图像,FID分数达到8.82。这就像一个画家能够一笔画出完整作品,而不需要反复修改润色。这是首次有人成功在高分辨率图像上训练出不依赖预训练模型的像素空间一致性模型。
一、技术背景:为什么直接画图这么难
要理解这项研究的意义,我们需要先了解目前AI生成图像的主流方式。现在最成功的图像生成系统,比如Stable Diffusion,都采用了一种"迂回"策略。它们不直接操作我们看到的图像像素,而是先将图像压缩到一个简化的"潜在空间"中。
这个过程就像是你要给朋友描述一幅复杂的画,你不会详细描述每个像素的颜色,而是会说"左上角有一棵大树,右下角有一栋红色房子"。这种描述方式信息量更小,更容易处理,但也会丢失一些细节。VAE编码器就扮演着这样的角色——它将原本复杂的图像转换成简化的描述,然后AI在这个简化空间中工作,最后再将结果"翻译"回真实图像。
这种方法虽然有效,但也带来了一系列问题。首先,训练一个好的VAE编码器本身就是一个巨大的挑战,需要在压缩程度和信息保真度之间找到微妙的平衡。其次,即使是最好的VAE也会在编码和解码过程中丢失一些信息,这就像通过翻译软件转换语言一样,总会有些微妙之处丢失。最后,这种方法需要维护两个独立的模型——编码器和生成器,增加了系统的复杂性和计算成本。
直接在像素空间生成图像理论上可以避免这些问题,但实际操作起来却困难重重。像素空间的信息量巨大——一张256×256的彩色图像包含196,608个像素值,每个值都需要精确预测。这就像要求一个画家同时精确控制画布上每一个微小区域的颜色,难度可想而知。
此外,直接在像素空间训练还面临着"收敛难题"。由于需要处理的信息量巨大,模型往往需要更长时间才能学会生成连贯的图像,而且很容易陷入局部最优解,生成质量参差不齐的结果。
二、核心创新:分而治之的智慧
面对这些挑战,阿里巴巴研究团队提出了一个颇有哲学意味的解决方案:将复杂的像素生成任务分解为两个相对简单的子任务——理解和表达。
这种思路很像人类学习艺术的过程。一个初学者在学习绘画时,通常不会一开始就试图画出完美的作品。相反,他们会先花大量时间观察和理解各种物体的形状、结构和特征,然后再学习如何用画笔将这些理解表达出来。研究团队正是受到这种学习模式的启发,设计了他们的两阶段训练框架。
第一阶段被称为"自监督预训练",这里的"自监督"意味着AI不需要人工标注的数据,而是通过自己观察图像来学习。这个阶段的目标是让AI学会"看懂"图像,即使这些图像被不同程度的噪声污染。
在这个阶段,研究团队设计了一个巧妙的训练策略。他们让AI同时处理同一张图像的多个版本:清晰的原图、轻微模糊的版本、以及严重噪声污染的版本。AI的任务是学会认识到这些看起来很不同的图像实际上是同一个东西。这就像训练一个人在不同光线条件下都能认出同一张脸一样。
更进一步,研究团队引入了"轨迹一致性"的概念。在扩散模型的理论框架中,图像生成过程可以看作是一条从纯噪声到清晰图像的轨迹。同一条轨迹上的不同点代表同一张图像在不同噪声水平下的状态。AI需要学会的是,认识到轨迹上这些不同点之间的内在联系。
这种训练方式的巧妙之处在于,它让AI在学习语义理解的同时,也隐式地学习了图像生成的动力学过程。这为第二阶段的像素生成打下了坚实的基础。
第二阶段是"端到端微调",在这个阶段,研究团队将预训练好的编码器与一个随机初始化的解码器结合起来,形成完整的生成模型。此时,编码器已经具备了强大的语义理解能力,解码器的任务就是将这些语义理解转换为具体的像素值。
由于编码器已经在第一阶段学会了如何处理不同噪声水平的图像,整个模型在第二阶段能够更快地收敛到高质量的生成结果。这就像一个已经熟悉各种绘画对象的艺术家,只需要再学习一些技法就能创作出优秀作品一样。
三、技术细节:魔鬼藏在细节里
虽然两阶段训练的整体思路相对直观,但真正让这个方法奏效的是一系列精心设计的技术细节。
在预训练阶段,研究团队采用了两种互补的学习目标。第一种是传统的对比学习,它鼓励AI将同一张图像的不同增强版本识别为相似,而将不同图像识别为不同。这就像教小孩认识"这两张照片都是猫咪,虽然一张是侧面一张是正面"。
第二种是他们创新提出的"表征一致性损失",这是整个方法的核心创新之一。这种损失函数要求AI对于同一条扩散轨迹上的不同点产生一致的语义表征。换句话说,无论一张猫的图片被加了多少噪声,AI都应该能够识别出"这是一只猫"这个核心信息。
为了实现这种一致性,研究团队巧妙地利用了扩散过程的数学性质。他们不是简单地让AI学习识别任意两张相似图像,而是让AI学习识别那些在理论上应该产生相同最终结果的图像对。这种约束大大提高了学习的效率和准确性。
另一个关键技术细节是温度调度策略。在对比学习中,温度参数控制着模型对相似性的敏感程度。研究团队发现,在训练初期使用较高的温度(允许更宽松的相似性匹配),然后逐渐降低温度(要求更精确的匹配),能够显著提高训练的稳定性和最终效果。
这种策略的直觉很容易理解:就像学习任何技能一样,开始时我们允许犯一些错误,随着技能的提高,我们对自己的要求也越来越严格。这种渐进式的学习方式比一开始就要求完美要有效得多。
在网络架构方面,研究团队选择了Vision Transformer(ViT)作为基础架构,但进行了专门的优化。他们在编码器和解码器之间添加了残差连接,这样信息可以直接从输入传递到输出,帮助模型更好地保留细节信息。
此外,他们还引入了自适应层归一化(AdaLN-Zero)技术,这种技术允许模型根据时间步信息动态调整其行为。这就像给画家提供了一个能够根据绘画进度自动调整的画笔一样,在不同阶段采用不同的绘画策略。
四、实验结果:数字背后的故事
研究团队在ImageNet数据集上进行了全面的实验验证,结果确实令人印象深刻。在ImageNet-256分辨率下,他们的EPG模型达到了2.04的FID分数,仅需75次函数评估。为了理解这个成绩的意义,我们需要知道FID分数是评估生成图像质量的金标准——分数越低,说明生成的图像越接近真实图像的分布。
更令人惊讶的是,这个成绩不仅大幅超越了之前所有直接在像素空间工作的方法,甚至能够与那些使用了VAE"作弊器"的方法相媲美。这就像一个完全自学成才的画家,画出了能与科班出身的专业画家相媲美的作品。
在推理效率方面,EPG模型只需要75次函数评估就能生成高质量图像,而很多现有方法需要数百次甚至上千次评估。这种效率提升对实际应用意义重大,因为更少的计算步骤意味着更快的生成速度和更低的计算成本。
研究团队还成功训练出了一致性模型变体,这是一种能够在单步推理中生成图像的特殊架构。他们的一致性模型在单步生成中达到了8.82的FID分数,这个成绩虽然比多步生成略差,但考虑到只需要一次推理就能完成整个生成过程,这个结果相当令人满意。
更重要的是,这是首次有人成功在高分辨率图像上训练出不依赖预训练扩散模型或VAE的像素空间一致性模型。以往的一致性模型要么需要先训练一个扩散模型作为"老师",要么只能在低分辨率图像上工作。EPG的成功证明了直接在像素空间进行端到端训练的可行性。
在不同分辨率的测试中,EPG模型展现出了良好的扩展性。在ImageNet-512上,模型依然保持了优秀的性能,FID分数为2.35,显示出该方法在高分辨率图像生成上的潜力。
研究团队还进行了详细的消融实验,验证了各个组件的重要性。实验表明,预训练阶段的确至关重要——没有预训练的模型在像素空间很难收敛到满意的结果。同时,他们提出的表征一致性损失相比传统的对比学习方法有显著优势,而温度调度策略也对最终性能有明显贡献。
五、与现有方法的对比:站在巨人肩膀上
为了更好地评估EPG的创新价值,研究团队与多种现有方法进行了系统对比。
与传统像素空间方法相比,EPG的优势显而易见。早期的像素空间扩散模型如CDM和ADM虽然开创了这个领域,但它们的性能和效率都远不如现在的VAE方法。更近期的工作如RIN和SiD虽然在性能上有所改进,但仍然需要巨大的计算资源和更长的训练时间。
EPG不仅在生成质量上超越了这些方法,更重要的是在计算效率上实现了质的飞跃。相比需要数千次推理步骤的早期方法,EPG的75步推理已经是一个巨大的进步。
与VAE方法的对比更加有趣。主流的VAE方法如DiT和SiT确实在性能上仍有一定优势,但这种优势正在快速缩小。更重要的是,当考虑到整个系统的复杂性时,EPG实际上具有显著优势。VAE方法需要先训练一个高质量的编码器,这本身就是一个昂贵和困难的过程。而EPG的预训练相对简单,总体训练成本实际上更低。
在推理效率方面,EPG相比VAE方法有明显优势。虽然VAE方法在潜在空间中的单步推理很快,但加上编码和解码的时间,总体推理时间往往比EPG更长。更不用说VAE方法还需要在内存中同时维护两个大型模型。
特别值得一提的是,EPG在一致性模型方面取得的突破具有重要意义。以往的一致性模型要么依赖预训练的扩散模型,要么只能在相对简单的数据集上工作。EPG证明了可以直接在复杂的高分辨率数据集上从头训练一致性模型,这为快速图像生成开辟了新的可能性。
研究团队还与一些使用外部监督的方法进行了对比。例如REPA方法通过引入预训练的视觉表征模型来加速训练,虽然效果不错,但增加了系统的复杂性。EPG虽然在某些指标上略逊于这些方法,但它的自包含特性使其在实际部署中更具优势。
六、技术挑战与解决方案:魔鬼藏在实现里
虽然EPG的核心思想相对直观,但实际实现过程中遇到了许多意想不到的技术挑战。研究团队在论文中坦诚地分享了这些挑战以及他们的解决方案。
首先是训练稳定性问题。在早期实验中,研究团队发现直接应用标准的对比学习方法往往导致表征崩塌——也就是说,模型学会了将所有输入映射到相同或非常相似的表征,这显然没有什么用处。这个问题在处理高噪声图像时尤其严重,因为噪声图像的视觉相似性很低,模型很难学会提取有意义的共同特征。
为了解决这个问题,研究团队设计了渐进式的温度调度策略。他们从一个相对宽松的温度参数开始,允许模型在早期阶段产生比较粗糙的表征,然后逐渐收紧要求,迫使模型学习更精细的特征。这种策略的效果就像教导学生时的循序渐进——先让学生理解大概意思,再要求精确掌握细节。
另一个重要挑战是如何平衡两个学习目标之间的权重。EPG需要同时学习对比损失和表征一致性损失,这两个目标有时会产生冲突。研究团队通过大量实验找到了合适的权重配比,并发现在训练过程中动态调整这些权重能够获得更好的效果。
在网络架构设计方面,研究团队发现标准的Vision Transformer需要进行专门的修改才能在像素空间中有效工作。他们添加了残差连接来帮助信息流动,使用了特殊的位置编码来处理不同分辨率的图像,还引入了自适应归一化层来更好地处理时间条件信息。
数据预处理也是一个被低估的挑战。与在潜在空间工作的方法不同,像素空间方法对数据的质量和一致性要求更高。研究团队需要仔细调整数据增强策略,确保在增加数据多样性的同时不影响模型学习真实的像素分布。
计算资源的管理同样重要。像素空间训练需要处理更大的数据量,对GPU内存的要求很高。研究团队通过梯度检查点、混合精度训练等技术优化了内存使用,使得在有限的硬件资源上也能训练大规模模型。
特别值得一提的是,研究团队在训练一致性模型时遇到了额外的挑战。一致性模型的训练本身就比较困难,因为它需要在不同时间步之间强制执行严格的一致性约束。在像素空间中,这种约束变得更加难以满足。研究团队通过引入辅助的对比损失,给模型提供了额外的学习信号,显著改善了训练稳定性。
七、实际应用前景:从实验室到现实世界
EPG的成功不仅仅是学术上的突破,更重要的是它为实际应用开辟了新的可能性。直接在像素空间工作的能力使得这种方法在多个应用场景中具有独特优势。
在实时图像生成应用中,EPG的单模型架构具有明显优势。传统的VAE方法需要维护两个独立的大型模型,这在资源受限的环境中是一个严重问题。而EPG只需要一个模型就能完成整个生成过程,这使得它更适合部署在移动设备或边缘计算设备上。
对于内容创作行业,EPG提供了一种更直观的图像生成方式。创作者不需要担心VAE引入的压缩失真,生成的图像保持了完整的像素级细节。这对于需要高质量输出的专业应用尤其重要,比如影视制作、广告设计等领域。
在科学可视化和医学成像领域,EPG的精确像素控制能力显得特别有价值。这些应用往往对图像的细节有很高要求,任何由压缩或近似引入的误差都可能影响分析结果。EPG能够提供真正端到端的像素级精确生成,这为这些敏感应用提供了新的可能性。
从系统部署的角度看,EPG简化了整个技术栈。传统方法需要分别训练和维护VAE编码器和扩散模型,这不仅增加了开发复杂性,也增加了系统故障的风险点。EPG的统一架构使得整个系统更容易管理和优化。
不过,EPG也面临一些实际应用中的挑战。首先是计算资源需求。虽然EPG简化了模型架构,但像素空间的高维度仍然对计算能力提出了较高要求。对于一些资源极度受限的应用场景,可能仍然需要进一步的优化。
其次是训练数据的要求。EPG对训练数据的质量相对敏感,需要大量高质量的像素级数据。这在一些特定领域可能是一个限制因素,特别是那些很难获得大规模高质量数据的专业领域。
尽管如此,EPG代表的技术方向具有很大的发展潜力。随着计算硬件的不断改进和训练技术的进一步优化,这些当前的限制很可能在不久的将来得到解决。
八、技术深度解析:算法创新的精髓
要真正理解EPG的技术贡献,我们需要深入了解其算法设计的精妙之处。整个方法的核心在于巧妙地结合了自监督学习和生成建模的优势。
在数学层面,EPG的预训练阶段实际上在解决一个表征学习的优化问题。给定一张图像x和其在不同时间步t的噪声版本x_t,模型需要学习一个编码器E,使得E(x_t)能够捕获x的语义信息,同时对噪声水平保持鲁棒性。
这个过程中最巧妙的设计是利用扩散过程的轨迹结构。在标准扩散模型中,从同一张干净图像出发的不同噪声样本理论上应该能够通过确定性的ODE轨迹连接起来。EPG利用这个性质,要求模型对轨迹上的不同点产生一致的语义表征。
具体来说,如果x_t和x_s来自同一条轨迹,那么E(x_t)和E(x_s)应该在语义空间中相近。这种约束比简单的重构损失更强,因为它不仅要求模型能够处理单个噪声样本,还要求模型理解整个噪声-去噪的动力学过程。
在实现层面,研究团队使用了InfoNCE损失函数来实现这种一致性约束。InfoNCE是对比学习中的经典方法,它通过最大化正样本对的相似性同时最小化负样本对的相似性来学习有意义的表征。在EPG中,正样本对是来自同一轨迹的不同时间步,负样本对是来自不同轨迹的样本。
温度参数的动态调整是另一个重要的技术细节。在InfoNCE中,温度参数控制着softmax分布的"锐度"——较低的温度使得模型对相似性更加敏感,较高的温度则更加宽松。研究团队发现,从高温度开始然后逐渐降低能够帮助模型更好地收敛。
这种策略的理论基础在于优化景观的平滑性。在训练初期,高温度参数创造了一个相对平滑的优化景观,使得模型容易找到好的局部最优解。随着训练的进行,逐渐降低的温度参数增加了约束的严格性,迫使模型找到更精确的解。
在第二阶段的微调中,EPG采用了标准的扩散训练目标,但有一个重要的修改:预训练的编码器提供了强大的初始化。这种初始化不是随机的,而是已经包含了丰富的语义信息,这使得整个模型能够更快地收敛到高质量的生成结果。
对于一致性模型的训练,EPG引入了一个辅助的对比损失。这个损失要求一致性模型的输出与对应的干净图像在特征空间中相近。这种设计的直觉是,一致性模型应该学会将任意噪声图像直接映射到对应的干净图像,而不仅仅是满足一致性约束。
九、实验设计的智慧:如何验证创新
EPG的实验设计体现了研究团队的深思熟虑。他们不仅要证明方法的有效性,还要揭示各个组件的贡献,以及方法在不同条件下的鲁棒性。
实验的核心是在ImageNet数据集上的全面评估。ImageNet是计算机视觉领域的标准benchmark,包含了1000个类别的超过100万张高质量图像。在这样一个复杂多样的数据集上取得好成绩,是任何图像生成方法必须通过的考验。
研究团队使用了多个评估指标来全面衡量生成质量。FID(Fréchet Inception Distance)是最重要的指标,它衡量生成图像和真实图像在特征空间中的分布差异。IS(Inception Score)评估生成图像的多样性和质量。Precision和Recall则分别衡量生成图像的质量和多样性的不同方面。
特别值得注意的是,研究团队还测试了不同推理步数下的性能。这个实验揭示了EPG在计算效率方面的优势——即使在很少的推理步数下,EPG仍然能够生成高质量的图像。这对实际应用非常重要,因为更少的推理步数意味着更快的生成速度。
消融实验是验证技术创新的关键工具。研究团队系统地移除或修改了方法中的各个组件,观察对最终性能的影响。这些实验显示,预训练阶段确实至关重要,表征一致性损失相比传统方法有显著优势,温度调度策略也对性能有明显贡献。
可扩展性实验验证了EPG在不同模型规模和数据规模下的表现。研究团队测试了从小型模型到大型模型的各种配置,发现性能随着模型规模单调递增,这是一个很好的信号,表明该方法具有良好的可扩展性。
与基线方法的对比实验特别全面。研究团队不仅与其他像素空间方法进行了对比,还与主流的VAE方法进行了比较。这些对比不仅包括生成质量,还包括训练成本、推理效率等实际应用中重要的考量因素。
跨分辨率的实验进一步验证了方法的通用性。EPG在256x256和512x512分辨率上都取得了优秀的结果,显示出良好的分辨率适应性。这对实际应用很重要,因为不同应用场景对分辨率的要求不同。
十、局限性与未来方向:诚实面对挑战
尽管EPG取得了显著成功,但研究团队也诚实地讨论了方法的局限性和未来的改进方向。
首先是计算资源需求。虽然EPG简化了模型架构,但像素空间的高维度特性仍然对计算能力提出了较高要求。训练一个高质量的EPG模型需要大量的GPU时间和内存,这可能限制了其在资源受限环境中的应用。
其次是对训练数据质量的敏感性。由于直接在像素空间工作,EPG对训练数据中的噪声和不一致性比较敏感。这要求在实际应用中需要更仔细的数据清洗和预处理工作。
在生成多样性方面,虽然EPG取得了不错的成绩,但在某些极端情况下,它生成的图像可能不如VAE方法那样多样化。这可能与像素空间的高维度特性有关——在如此高维的空间中,模型可能更倾向于学习数据分布中的主要模态。
关于可控性,EPG目前主要支持类别条件生成,对于更细粒度的控制(如文本到图像、局部编辑等)还需要进一步的研究。这是因为像素空间的复杂性使得添加额外的条件信息变得更加困难。
在推理速度方面,虽然EPG相比早期的像素空间方法有了显著改进,但与最优化的VAE方法相比仍有差距。特别是在需要极高实时性的应用中,这种差距可能是一个重要考量因素。
研究团队也指出了几个有前景的未来研究方向。首先是进一步优化计算效率,可能通过更高效的网络架构或训练策略来实现。其次是扩展到其他模态,比如视频生成或3D图像生成。
另一个重要方向是改进可控性。如何在保持像素空间直接建模优势的同时,实现更细粒度的生成控制,是一个值得探索的问题。这可能需要在预训练阶段引入更多的条件信息或开发新的条件注入机制。
跨域泛化也是一个有趣的研究方向。目前的EPG主要在自然图像上进行了验证,但其原理是否适用于其他类型的图像(如医学图像、卫星图像等)还需要进一步研究。
最后,理论分析的深入也很重要。虽然EPG在实践中取得了成功,但对其为什么有效的理论理解还不够深入。更好的理论理解可能有助于进一步改进方法或拓展其应用范围。
说到底,EPG代表了图像生成领域的一个重要进步。它证明了直接在像素空间进行端到端训练的可行性,为这个领域的未来发展开辟了新的道路。虽然还有一些局限性需要克服,但这项研究无疑为我们提供了宝贵的洞察和启发。
对于普通人来说,EPG的成功意味着我们可能很快就能看到更高质量、更高效的AI图像生成工具。这些工具不仅能够生成令人惊艳的图像,还能够在移动设备上运行,为创意工作者和普通用户提供更强大的创作工具。
更重要的是,EPG的成功展示了学术研究如何能够解决实际技术挑战。通过巧妙的问题分解和创新的算法设计,研究人员能够攻克看似不可能的技术难题,推动整个领域向前发展。这种精神和方法对于解决未来更复杂的技术挑战具有重要的借鉴意义。
Q&A
Q1:EPG模型的两阶段训练相比传统方法有什么优势?
A:EPG采用分而治之的策略,第一阶段让AI学会"看懂"不同噪声水平的图像语义,第二阶段再学会"画出来"。这种方法避免了VAE编码器的信息损失,训练更稳定,同时只需维护一个模型而不是两个独立模型,大大简化了系统复杂性。
Q2:EPG在像素空间直接生成图像真的比VAE方法更好吗?
A:在某些方面是的。EPG避免了VAE编码解码过程中的信息损失,生成质量接近主流VAE方法,但计算效率更高,推理速度更快。不过EPG对计算资源要求较高,在极度资源受限的环境中VAE方法可能仍有优势。
Q3:普通用户什么时候能用上EPG这样的图像生成技术?
A:目前EPG还主要在学术研究阶段,但技术已经相当成熟。考虑到AI图像生成技术的快速产业化趋势,预计1-2年内就可能看到基于类似技术的商业产品,特别是在专业创作工具和高端消费级应用中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.