苹果与伊利诺伊大学:四步AI绘图实现媲美五十步生成质量能力提升|高斯|实验|数学|预测器|新论文|苹果公司|知名企业

分享至

这项由苹果公司（Apple）与伊利诺伊大学香槟分校（UIUC）联合开展的研究，于2026年5月以预印本形式发布在arXiv平台，论文编号为arXiv:2605.08078。研究提出了一种名为"正则化轨迹模型"（Normalizing Trajectory Models，简称NTM）的全新图像生成框架，致力于用极少的计算步骤生成高质量图像，同时保留严格的概率理论基础。

当你让一个AI系统根据文字描述画一张图时，它其实在做一件有点像"从混沌中雕刻秩序"的事情：从一张完全随机的噪点图出发，一步一步地把它变成你想要的那张清晰图像。这个过程就像雕塑家从一块粗糙的大理石里凿出一尊雕像——每一刀都让它更接近最终形态。

然而，这个过程有一个让工程师头疼的问题：雕塑家需要凿很多刀才能保证质量，通常是五十刀甚至更多。如果你强迫雕塑家只用四刀完成，结果往往是一个模糊、粗糙、说不清是人是鬼的东西。这正是当前AI图像生成领域面临的核心困境——在追求速度（少步骤）和追求质量之间存在着看起来难以逾越的鸿沟。

研究团队的突破在于：他们发现，问题的根源不是"步骤不够多"，而是"每一步用的数学工具太简单"。传统方法在每一步都假设图像变化符合一种叫做"高斯分布"的钟形曲线规律，就好比每次雕刻都只会用同一种固定力度的凿子。NTM则引入了更灵活的"可逆变换器"，让每一步都能适应图像实际的复杂变化，就像换了一套可以随时调整角度和力度的精密雕刻工具。最终结果令人印象深刻：NTM只用四步，就达到了传统方法需要五十步才能实现的图像质量。

一、为什么"少走几步"在AI画图里这么难？

在展开NTM的具体原理之前，有必要先弄清楚传统方法的瓶颈究竟在哪里。

现有的主流AI图像生成技术，无论是大名鼎鼎的DALL-E、Stable Diffusion，还是后来居上的FLUX，都建立在同一个核心假设之上：图像从噪点变成清晰图像的每一小步，其概率分布都可以用一个"钟形曲线"（高斯分布）来近似描述。这个假设本身并不荒谬——当每一步的跨度很小时，这个近似确实相当准确，就好比你从北京到上海，如果每次只走一米，那每一步的方向误差基本可以忽略不计。

但如果你想从北京一步跨到上海呢？每一步的跨度变大了，那个"钟形曲线"假设就开始失效了。在数学上，当步骤减少时，每一步需要跨越的变化区间变大，真实的概率分布会变成多个钟形曲线叠加在一起的复杂形状——有时候呈现多个峰值，有时候拖着一条很长的尾巴。单一的钟形曲线根本无法准确描述这种复杂性，导致生成的图像质量急剧下降。

以往研究者们为了解决这个问题，尝试了三条路。第一条是"蒸馏"（distillation）：让一个擅长走许多小步的老师模型，把它的知识压缩给一个只走少数步的学生模型，就像把一本厚厚的百科全书提炼成一张知识卡片。第二条是"一致性模型"（consistency models）：训练模型直接预测从任意噪点到最终图像的结果，绕过中间过程。第三条是"对抗训练"（GAN-based方法）：引入一个"挑剔的评判者"来训练模型，让生成结果看起来更真实。这三条路各有成效，但都有一个共同的代价：它们都放弃了精确计算概率的能力。换句话说，你无法用这些模型精确地衡量"这张图在数学上有多大概率真实存在"。这就好比你虽然能快速画出一幅不错的山水画，但你说不清楚这幅画里的每一笔在数学上各自代表什么含义。

NTM的研究团队认为，这个代价是不必要的。他们想找到一条既快速（少步骤）又精确（可计算概率）的道路。

二、NTM的核心思路：在秘密空间里让困难问题变简单

NTM的核心思路，用一个直观的比喻来说，就像是在解一道复杂的数学题时换了一个坐标系。

原来的坐标系里，计算很复杂；换到新坐标系之后，同样的问题变得容易多了——计算完再把结果转换回来即可。NTM里扮演"换坐标系"角色的组件，被研究者称为"可逆变换器"（transporter）。

具体来说，NTM由两个协同工作的核心部件构成。第一个叫"变换器"（transporter），它的任务是把原始图像空间里的数据，映射到一个经过精心设计的"潜在空间"（latent space）里。在这个新空间里，图像在每一步之间的变化规律，恰好能被一个简单的钟形曲线准确描述——那些在原始空间里令人头疼的多峰分布和厚尾分布，在新空间里都被"拉直"了。

第二个部件叫"预测器"（predictor），它在新的潜在空间里工作，负责预测图像从噪点到清晰这一过程中，每一步应该如何演变。由于新空间里的分布已经足够简单，预测器只需要一个较为直接的数学模型就能完成任务。

这两个部件合在一起，形成了一个完整的"正则化流"（normalizing flow）——这是数学上一类经典的可逆映射工具。"可逆"这个性质至关重要：因为变换器是可逆的，你可以精确地追踪数据在变换前后的概率变化，从而用一个叫做"变量替换公式"的数学工具，精确计算出图像在整个生成轨迹上的概率。

还有一个巧妙的设计值得专门提及：这两个部件共享参数。变换器被同时应用于当前时刻的图像（噪点图）和目标时刻的图像（清晰图），这意味着同一套"坐标转换规则"被用于整条生成轨迹的所有节点。这种共享设计不仅节省了计算资源，还保证了轨迹上各个节点的表示在同一个语言体系下，便于预测器做跨时间步的推理。

NTM的训练目标，数学上可以写成一个精确的负对数似然函数——这是一种衡量"模型预测与实际数据有多吻合"的标准，每一项都有明确的物理含义。训练的过程，就是不断调整变换器和预测器的参数，让这个概率尽可能高。

三、架构设计：浅层变换器加上深层预测器

NTM的架构设计，体现了研究团队在"把计算资源放在哪里"这个问题上的深思熟虑。

变换器的设计借鉴了TarFlow（一种基于自回归Transformer的正则化流）和STARFlow（一种用于文本到图像生成的深浅结合正则化流）的成果。具体来说，变换器由两个轻量级的自回归流模块组成，每个模块只有四个Transformer层。它的工作方式有点像扫描一张图片——第一个模块从左到右扫描图像的每个像素块，第二个模块从右到左扫描，两次扫描的方向相反，确保捕获到图像中所有方向的空间关系。每个像素块的变换值，都依赖于前面已经处理过的像素块，这种依赖结构保证了整个变换是可逆的，同时使得概率计算的复杂度可以管控。

相比之下，预测器则是整个系统中最"厚重"的部分：一个拥有24层的完整Transformer网络。但这个厚重换来了一个关键优势：预测器使用的是非因果（non-causal）全注意力机制，也就是说，它可以同时看到生成轨迹上所有时间步的信息，在空间维度上并行处理所有像素块。这意味着虽然预测器层数多、参数量大，但在实际推理时所有的空间位置是同时计算的，不需要一个位置一个位置地顺序处理。

这种"轻变换器加重预测器"的分工，体现了一种精妙的权衡逻辑：变换器负责处理每一步内部的局部空间变换，只需要捕获相对简单的局部非高斯结构；预测器则负责在整条轨迹上进行跨时间步的全局推理，把大量的模型容量集中在对生成过程最关键的预测任务上。在论文的讨论部分，研究者明确指出，每一步的条件分布（给定当前噪点图，预测下一步的图像）比完整的图像边缘分布（直接从噪点预测最终图像）要简单得多，因此轻量的变换器在每一步就足够用了，而无需像STARFlow那样在单步内堆砌256个自回归块。

四、从零训练与在预训练模型上微调：两条路各有门道

NTM不仅可以从零开始训练，还可以利用现有的预训练扩散模型或流匹配模型作为起点进行微调。这两条路在工程上各有巧思。

从零训练时，研究者构建了一条"随机前向轨迹"：给定一张干净的图片，按照一套预设的时间步调度表（比如四步走：从完全清晰到完全噪点），用一个已知的数学公式依次添加噪声，生成一条从清晰到噪点的轨迹。然后，NTM的训练目标就是尽可能准确地模拟这条轨迹的逆向过程——从噪点一步步恢复到清晰图像。训练时可以选择端到端的方式（同时优化轨迹上所有步骤的概率），也可以选择逐对方式（每次随机抽取相邻的两个时间步进行训练）。此外，单个模型可以同时处理不同步数的轨迹（如四步、八步、十六步），只需在训练时让每个样本独立随机选择步数即可，这使得一个模型就能适应不同的速度-质量权衡需求。

微调的路则需要更多技巧。研究团队以FLUX.2-klein（一个40亿参数的预训练流匹配模型）为起点，设计了一套优雅的初始化方案。首先，变换器被初始化为"恒等变换"（identity），也就是说一开始它什么都不做，直接把输入原样传递出去。其次，预测器的均值预测被设置为等于预训练模型的高斯后验均值，方差则通过一个"零初始化"的小网络进行修正——初始时修正量为零，训练过程中逐渐学习偏离高斯假设。这个设计保证了在训练刚开始时，整个NTM在数学上与原始预训练模型完全等价，不会造成初始质量的崩溃。

然而，研究者发现，如果单纯用NTM的概率损失来微调，训练早期会非常不稳定——模型会很快偏离预训练的解，导致"灾难性遗忘"。为此，他们引入了一个辅助损失函数（auxiliary loss）：在每一步，要求NTM的均值预测与冻结的预训练模型的预测保持一致，这就像给正在学习的学生安排了一位"随时提醒他不要跑偏"的老师。随着训练进行，这个辅助损失的权重会逐渐退火（cosine decay），让模型最终能自由地超越高斯假设，学到更丰富的分布形式。消融实验证实，去掉这个辅助损失，微调会在训练早期迅速发散，生成的图像变得一塌糊涂。

五、轨迹分数去噪与快速生成器：让四步生成更快更好

拥有精确概率的模型，带来了一个意想不到的额外红利：测试时的自我精炼能力。

NTM在生成图像时，输出的是一条从噪点到图像的完整轨迹，而这条轨迹本身就是一条"含噪序列"——因为它来自马尔可夫前向过程，每个时间步的值都不是完全干净的。由于NTM可以精确计算整条轨迹的联合对数概率，其关于轨迹的梯度就自然地提供了一个"联合分数函数"（joint score function），指示着如何同时修正轨迹上所有时间步的值，使整条轨迹在数学上更加"可信"。

关键在于，这条轨迹上各个时间步的噪声是相互关联的（因为它们来自同一张干净图像经过不同程度的加噪），所以修正一个时间步的误差，通过轨迹协方差矩阵，可以同时传播到其他时间步。这比单独独立地修正每个时间步更有效，就像你在校对一段话时，发现某个词明显用错了，顺带也能推断出前后几句话的意思是否也需要调整。

具体操作时，研究者用一个加权梯度步骤来更新整条轨迹，权重正是前向过程的协方差矩阵，然后通过一个归一化因子把结果映射回干净图像空间。这个过程需要一次反向传播，计算量虽然可以接受（因为模型的轻量化设计），但毕竟比纯前向计算要慢。

为了彻底消除这个开销，研究者进一步训练了一个轻量级的"去噪器"（denoiser）。这个去噪器是一个具有全注意力机制的非因果Transformer，它接收预测器在最干净时间步输出的潜在表示，直接预测去噪后的最终图像，绕过变换器的自回归解码和基于反向传播的轨迹精炼。去噪器的训练目标是，对真实数据轨迹运行完整的NTM加轨迹分数精炼，把精炼后的干净图像作为监督信号，让去噪器用一次前向计算就"记住"精炼效果。实验数据表明，这个去噪器实现了接近九倍的速度提升（从每秒0.20张图提高到每秒1.88张图），同时与完整精炼方案的感知相似度差异（LPIPS）仅为0.121，保持了相当高的保真度。

六、实验结果：NTM在基准测试上的表现

研究团队在两个设置下系统地评估了NTM的性能。

从零训练的设置下，NTM在256×256分辨率的文本到图像生成任务上进行了测试，使用GenEval（一个评估模型能否准确生成包含指定对象、颜色、数量、位置等要素的图像的基准）和DPG-Bench（使用长而复杂的描述文字评估生成忠实度的基准）两个评估指标。结果显示，NTM以四个去噪步骤在GenEval上取得了0.82的总分，在DPG-Bench上取得了79.64分。作为对比，此前最佳的同类正则化流模型STARFlow在GenEval上只有0.56分，而且需要256个自回归步骤，比NTM慢得多。NTM还与一系列主流扩散模型进行了横向比较：SDXL得分为0.55，PixArt-α为0.48，SD3-Medium为0.62，FLUX.1-dev为0.66，Janus-Pro-7B为0.80，HiDream-I1-Full为0.83，Seedream 3.0为0.84，Qwen-Image为0.87，Nucleus-Image为0.87。NTM从零训练的0.82分，在正则化流方法中遥遥领先，并与强力的扩散模型基准处于同一量级。

在类别条件ImageNet 256×256生成任务上（用FID-50K指标衡量图像质量，数值越低越好），NTM以四步达到了3.83的FID，以八步达到3.24，以十六步达到2.80。STARFlow（FAE版本）需要256个自回归步骤才能达到2.67的FID，NTM以少得多的步骤取得了非常接近的结果。这组实验的特别之处在于，NTM完全依赖精确的负对数似然训练，没有使用任何对抗损失或感知损失，证明了单纯的精确概率训练就足以产生竞争力十足的生成质量。

微调设置下，NTM以FLUX.2-klein为基础，在512×512分辨率上微调后，GenEval得分达到0.76，DPG-Bench达到83.38分。这一结果略低于从零训练版本在GenEval上的表现，研究者指出，位置关系和颜色属性绑定等子任务在当前微调阶段仍有提升空间，可能需要更长时间的训练或更强的预训练骨干网络。消融实验还表明，使用T=4步的微调设置在质量与速度之间取得了最佳平衡，T=8和T=16虽然在细节保留上有所提升，但推理速度相应降低。

七、当NTM只走一步时为什么会失败，以及这说明了什么

研究团队在论文的讨论部分坦诚地分析了NTM的局限性。

当把步数压缩到T=1时，NTM的生成质量会严重退化，产生模糊扭曲的图像。研究者指出，这不是训练上的问题，而是一个根本性的容量瓶颈：单步设置下，整个数据分布的非高斯结构必须完全由轻量的变换器独自承担，而预测器退化为单步高斯采样，提供不了任何非高斯建模能力。轻量变换器（每块4层）的表达能力远不如STARFlow的深层块（每块24层以上，加多个模块），因此单步质量远不如STARFlow。如果把变换器加深到和STARFlow相当，确实可以恢复单步质量，但推理速度又会被自回归解码拖回到STARFlow的水平，完全失去了少步骤设计的意义。

这个失败案例揭示了NTM框架内在的设计权衡空间：变换器越深、步数可以越少，但推理延迟也越高；变换器越浅、步数需要越多，但每步的解码开销越低。NTM在T=4到T=8的区间内找到了最佳平衡点：变换器足够轻以保持快速推理，步数足够少以满足实际应用需求，而多步结构又为轻量变换器分担了建模负担。这种权衡关系也为未来研究指出了方向：自适应深度变换器、沿轨迹渐进式分配容量等架构创新，有望进一步将精确似然生成推向更少的步骤乃至单步生成。

说到底，NTM做了一件看起来矛盾却又合乎逻辑的事：它用更复杂的数学工具（正则化流），换来了更简单的生成过程（更少的步骤）。

传统方法的困境在于，为了让每一步的数学假设成立，必须把整个生成过程切成很多很小的碎片。NTM则选择了另一条路：每一步都承认真实分布的复杂性，用可逆变换器把复杂问题转化为简单问题，然后在新坐标系里用精确的概率工具求解。这使得四步就足以完成五十步才能达到的质量。

对普通用户来说，这意味着未来的AI绘图工具可以变得更快——不是牺牲质量换速度，而是通过更聪明的数学框架同时做到两者。更有意义的是，NTM保留了精确计算图像概率的能力。这个看似抽象的性质，在现实中有很多潜在的应用：你可以用它来检测一张图是否是AI生成的，或者评估生成图像在某个语境下的"合理性"。这个研究最引人深思的地方或许在于：速度与精度的权衡，并非永恒的物理定律，而只是工具选择的结果。换对了工具，鱼和熊掌有时候真的可以兼得。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.08078查阅完整论文，代码也已开源在苹果官方GitHub仓库ml-starflow中。

Q&A

Q1：NTM和传统扩散模型生成图像的方式有什么根本区别？

A：传统扩散模型在每一步都假设图像变化符合钟形曲线（高斯分布），步骤少时这个假设会失效，导致图像模糊。NTM通过一个可逆变换器把图像映射到一个新坐标系，在新坐标系里钟形曲线假设精确成立，从而在数学上精确描述每一步的真实分布，四步就能达到传统方法五十步的质量。

Q2：NTM保留精确概率计算有什么实际用途？

A：精确概率意味着模型可以为任意一张图像打分，衡量它在数学上"有多像真实图像"。这个能力可以用于检测AI生成内容、过滤质量差的生成结果、以及支持测试时的自我精炼（NTM的轨迹分数去噪正是利用了这一点）。传统的蒸馏或对抗训练方法则无法提供这种精确的概率评估。

Q3：NTM在微调时为什么需要辅助损失，去掉会怎样？

A：NTM微调初期，单纯的概率损失信号不足以约束模型不偏离预训练结果，变换器和预测器会相互"推卸责任"，导致训练早期迅速发散、图像质量崩溃。辅助损失强制NTM的均值预测与冻结的预训练模型保持一致，提供稳定的锚点，让变换器有机会从恒等变换出发逐步学习有意义的空间变换。实验图像显示，去掉辅助损失的微调产生的图像完全无法识别。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.