网易首页 > 网易号 > 正文 申请入驻

苹果与伊利诺伊大学:四步AI绘图实现媲美五十步生成质量能力提升

0
分享至


这项由苹果公司(Apple)与伊利诺伊大学香槟分校(UIUC)联合开展的研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.08078。研究提出了一种名为"正则化轨迹模型"(Normalizing Trajectory Models,简称NTM)的全新图像生成框架,致力于用极少的计算步骤生成高质量图像,同时保留严格的概率理论基础。

当你让一个AI系统根据文字描述画一张图时,它其实在做一件有点像"从混沌中雕刻秩序"的事情:从一张完全随机的噪点图出发,一步一步地把它变成你想要的那张清晰图像。这个过程就像雕塑家从一块粗糙的大理石里凿出一尊雕像——每一刀都让它更接近最终形态。

然而,这个过程有一个让工程师头疼的问题:雕塑家需要凿很多刀才能保证质量,通常是五十刀甚至更多。如果你强迫雕塑家只用四刀完成,结果往往是一个模糊、粗糙、说不清是人是鬼的东西。这正是当前AI图像生成领域面临的核心困境——在追求速度(少步骤)和追求质量之间存在着看起来难以逾越的鸿沟。

研究团队的突破在于:他们发现,问题的根源不是"步骤不够多",而是"每一步用的数学工具太简单"。传统方法在每一步都假设图像变化符合一种叫做"高斯分布"的钟形曲线规律,就好比每次雕刻都只会用同一种固定力度的凿子。NTM则引入了更灵活的"可逆变换器",让每一步都能适应图像实际的复杂变化,就像换了一套可以随时调整角度和力度的精密雕刻工具。最终结果令人印象深刻:NTM只用四步,就达到了传统方法需要五十步才能实现的图像质量。

一、为什么"少走几步"在AI画图里这么难?

在展开NTM的具体原理之前,有必要先弄清楚传统方法的瓶颈究竟在哪里。

现有的主流AI图像生成技术,无论是大名鼎鼎的DALL-E、Stable Diffusion,还是后来居上的FLUX,都建立在同一个核心假设之上:图像从噪点变成清晰图像的每一小步,其概率分布都可以用一个"钟形曲线"(高斯分布)来近似描述。这个假设本身并不荒谬——当每一步的跨度很小时,这个近似确实相当准确,就好比你从北京到上海,如果每次只走一米,那每一步的方向误差基本可以忽略不计。

但如果你想从北京一步跨到上海呢?每一步的跨度变大了,那个"钟形曲线"假设就开始失效了。在数学上,当步骤减少时,每一步需要跨越的变化区间变大,真实的概率分布会变成多个钟形曲线叠加在一起的复杂形状——有时候呈现多个峰值,有时候拖着一条很长的尾巴。单一的钟形曲线根本无法准确描述这种复杂性,导致生成的图像质量急剧下降。

以往研究者们为了解决这个问题,尝试了三条路。第一条是"蒸馏"(distillation):让一个擅长走许多小步的老师模型,把它的知识压缩给一个只走少数步的学生模型,就像把一本厚厚的百科全书提炼成一张知识卡片。第二条是"一致性模型"(consistency models):训练模型直接预测从任意噪点到最终图像的结果,绕过中间过程。第三条是"对抗训练"(GAN-based方法):引入一个"挑剔的评判者"来训练模型,让生成结果看起来更真实。这三条路各有成效,但都有一个共同的代价:它们都放弃了精确计算概率的能力。换句话说,你无法用这些模型精确地衡量"这张图在数学上有多大概率真实存在"。这就好比你虽然能快速画出一幅不错的山水画,但你说不清楚这幅画里的每一笔在数学上各自代表什么含义。

NTM的研究团队认为,这个代价是不必要的。他们想找到一条既快速(少步骤)又精确(可计算概率)的道路。

二、NTM的核心思路:在秘密空间里让困难问题变简单

NTM的核心思路,用一个直观的比喻来说,就像是在解一道复杂的数学题时换了一个坐标系。

原来的坐标系里,计算很复杂;换到新坐标系之后,同样的问题变得容易多了——计算完再把结果转换回来即可。NTM里扮演"换坐标系"角色的组件,被研究者称为"可逆变换器"(transporter)。

具体来说,NTM由两个协同工作的核心部件构成。第一个叫"变换器"(transporter),它的任务是把原始图像空间里的数据,映射到一个经过精心设计的"潜在空间"(latent space)里。在这个新空间里,图像在每一步之间的变化规律,恰好能被一个简单的钟形曲线准确描述——那些在原始空间里令人头疼的多峰分布和厚尾分布,在新空间里都被"拉直"了。

第二个部件叫"预测器"(predictor),它在新的潜在空间里工作,负责预测图像从噪点到清晰这一过程中,每一步应该如何演变。由于新空间里的分布已经足够简单,预测器只需要一个较为直接的数学模型就能完成任务。

这两个部件合在一起,形成了一个完整的"正则化流"(normalizing flow)——这是数学上一类经典的可逆映射工具。"可逆"这个性质至关重要:因为变换器是可逆的,你可以精确地追踪数据在变换前后的概率变化,从而用一个叫做"变量替换公式"的数学工具,精确计算出图像在整个生成轨迹上的概率。

还有一个巧妙的设计值得专门提及:这两个部件共享参数。变换器被同时应用于当前时刻的图像(噪点图)和目标时刻的图像(清晰图),这意味着同一套"坐标转换规则"被用于整条生成轨迹的所有节点。这种共享设计不仅节省了计算资源,还保证了轨迹上各个节点的表示在同一个语言体系下,便于预测器做跨时间步的推理。

NTM的训练目标,数学上可以写成一个精确的负对数似然函数——这是一种衡量"模型预测与实际数据有多吻合"的标准,每一项都有明确的物理含义。训练的过程,就是不断调整变换器和预测器的参数,让这个概率尽可能高。

三、架构设计:浅层变换器 加上 深层预测器

NTM的架构设计,体现了研究团队在"把计算资源放在哪里"这个问题上的深思熟虑。

变换器的设计借鉴了TarFlow(一种基于自回归Transformer的正则化流)和STARFlow(一种用于文本到图像生成的深浅结合正则化流)的成果。具体来说,变换器由两个轻量级的自回归流模块组成,每个模块只有四个Transformer层。它的工作方式有点像扫描一张图片——第一个模块从左到右扫描图像的每个像素块,第二个模块从右到左扫描,两次扫描的方向相反,确保捕获到图像中所有方向的空间关系。每个像素块的变换值,都依赖于前面已经处理过的像素块,这种依赖结构保证了整个变换是可逆的,同时使得概率计算的复杂度可以管控。

相比之下,预测器则是整个系统中最"厚重"的部分:一个拥有24层的完整Transformer网络。但这个厚重换来了一个关键优势:预测器使用的是非因果(non-causal)全注意力机制,也就是说,它可以同时看到生成轨迹上所有时间步的信息,在空间维度上并行处理所有像素块。这意味着虽然预测器层数多、参数量大,但在实际推理时所有的空间位置是同时计算的,不需要一个位置一个位置地顺序处理。

这种"轻变换器 加 重预测器"的分工,体现了一种精妙的权衡逻辑:变换器负责处理每一步内部的局部空间变换,只需要捕获相对简单的局部非高斯结构;预测器则负责在整条轨迹上进行跨时间步的全局推理,把大量的模型容量集中在对生成过程最关键的预测任务上。在论文的讨论部分,研究者明确指出,每一步的条件分布(给定当前噪点图,预测下一步的图像)比完整的图像边缘分布(直接从噪点预测最终图像)要简单得多,因此轻量的变换器在每一步就足够用了,而无需像STARFlow那样在单步内堆砌256个自回归块。

四、从零训练与在预训练模型上微调:两条路各有门道

NTM不仅可以从零开始训练,还可以利用现有的预训练扩散模型或流匹配模型作为起点进行微调。这两条路在工程上各有巧思。

从零训练时,研究者构建了一条"随机前向轨迹":给定一张干净的图片,按照一套预设的时间步调度表(比如四步走:从完全清晰到完全噪点),用一个已知的数学公式依次添加噪声,生成一条从清晰到噪点的轨迹。然后,NTM的训练目标就是尽可能准确地模拟这条轨迹的逆向过程——从噪点一步步恢复到清晰图像。训练时可以选择端到端的方式(同时优化轨迹上所有步骤的概率),也可以选择逐对方式(每次随机抽取相邻的两个时间步进行训练)。此外,单个模型可以同时处理不同步数的轨迹(如四步、八步、十六步),只需在训练时让每个样本独立随机选择步数即可,这使得一个模型就能适应不同的速度-质量权衡需求。

微调的路则需要更多技巧。研究团队以FLUX.2-klein(一个40亿参数的预训练流匹配模型)为起点,设计了一套优雅的初始化方案。首先,变换器被初始化为"恒等变换"(identity),也就是说一开始它什么都不做,直接把输入原样传递出去。其次,预测器的均值预测被设置为等于预训练模型的高斯后验均值,方差则通过一个"零初始化"的小网络进行修正——初始时修正量为零,训练过程中逐渐学习偏离高斯假设。这个设计保证了在训练刚开始时,整个NTM在数学上与原始预训练模型完全等价,不会造成初始质量的崩溃。

然而,研究者发现,如果单纯用NTM的概率损失来微调,训练早期会非常不稳定——模型会很快偏离预训练的解,导致"灾难性遗忘"。为此,他们引入了一个辅助损失函数(auxiliary loss):在每一步,要求NTM的均值预测与冻结的预训练模型的预测保持一致,这就像给正在学习的学生安排了一位"随时提醒他不要跑偏"的老师。随着训练进行,这个辅助损失的权重会逐渐退火(cosine decay),让模型最终能自由地超越高斯假设,学到更丰富的分布形式。消融实验证实,去掉这个辅助损失,微调会在训练早期迅速发散,生成的图像变得一塌糊涂。

五、轨迹分数去噪与快速生成器:让四步生成更快更好

拥有精确概率的模型,带来了一个意想不到的额外红利:测试时的自我精炼能力。

NTM在生成图像时,输出的是一条从噪点到图像的完整轨迹,而这条轨迹本身就是一条"含噪序列"——因为它来自马尔可夫前向过程,每个时间步的值都不是完全干净的。由于NTM可以精确计算整条轨迹的联合对数概率,其关于轨迹的梯度就自然地提供了一个"联合分数函数"(joint score function),指示着如何同时修正轨迹上所有时间步的值,使整条轨迹在数学上更加"可信"。

关键在于,这条轨迹上各个时间步的噪声是相互关联的(因为它们来自同一张干净图像经过不同程度的加噪),所以修正一个时间步的误差,通过轨迹协方差矩阵,可以同时传播到其他时间步。这比单独独立地修正每个时间步更有效,就像你在校对一段话时,发现某个词明显用错了,顺带也能推断出前后几句话的意思是否也需要调整。

具体操作时,研究者用一个加权梯度步骤来更新整条轨迹,权重正是前向过程的协方差矩阵,然后通过一个归一化因子把结果映射回干净图像空间。这个过程需要一次反向传播,计算量虽然可以接受(因为模型的轻量化设计),但毕竟比纯前向计算要慢。

为了彻底消除这个开销,研究者进一步训练了一个轻量级的"去噪器"(denoiser)。这个去噪器是一个具有全注意力机制的非因果Transformer,它接收预测器在最干净时间步输出的潜在表示,直接预测去噪后的最终图像,绕过变换器的自回归解码和基于反向传播的轨迹精炼。去噪器的训练目标是,对真实数据轨迹运行完整的NTM加轨迹分数精炼,把精炼后的干净图像作为监督信号,让去噪器用一次前向计算就"记住"精炼效果。实验数据表明,这个去噪器实现了接近九倍的速度提升(从每秒0.20张图提高到每秒1.88张图),同时与完整精炼方案的感知相似度差异(LPIPS)仅为0.121,保持了相当高的保真度。

六、实验结果:NTM在基准测试上的表现

研究团队在两个设置下系统地评估了NTM的性能。

从零训练的设置下,NTM在256×256分辨率的文本到图像生成任务上进行了测试,使用GenEval(一个评估模型能否准确生成包含指定对象、颜色、数量、位置等要素的图像的基准)和DPG-Bench(使用长而复杂的描述文字评估生成忠实度的基准)两个评估指标。结果显示,NTM以四个去噪步骤在GenEval上取得了0.82的总分,在DPG-Bench上取得了79.64分。作为对比,此前最佳的同类正则化流模型STARFlow在GenEval上只有0.56分,而且需要256个自回归步骤,比NTM慢得多。NTM还与一系列主流扩散模型进行了横向比较:SDXL得分为0.55,PixArt-α为0.48,SD3-Medium为0.62,FLUX.1-dev为0.66,Janus-Pro-7B为0.80,HiDream-I1-Full为0.83,Seedream 3.0为0.84,Qwen-Image为0.87,Nucleus-Image为0.87。NTM从零训练的0.82分,在正则化流方法中遥遥领先,并与强力的扩散模型基准处于同一量级。

在类别条件ImageNet 256×256生成任务上(用FID-50K指标衡量图像质量,数值越低越好),NTM以四步达到了3.83的FID,以八步达到3.24,以十六步达到2.80。STARFlow(FAE版本)需要256个自回归步骤才能达到2.67的FID,NTM以少得多的步骤取得了非常接近的结果。这组实验的特别之处在于,NTM完全依赖精确的负对数似然训练,没有使用任何对抗损失或感知损失,证明了单纯的精确概率训练就足以产生竞争力十足的生成质量。

微调设置下,NTM以FLUX.2-klein为基础,在512×512分辨率上微调后,GenEval得分达到0.76,DPG-Bench达到83.38分。这一结果略低于从零训练版本在GenEval上的表现,研究者指出,位置关系和颜色属性绑定等子任务在当前微调阶段仍有提升空间,可能需要更长时间的训练或更强的预训练骨干网络。消融实验还表明,使用T=4步的微调设置在质量与速度之间取得了最佳平衡,T=8和T=16虽然在细节保留上有所提升,但推理速度相应降低。

七、当NTM只走一步时为什么会失败,以及这说明了什么

研究团队在论文的讨论部分坦诚地分析了NTM的局限性。

当把步数压缩到T=1时,NTM的生成质量会严重退化,产生模糊扭曲的图像。研究者指出,这不是训练上的问题,而是一个根本性的容量瓶颈:单步设置下,整个数据分布的非高斯结构必须完全由轻量的变换器独自承担,而预测器退化为单步高斯采样,提供不了任何非高斯建模能力。轻量变换器(每块4层)的表达能力远不如STARFlow的深层块(每块24层以上,加多个模块),因此单步质量远不如STARFlow。如果把变换器加深到和STARFlow相当,确实可以恢复单步质量,但推理速度又会被自回归解码拖回到STARFlow的水平,完全失去了少步骤设计的意义。

这个失败案例揭示了NTM框架内在的设计权衡空间:变换器越深、步数可以越少,但推理延迟也越高;变换器越浅、步数需要越多,但每步的解码开销越低。NTM在T=4到T=8的区间内找到了最佳平衡点:变换器足够轻以保持快速推理,步数足够少以满足实际应用需求,而多步结构又为轻量变换器分担了建模负担。这种权衡关系也为未来研究指出了方向:自适应深度变换器、沿轨迹渐进式分配容量等架构创新,有望进一步将精确似然生成推向更少的步骤乃至单步生成。

说到底,NTM做了一件看起来矛盾却又合乎逻辑的事:它用更复杂的数学工具(正则化流),换来了更简单的生成过程(更少的步骤)。

传统方法的困境在于,为了让每一步的数学假设成立,必须把整个生成过程切成很多很小的碎片。NTM则选择了另一条路:每一步都承认真实分布的复杂性,用可逆变换器把复杂问题转化为简单问题,然后在新坐标系里用精确的概率工具求解。这使得四步就足以完成五十步才能达到的质量。

对普通用户来说,这意味着未来的AI绘图工具可以变得更快——不是牺牲质量换速度,而是通过更聪明的数学框架同时做到两者。更有意义的是,NTM保留了精确计算图像概率的能力。这个看似抽象的性质,在现实中有很多潜在的应用:你可以用它来检测一张图是否是AI生成的,或者评估生成图像在某个语境下的"合理性"。这个研究最引人深思的地方或许在于:速度与精度的权衡,并非永恒的物理定律,而只是工具选择的结果。换对了工具,鱼和熊掌有时候真的可以兼得。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.08078查阅完整论文,代码也已开源在苹果官方GitHub仓库ml-starflow中。

Q&A

Q1:NTM和传统扩散模型生成图像的方式有什么根本区别?

A:传统扩散模型在每一步都假设图像变化符合钟形曲线(高斯分布),步骤少时这个假设会失效,导致图像模糊。NTM通过一个可逆变换器把图像映射到一个新坐标系,在新坐标系里钟形曲线假设精确成立,从而在数学上精确描述每一步的真实分布,四步就能达到传统方法五十步的质量。

Q2:NTM保留精确概率计算有什么实际用途?

A:精确概率意味着模型可以为任意一张图像打分,衡量它在数学上"有多像真实图像"。这个能力可以用于检测AI生成内容、过滤质量差的生成结果、以及支持测试时的自我精炼(NTM的轨迹分数去噪正是利用了这一点)。传统的蒸馏或对抗训练方法则无法提供这种精确的概率评估。

Q3:NTM在微调时为什么需要辅助损失,去掉会怎样?

A:NTM微调初期,单纯的概率损失信号不足以约束模型不偏离预训练结果,变换器和预测器会相互"推卸责任",导致训练早期迅速发散、图像质量崩溃。辅助损失强制NTM的均值预测与冻结的预训练模型保持一致,提供稳定的锚点,让变换器有机会从恒等变换出发逐步学习有意义的空间变换。实验图像显示,去掉辅助损失的微调产生的图像完全无法识别。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
暴跌65%,中年人最爱的豪车也崩了!

暴跌65%,中年人最爱的豪车也崩了!

蒋东文
2026-05-12 21:16:35
参加中美元首会谈的美方代表有哪些?

参加中美元首会谈的美方代表有哪些?

澎湃新闻
2026-05-14 11:01:50
两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

笑饮孤鸿非
2026-05-13 18:59:58
减内脏脂肪,只需死磕这3个动作,2个月腰围减掉6-8cm!

减内脏脂肪,只需死磕这3个动作,2个月腰围减掉6-8cm!

增肌减脂
2026-05-13 13:11:08
普京突然放话:泽连斯基随时可以来莫斯科,俄乌谈判味道彻底变了

普京突然放话:泽连斯基随时可以来莫斯科,俄乌谈判味道彻底变了

桂系007
2026-05-12 21:34:47
韩星自曝入行动机:被明星前女友甩后赌气出道

韩星自曝入行动机:被明星前女友甩后赌气出道

影视情报室
2026-05-13 10:07:37
印尼终于承认:镍矿加税这步棋走臭了!想拿捏中国,伤的却是自己

印尼终于承认:镍矿加税这步棋走臭了!想拿捏中国,伤的却是自己

时尚的弄潮
2026-05-14 01:10:07
1983年,陈云亲自批示:立即枪毙广东县委书记王仲,原因为何?

1983年,陈云亲自批示:立即枪毙广东县委书记王仲,原因为何?

莫地方
2026-04-20 09:30:18
三大指数全部翻绿

三大指数全部翻绿

界面新闻
2026-05-14 09:42:27
黄仁勋最后时刻登上“空军一号”释放什么信号

黄仁勋最后时刻登上“空军一号”释放什么信号

环球时报国际
2026-05-13 19:57:24
孙颖莎夺冠第一个抱住的人,不是马琳不是邱贻可,而是当陪练的她

孙颖莎夺冠第一个抱住的人,不是马琳不是邱贻可,而是当陪练的她

白面书誏
2026-05-13 17:25:06
日媒:穆帅点名日本中场守田英正,球员被纳入皇马引援名单

日媒:穆帅点名日本中场守田英正,球员被纳入皇马引援名单

懂球帝
2026-05-13 21:34:36
镍矿断供了,军舰订单来了,印尼到底想干啥!

镍矿断供了,军舰订单来了,印尼到底想干啥!

故事终将光明磊落
2026-05-13 16:54:04
魏征告老还乡,半路被山贼抢劫,他只问了一句,山贼吓得当场下跪

魏征告老还乡,半路被山贼抢劫,他只问了一句,山贼吓得当场下跪

史行途
2026-05-06 21:47:13
363万续约火箭,39岁前锋再留航天城?计划打20年,下赛季后退役

363万续约火箭,39岁前锋再留航天城?计划打20年,下赛季后退役

熊哥爱篮球
2026-05-14 03:57:00
心理学发现:99%喜欢抬杠、凡事都要争对错的人,不是本性偏执,也不是爱较真,而是没正视过自己的这两个价值感缺失

心理学发现:99%喜欢抬杠、凡事都要争对错的人,不是本性偏执,也不是爱较真,而是没正视过自己的这两个价值感缺失

心理观察局
2026-05-13 09:40:07
卫星拍下阿拉斯加海啸:比埃菲尔铁塔还高的浪,把森林洗到1587米高处

卫星拍下阿拉斯加海啸:比埃菲尔铁塔还高的浪,把森林洗到1587米高处

像素与芯片
2026-05-13 07:58:18
别只盯特朗普专机,鲁比奥还是来了,释放比访问更重要的信号

别只盯特朗普专机,鲁比奥还是来了,释放比访问更重要的信号

兰妮搞笑分享
2026-05-13 09:06:32
江苏兄妹救4名落水者后被拉黑,获救者朋友称“被救者身份不便公开”,哥哥回应:救人系自愿,不再打扰;认定见义勇为无需获救者出面

江苏兄妹救4名落水者后被拉黑,获救者朋友称“被救者身份不便公开”,哥哥回应:救人系自愿,不再打扰;认定见义勇为无需获救者出面

极目新闻
2026-05-14 08:25:33
特朗普访华没带夫人,没给出具体原因!估计是她本人不愿随叫随到

特朗普访华没带夫人,没给出具体原因!估计是她本人不愿随叫随到

魔都姐姐杂谈
2026-05-13 21:49:17
2026-05-14 11:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8339文章数 563关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

牛弹琴:韩国两大巨头双双爆赚上万亿 但大麻烦也来了

头条要闻

牛弹琴:韩国两大巨头双双爆赚上万亿 但大麻烦也来了

体育要闻

国内双冠王,国米第三次同一赛季夺得意甲和意杯冠军

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

家居
教育
亲子
数码
军事航空

家居要闻

内在自叙,无域有方

教育要闻

在山东,多少分可以上本科、211、985大学~

亲子要闻

笑裂了!父母缺点同时遗传给孩子会怎样?网友:遇事就躺床上急!

数码要闻

佰维京东JOY联名BJ100 microSD存储卡开售,49.9元起

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版