网易首页 > 网易号 > 正文 申请入驻

南开大学与阿里联合攻关:让AI画图从"百步成图"变成"四步出图"

0
分享至


这项由南开大学、阿里巴巴集团和吉林大学联合完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.06376。有兴趣深入了解技术细节的读者,可以通过该编号在arXiv平台查阅完整论文,或访问项目主页及GitHub代码仓库获取更多资料。

以烹饪来打比方:现在最顶尖的AI画图模型,就像一位精益求精的大厨,每次下厨都要经历几十甚至上百道工序,反复翻炒、调味、摆盘,才能端出一道色香味俱全的菜肴。这种精工细作固然出色,但在实际使用中,每次"下单"都要等上半天,显然不够实用。于是,研究者们开始思考:能否培训出一批"速成厨师",用仅仅四道工序就端出同样美味的佳肴?这就是所谓的"扩散模型蒸馏"——把一个慢模型的本领,压缩传授给一个快模型。

然而,现有的速成方案普遍存在一个令人头疼的问题:端出来的菜,总是过于平淡,细节模糊,像是用大锅快炒出来的大众食堂风格,缺少原来大厨作品里那种层次分明的口感和精细的摆盘。研究团队通过深入分析,找到了症结所在,并提出了一套名为"连续时间分布匹配"(CDM,Continuous-Time Distribution Matching)的全新方案,在不借助任何额外"提鲜剂"(GAN对抗网络或奖励模型)的情况下,让四步速成的图像质量实现了显著跃升。

一、为什么"速成厨师"总是做不出细节?

要理解这个问题,先得明白AI画图的基本逻辑。扩散模型的工作方式,就像把一幅清晰的画逐步加上噪点,直到变成一片雪花屏,然后再训练模型把这个过程倒过来——从雪花屏一步步还原出清晰的画。这个从噪点到清晰图像的"还原之路",通常需要走上几十到一百步。

现在有一种主流的"蒸馏"思路叫做分布匹配蒸馏(DMD),核心做法是:让速成学生模型产生的图像,其整体分布要尽量贴近老师模型产生的图像分布。但问题在于,已有的DMD方法有一个根深蒂固的习惯——它们会严格规定学生在训练时只能在几个固定的时间节点上练习,比如第1步、第3步、第5步、第7步,完全对应推理时要走的那几步,中间的所有时刻全部跳过,就好比培训厨师时只让他练习第一刀切菜、第三次翻炒、第五次调味,中间大量的操作细节全部略去不练。

这种"离散锚点"训练方式带来两个明显弊端。其一,学生只在几个孤立的时刻接受监督,相当于只是零散地"打了几个卡",没有办法形成流畅连贯的操作手感,导致生成的速度场不够平滑;其二,DMD本身采用的是一种叫做"反向KL散度"的优化目标,这种目标天生偏向于只模仿老师最拿手的那几种"招牌菜",容易忽视更丰富的多样性,最终导致生成的图像过于平滑,缺乏细节,甚至出现明显的视觉瑕疵。为了弥补这些缺陷,已有方法往往需要额外引入对抗网络(GAN)或者外部奖励模型来"打补丁",这不仅增加了系统的复杂度,也带来了更高的训练成本。

二、一个意外发现:打卡时间其实不用那么死板

研究团队做了一个很直觉上简单、但结论却出人意料的实验。他们把原本固定在四个离散时间节点的训练,改成在整个时间轴上随机采样——每次训练迭代,随机选一个时间点,随机选一段模拟长度,不再死守原来的固定节点。

实验结果显示,这个看似微不足道的改动,不仅没有损害模型性能,反而带来了一致性的提升:在HPSv3这项评估人类偏好的指标上,动态调度版本从10.08提升到了10.65,同时生成的图像细节更丰富,视觉瑕疵也更少。这个发现直接推翻了长期以来"训练时间节点必须与推理时间节点严格对齐"的默认假设,说明分布匹配的效果与具体使用哪几个固定节点无关,严格的离散对齐反而是一种多余的限制。

从数学层面来看,这个做法的合理性在于:当学生模型的时间节点和老师模型的扰动时间步都从同一个连续分布中独立采样时,两者在期望意义上会均匀地覆盖整个时间域,而不是只在几个固定位置产生梯度信号。这就好比培训厨师时,不是只让他练习第1分钟、第3分钟、第5分钟的操作,而是随机抽查任意时刻,这样练出来的厨师对整个烹饪流程的掌握会更全面、更扎实。

三、另一个关键发现:分布匹配损失究竟在做什么?

在充分理解动态调度的优势之后,研究团队还发现了另一个被长期误解的问题。此前有研究认为,DMD的训练目标可以拆分为两个独立部分:一个"CFG增强"(CA)损失负责让图像与文字描述对齐,而分布匹配(DM)损失只是一个辅助稳定训练、减少瑕疵的"调味料",本身并不承担核心功能。

然而,研究团队用视觉和数量两方面的证据推翻了这个判断。他们训练了一批只用DM损失、不用CA损失的学生模型,然后把这些学生的输出与老师模型在开启和关闭CFG(分类器无关引导,一种让图像更贴合文字的技术)时的输出做比较。结果非常清晰:只用DM损失蒸馏出来的学生,产生的图像与老师在**不开启CFG**时的输出高度相似,无论是视觉风格还是各项量化指标都几乎一一对应。这个现象在SD3-Medium和Longcat-Image两个不同的基础模型上都得到了复现。

这意味着,DM损失并不是一个无关紧要的辅助项,它实际上是在驱动学生模型学习老师在"无引导状态"下的自然分布——一种未经CFG放大、更接近原始数据分布的输出。理解这一点非常关键,因为它说明了DM损失有其确定的、独立的功能定位,而不仅仅是一个稳定器。在整个CDM框架的设计中,CA损失和DM损失各司其职:CA负责把图像往正确的文字描述方向推,DM负责维持图像的真实感和分布一致性,两者缺一不可。

四、CDM框架的核心设计:连续时间里的"离线纠偏"

基于上述两个发现,研究团队设计了CDM框架的两个核心组件。

第一个组件是动态连续时间调度策略。在每次训练迭代时,模拟的推理步数N不再固定,而是从1到最大值(Nmax,实验中设为28)之间随机采样;时间节点也不再是固定的几个离散值,而是在整个连续区间(0, 1]上随机生成一组严格递减的序列。这样,学生模型在不同训练轮次中会接触到长短不一、位置各异的轨迹片段,相当于用各种不同的切菜方式和烹饪节奏反复练习,而不是机械重复同一套固定动作。

第二个组件是CDM损失,这也是整个框架最具创意的部分,用来解决"离轨漂移"问题。

这里需要解释一下什么是"离轨漂移"。当速成学生模型用很少的步数走完从噪声到清晰图像的路程时,每一步的跨度都很大。就像在山路上开车,如果每个弯道都要一脚油门跨过去,而不是缓缓地沿着弯道行驶,车就很容易冲出道路——这就是"离轨"。数学上可以证明,每一步Euler积分(一种常见的数值积分方法)引入的局部误差与步长的平方成正比,累积下来的全局误差则与最大步长成正比,而这个误差的大小还取决于速度场(模型预测的"行进方向")在相邻时刻之间的变化有多剧烈。

为了压制这种离轨漂移,CDM损失设计了一种"主动探测"机制。做法如下:在某个时间节点ti处,取出轨迹上的当前状态xti,用学生模型预测此刻的速度方向,然后沿着这个方向走一小步,到达一个新的位置xt'i——这个位置并不在原来的模拟轨迹上,而是通过一阶Euler外推得到的"离轨点"。接下来,把这个离轨点输入学生模型,得到学生对"从这里出发应该到达哪里"的预测;再把这个预测加上随机噪声,让冻结的老师模型和在线更新的"仿冒老师"分别给出评分,并计算两者的差异作为监督信号,反向传播更新学生模型。

这个设计背后的物理直觉是:如果学生在轨迹上某个点预测的速度方向有偏差,那么沿着这个错误方向走一步后,到达的位置就会偏离理想轨迹。CDM损失通过在这个偏离位置施加额外监督,相当于告诉学生:"你走偏了,请纠正。"更重要的是,从数学上可以推导出,这种在相邻两点上同时施加约束的做法,实际上是在约束速度场的"物质导数"(即速度随时间和空间的综合变化率),而这正是局部截断误差中唯一可以通过训练来控制的量。因此,CDM损失通过模仿老师模型的速度场变化率,把老师那种平滑流畅的"行车风格"迁移给了学生。

整个训练目标就是这三部分损失的加和:CA损失加上DM损失再加上CDM损失,三者权重相等。

五、实验结果:数字和画面都说话

研究团队在两个不同规格的基础模型上进行了大量实验,分别是Stability AI的SD3-Medium和美团的Longcat-Image,两者都在1024×1024的高分辨率下运行。评测指标覆盖了美学评分(AES)、提示词遵从度(DPGBench)、人类偏好评分(PickScore和HPSv3)、语义对齐(CLIPScore)等多个维度。

在SD3-Medium上,CDM在4步推理的条件下,拿到了所有对比方法中最高的美学评分(6.075)、DPGBench得分(85.26)、PickScore(21.95)和HPSv3(9.561),同时CLIPScore也处于竞争力水平。与最接近的无图像对比基准D-DMD相比,CDM在HPSv3上从9.176提升到了9.561,提升幅度显著。特别值得一提的是,CDM的4步学生模型在DPGBench和HPSv3两项指标上已经超越了需要走100步的原始老师模型——这意味着蒸馏过程并不只是复制老师,而是在某些维度上实现了超越。

在Longcat-Image上,同样的趋势得到复现:CDM在美学、DPGBench、PickScore、HPSv3四项指标上均排名第一,HPSv3更是从D-DMD的9.629大幅跃升至10.65。

与此同时,研究团队还额外测试了OCR文字渲染准确率(使用PaddleOCR在1K个包含文字的提示上评估)和FID(衡量生成分布与真实数据分布之间的距离,使用COCO 2014验证集的10K张图像评估)。CDM在FID上以30.30排名第一,在OCR上以34.82排名第二(略低于固定调度版本的37.33)。

在效率方面,CDM的训练时间约为D-DMD的1.8倍,显存占用从62.2GB略增至62.5GB,基本持平。但这些额外的训练开销完全限于训练阶段——推理时,CDM与D-DMD使用相同的网络结构和相同的步数,每张图的生成时间同样是246毫秒,没有任何额外负担。

六、消融实验:每个设计决策都有它的理由

为了验证每个设计组件的必要性,研究团队做了系统的消融分析。

首先是损失函数的组合实验。单独使用CA损失会导致结构崩溃,图像完全失控;单独使用DM损失或CDM损失虽然能恢复视觉质量,但文字对齐能力明显不足,CLIPScore大幅下滑;CA与任意一种分布匹配损失配合使用,效果就显著提升;而三者全部组合的完整目标,在所有指标上都达到最优,HPSv3峰值9.561。这证明三个损失组件在功能上互补,缺少任何一个都会有明显代价。

其次是核心机制的细节对比。把动态连续调度换回固定离散调度后,HPSv3从9.561下降到9.482,各项指标均有不同程度下滑,直接验证了连续调度的增益。把速度场驱动的外推替换为高斯噪声扰动(先预测出干净图像,再重新加噪),或者完全不做任何扰动直接在原轨迹点施加监督,性能均有所下降——说明模拟真实推理偏差的速度外推,比简单的噪声扰动更能捕捉到真正有意义的离轨状态。把CDM损失中用于监督的参考目标从"局部估计"(在离轨点处预测的干净图像)换成"全局估计"(完整推理路径末端的图像),同样会带来性能下滑,证明了局部化的监督信号比全局信号在误差纠正上更直接有效。

七、模型的灵活性:训练时定4步,用的时候可以不止4步

CDM还展示了一个颇具实用价值的特性:虽然学生模型以4步为目标进行蒸馏,但由于训练过程覆盖了连续的时间域,生成的速度场更加平滑,学生模型在推理时可以灵活地使用3步、4步、6步或8步,无需针对不同步数重新训练或调整参数。

研究团队用同一个CDM检查点分别生成了NFE为3、4、6、8的图像,使用完全相同的提示词和随机种子。结果显示,模型在整个范围内都能产生连贯的、与提示词对应的图像,步数越多则细节越精细。这种灵活性来源于两个设计:动态调度让学生在训练中接触过各种长度的轨迹,CDM损失则约束了速度场的物质导数,使得每步积分的误差更小,因此少几步或多几步都不会导致模型失控。

八、研究的边界与未来方向

研究团队也坦诚地指出了CDM目前存在的局限性。训练成本增加约1.8倍,这对于大规模工业应用来说是一个需要权衡的因素。CDM作为蒸馏框架,天花板由老师模型决定——如果老师模型本身对某些概念或构图的理解存在缺陷,学生也难以通过蒸馏弥补。此外,目前的实验仅限于文本生成图像的场景,研究团队表示后续希望将CDM扩展到文图混合编辑和视频扩散模型,后者在时序一致性方面会带来新的挑战。

说到底,CDM这项工作的核心贡献在于一个思维方式的转变:与其把训练严格锁死在与推理对应的几个固定时刻,不如让监督信号均匀地覆盖整条时间轴,同时主动去探测和纠正推理过程中真正会遇到的那种偏离。两个关键发现——调度可以解耦、DM损失是在学习无引导分布——为这套设计提供了清晰的理论支撑,而实验数据也反复证实,这两个方向的改进是真实有效的,而不是刷指标的技巧。对于所有需要在速度和质量之间做权衡的生成模型应用来说,CDM提供了一个不依赖复杂外部模块、可以相对低成本复现的参考方案。有兴趣深入了解的读者,可以通过arXiv:2605.06376查阅完整论文,项目代码也已在GitHub上公开。

Q&A

Q1:CDM蒸馏方法和普通的扩散模型蒸馏有什么本质区别?

A:普通的DMD蒸馏方法在训练时,只在与推理步数完全对应的几个固定时间节点施加监督,中间时刻全部跳过。CDM打破了这个限制,改为在整个连续时间轴上随机采样训练节点,同时新增了一个"离轨点"监督机制:沿着学生预测的速度方向走一步到一个偏离轨迹的位置,在那里额外施加约束,直接压制推理时因大步长积分产生的误差积累。

Q2:CDM为什么不需要GAN或奖励模型就能生成高质量图像?

A:以往方法在只用分布匹配训练时,因为离散锚点稀疏、模式单一,容易产生过度平滑和视觉瑕疵,所以需要引入GAN或奖励模型来"补救"。CDM通过连续时间调度让监督更密集均匀,通过CDM损失的离轨约束让速度场更平滑,从根本上减少了积累误差和瑕疵的产生,因此不需要额外的对抗训练或外部奖励信号就能达到较好的视觉效果。

Q3:CDM蒸馏出来的4步模型在实际使用中能否灵活调整推理步数?

A:可以。由于动态连续调度让学生在训练时接触过各种长度的轨迹,加上CDM损失约束了速度场的连续变化率,同一个CDM检查点在推理时可以使用3步、4步、6步或8步,无需重新训练或额外调参。步数越多,生成的图像细节越精细,但即使只走3步,图像依然连贯且与提示词对应。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《放羊的星星》男演员李威卷入精舍杀人案,被判1年10个月有期徒刑,缓刑5年

《放羊的星星》男演员李威卷入精舍杀人案,被判1年10个月有期徒刑,缓刑5年

蓬勃新闻
2026-05-12 13:02:22
贵州20岁女子因腹痛就医才发现自己怀孕且胎儿已足月,当天平安分娩5斤多女儿;当事人:以为只是月经不调,误将胎动当做正常肠胃蠕动

贵州20岁女子因腹痛就医才发现自己怀孕且胎儿已足月,当天平安分娩5斤多女儿;当事人:以为只是月经不调,误将胎动当做正常肠胃蠕动

台州交通广播
2026-05-11 14:48:35
东契奇官方声明:今夏将与前女友争女儿抚养权 不会参加世预赛

东契奇官方声明:今夏将与前女友争女儿抚养权 不会参加世预赛

醉卧浮生
2026-05-12 14:06:08
疫情向十多国扩散?美国放走汉坦病毒感染者,开始给全世界埋雷?

疫情向十多国扩散?美国放走汉坦病毒感染者,开始给全世界埋雷?

明天见灌装冰块
2026-05-12 21:10:57
体坛震动:中国拒付7倍收视价,FIFA紧急访华

体坛震动:中国拒付7倍收视价,FIFA紧急访华

各生欢喜者
2026-05-12 23:21:22
光明网评论员:摆渡车,不该是景区的钱袋子

光明网评论员:摆渡车,不该是景区的钱袋子

澎湃新闻
2026-05-12 22:24:15
自称持股14万股东替儿子向上市公司求职,沧州明珠:可跟公司联系看有无合适岗位

自称持股14万股东替儿子向上市公司求职,沧州明珠:可跟公司联系看有无合适岗位

红星新闻
2026-05-12 12:07:23
出乎意料!特朗普原定访华计划作废,中方官宣,特意增加停留时间

出乎意料!特朗普原定访华计划作废,中方官宣,特意增加停留时间

黑鹰观军事
2026-05-11 16:30:09
中央定调,2026养老金调整可能性大,月入8000以上涨幅不到1.5%?

中央定调,2026养老金调整可能性大,月入8000以上涨幅不到1.5%?

王五说说看
2026-05-12 06:53:24
人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

细说职场
2026-05-10 10:34:41
心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理观察局
2026-05-12 09:06:23
市民在上海街边看到“好东西”售价仅35元,最后竟被迫支付了8700!还是假货!果断报警

市民在上海街边看到“好东西”售价仅35元,最后竟被迫支付了8700!还是假货!果断报警

环球网资讯
2026-05-12 14:30:58
杨受成“霸占”容祖儿半生:不娶也不放,她到底图什么?

杨受成“霸占”容祖儿半生:不娶也不放,她到底图什么?

橙星文娱
2026-05-12 15:17:44
性感小黑裙:它不张扬,但它是你的底气

性感小黑裙:它不张扬,但它是你的底气

疾跑的小蜗牛
2026-05-12 22:59:59
揭秘:在开国将军中,让彭老总最欣赏的十位将军,分别都是谁?

揭秘:在开国将军中,让彭老总最欣赏的十位将军,分别都是谁?

史之铭
2026-05-12 20:39:14
伊朗紧急辟谣

伊朗紧急辟谣

陆弃
2026-05-10 09:28:48
郑丽文遭当头一棒,中方严正通告,对岸不准参会,傅崐萁临阵倒戈

郑丽文遭当头一棒,中方严正通告,对岸不准参会,傅崐萁临阵倒戈

林子说事
2026-05-12 19:15:50
刘嘉玲默许梁朝伟在岛国养私生子 !?

刘嘉玲默许梁朝伟在岛国养私生子 !?

八卦疯叔
2026-05-12 10:10:13
彻底撕破脸!央视硬刚天价转播费后,资本报复手段简直不堪入目

彻底撕破脸!央视硬刚天价转播费后,资本报复手段简直不堪入目

微风轻拂面
2026-05-12 01:32:22
美股异动|半导体股回调,高通大跌超8%,三倍做空半导体ETF-Direxion涨超9%

美股异动|半导体股回调,高通大跌超8%,三倍做空半导体ETF-Direxion涨超9%

和讯网
2026-05-12 23:09:03
2026-05-13 00:04:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8320文章数 563关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

头条要闻

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

亲子
教育
手机
房产
军事航空

亲子要闻

dhea什么时候吃最好时间?卵巢早衰做试管成功率高吗?

教育要闻

“5块钱能吃啥早餐?”小学儿子索要20元早餐费,家长却翻出烟盒

手机要闻

小米18工程机曝光:2nm芯、双扬、大X轴马达,终不用妥协了

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版