网易首页 > 网易号 > 正文 申请入驻

SANA-Sprint:连续时间一致性蒸馏的单步扩散模型,0.1生成图像

0
分享至

扩散模型已成为现代文本到图像 (T2I) 生成技术的核心,能够生成高质量图像,但其迭代式推理过程导致生成速度缓慢。多数模型通常需要20–50 个去噪步骤,这严重制约了其在实时应用中的部署。

现有的蒸馏技术旨在加速扩散模型的采样过程,然而,这些方法往往会引入稳定性问题,在极低步数下出现质量下降,并可能导致显著的内存需求

Nvidia 提出的 SANA-Sprint 是一种混合蒸馏框架,它整合了连续时间一致性模型 (sCM)潜在对抗扩散蒸馏 (LADD),旨在实现以下目标:

  • 无步训练,并支持灵活的1–4 步推理
  • 卓越的速度与质量平衡,单步推理即可达到FID 7.59GenEval 0.74的指标。
  • 在 H100 GPU 上实现 0.1 秒生成 1024×1024 图像,速度比FLUX-Schnell 快 10 倍,同时保持更高图像质量。

本文将深入探讨 SANA-Sprint 实现上述性能的技术原理。

传统蒸馏方法在超低步数推理中的局限性

扩散模型依赖于随机微分方程 (SDE) 或常微分方程 (ODE)进行图像生成,该过程通常需要多个步骤。尽管存在多种步数缩减技术,但每种方法都存在其固有的局限性:

  • 基于 GAN 的蒸馏方法(例如,LADD)可以加速推理过程,但容易遭受模式崩溃泛化能力不足的问题。
  • 一致性模型 (CM)能够实现快速采样,但在超低步数 (少于 4 步)的情况下,由于轨迹截断误差,语义对齐性能会显著下降
  • 变分分数蒸馏 (VSD)需要额外训练辅助扩散模型,这会显著增加GPU 内存占用和计算开销

SANA-Sprint 通过整合 sCM 和 LADD 到统一框架中,克服了上述挑战,从而在确保快速推理的同时,实现了高图像质量

基于无训练一致性变换的预训练模型重用

扩散模型通常采用流匹配基于分数的学习方法进行训练,而一致性模型 (CM)则基于TrigFlow 参数化。为了实现无需重新训练的快速蒸馏,SANA-Sprint 引入了一种数学变换,可以将预训练的流匹配模型转化为 TrigFlow 模型

该变换确保了以下关键特性:

  • 时域映射的无缝衔接:实现了从流匹配模型的 [0,1] 区间TrigFlow 模型的 [0, π/2] 区间的平滑转换。
  • 信噪比 (SNR) 的一致性:在模型适配过程中,保持了信噪比的稳定,确保图像保真度。
  • 模型输出的正确参数化:保证了转换后模型输出的速度场与 TrigFlow 框架的公式保持一致。

通过上述变换,预训练模型可以直接应用于 SANA-Sprint 框架,无需额外的重新训练,从而显著提升了效率。

解决大规模一致性模型训练不稳定性问题

将一致性模型扩展到更高分辨率和更大模型规模时,常常会面临训练不稳定性的挑战,这主要是由于梯度爆炸现象引起的。SANA-Sprint 通过以下两项关键技术来稳定训练过程:

密集时间嵌入以抑制梯度爆炸

  • 传统扩散模型通常使用乘法因子(例如,1000 * t)来缩放时间嵌入,这种方法会放大时间导数梯度,容易导致训练崩溃。
  • SANA-Sprint 采用归一化时间嵌入方法,确保时间步长表示的均匀分布,从而有效提升训练稳定性和样本质量
  • 这种方法使得模型能够更快收敛,并生成更清晰锐利的图像

QK 归一化实现稳定的自注意力和交叉注意力机制

  • 随着模型规模的扩大 (参数量从 0.6B 增至 1.6B),梯度范数变得不稳定 (>¹⁰³),导致训练失败。
  • SANA-Sprint 在注意力层的 Query 和 Key (QK) 组件中引入 RMS 归一化,在不改变模型架构的前提下,有效稳定了梯度。
  • 仅需5,000 次微调迭代,即可显著降低训练不稳定性,从而为大规模扩散模型的稳定蒸馏奠定基础。

结合一致性模型与对抗监督

传统一致性模型主要依赖局部轨迹学习,这导致其收敛速度较慢,并且在单步生成中容易丢失细节信息。SANA-Sprint 通过引入基于 GAN 的对抗监督机制 (LADD)(Latent Adversarial Diffusion Distillation),对一致性模型进行了增强:

  • 使用冻结的教师模型提取高层潜在空间表征,以强制模型学习数据分布的一致性。
  • 引入多头判别器学习特征层面的差异,避免了像素空间直接比对可能导致的问题。
  • 采用铰链损失函数,提升了训练稳定性和生成样本的真实感

该技术显著提升了单步图像生成质量,有效保留了传统一致性模型难以捕捉的高频细节

评估与结果

SANA-Sprint 在速度和质量方面均达到了新的技术水平。相较于 FLUX-Schnell,SANA-Sprint 的推理速度提升了 10 倍,同时能够生成更高质量的图像。在单步推理下,SANA-Sprint 取得了7.59 的 FID 值和 0.74 的 GenEval 值,性能超越了需要多步推理的模型。即使在RTX 4090 等消费级 GPU上,SANA-Sprint 也能在0.31 秒内生成 1024×1024 像素的图像,使得高质量 AI 图像生成技术更加普及。在H100 GPU上,文本到图像生成仅需0.1 秒,ControlNet 任务耗时0.25 秒,实现了近乎实时的视觉反馈。

总结

与需要20 步以上的传统扩散模型不同,SANA-Sprint 仅需1-4 步即可生成高质量图像,且无需额外的训练过程。单步推理速度极快,非常适合实时应用场景。两步生成能够在保证速度 (低于 0.25 秒)的前提下,有效提升图像细节。四步生成则在质量和效率之间实现了最佳平衡

该论文在数学原理上具有一定的复杂性,但其技术方案堪称杰出非常值得深入阅读和研究。SANA-Sprint 的工作有望推动Flow Matching DiT 模型的下游优化,进而实现更快、更低成本的图像生成。

蒸馏推理技术的进步,使得高质量图像生成技术更加普惠化。

https://avoid.overfit.cn/post/c9690cdfa56046e7833462825ef93352

作者:Pietro Bolcato

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
维多利亚「臭脸瞪媳妇」影片疯传! 她杀人眼神超恐怖:气氛尴尬

维多利亚「臭脸瞪媳妇」影片疯传! 她杀人眼神超恐怖:气氛尴尬

ETtoday星光云
2026-01-21 13:30:16
日本!大崩盘开始了!

日本!大崩盘开始了!

大嘴说天下
2026-01-22 04:30:03
马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

现代小青青慕慕
2026-01-22 00:25:08
珍妮回应ESPN爆料:湖人不感激詹姆斯付出绝非事实 对他极度不公

珍妮回应ESPN爆料:湖人不感激詹姆斯付出绝非事实 对他极度不公

罗说NBA
2026-01-22 06:59:25
一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

半解智士
2026-01-20 18:03:00
嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

古希腊掌管月桂的神
2026-01-21 15:21:20
事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

李橑在北漂
2026-01-21 22:26:50
吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

磊子讲史
2026-01-06 11:48:34
猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

小徐讲八卦
2026-01-21 08:19:44
伊朗官媒:3117人在近期骚乱事件中死亡

伊朗官媒:3117人在近期骚乱事件中死亡

澎湃新闻
2026-01-22 02:39:03
安徽省山潜山市公安局黄柏派出所原教导员吴长锋被“双开”

安徽省山潜山市公安局黄柏派出所原教导员吴长锋被“双开”

潇湘晨报
2026-01-21 22:00:14
女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

社会日日鲜
2026-01-22 00:48:44
难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

火山诗话
2026-01-21 06:07:03
石楼已有多人接个电话钱就被转走

石楼已有多人接个电话钱就被转走

黄河新闻网吕梁频道
2026-01-21 09:39:02
中国驻吉达总领馆:U23亚洲杯决赛“中国人免票”为不实信息

中国驻吉达总领馆:U23亚洲杯决赛“中国人免票”为不实信息

新华社
2026-01-21 23:39:10
欧盟拟强制淘汰“高风险供应商”设备 华为回应

欧盟拟强制淘汰“高风险供应商”设备 华为回应

21世纪经济报道
2026-01-22 10:18:36
打虎!张建龙被查

打虎!张建龙被查

新京报政事儿
2026-01-22 09:10:16
内卷终局见真章:丰田178万+逆势增长,彰显长期主义价值

内卷终局见真章:丰田178万+逆势增长,彰显长期主义价值

功夫AUTO
2026-01-20 21:52:35
中方重申:日本根本没有资格要求“入常”

中方重申:日本根本没有资格要求“入常”

海外网
2026-01-22 07:06:04
人民日报再发声:回看罗永浩、贾国龙之争,网络平台有不嫌事大、甚至放大不良舆论的“流量心态”;要守住底线,决不能触碰红线!

人民日报再发声:回看罗永浩、贾国龙之争,网络平台有不嫌事大、甚至放大不良舆论的“流量心态”;要守住底线,决不能触碰红线!

大象新闻
2026-01-21 19:45:04
2026-01-22 11:03:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1897文章数 1443关注度
往期回顾 全部

科技要闻

日系彩电时代“彻底落幕”

头条要闻

张建龙被查 曾回应"三北防护林挡风是否导致雾霾加重"

头条要闻

张建龙被查 曾回应"三北防护林挡风是否导致雾霾加重"

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

股东资格确权存纠纷 前总裁状告申通快递

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

教育
时尚
亲子
健康
军事航空

教育要闻

泪目!云南4年级女孩穿着单衣上学,老师暖心出手,爱心传递

缔造仙女梦的人,去了天堂继续缝制星光✨

亲子要闻

我没挨收拾给他气够呛

打工人年终总结!健康通关=赢麻了

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版