网易首页 > 网易号 > 正文 申请入驻

南洋理工&普渡大学提出CFG-Zero⋆:在Flow Matching模型中实现更稳健的无分类器引导方法

0
分享至

随着生成式AI的发展,文本生成图像与视频的扩散模型(Diffusion Models)成为计算机视觉的研究热点。近年来,Flow Matching以更强的可解释性和更快的收敛速度,逐渐替代基于SDE的传统扩散方法,成为主流模型(如

Lumina-Next、Stable Diffusion 3/3.5、Wan2.1)的核心方案。

但在生成过程中,如何更有效地引导模型输出仍是难点。当前主流的Classifier-Free Guidance(CFG)虽被广泛使用,但在训练不足或估计误差较大时,容易引发偏差、伪影或结构坍塌。

为此,南洋理工大学S-Lab与普渡大学提出CFG-Zero⋆,从理论上分析了CFG在Flow Matching框架下的结构性误差,并设计了两项轻量级改进方案,显著提升了生成质量、文本对齐性与稳定性。

论文标题: CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models 论文链接: https://arxiv.org/abs/2503.18886 代码链接: https://github.com/WeichenFan/CFG-Zero-star 项目主页: https://weichenfan.github.io/webpage-cfg-zero-star/

随着生成式AI的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。近年来,Flow Matching作为一种更具可解释性、收敛速度更快的生成范式,正在逐步取代传统的基于随机微分方程(SDE)的扩散方法,成为主流模型(如Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等)中的核心方案。

然而,在这一技术迭代过程中,一个关键问题依然存在:如何在推理阶段更好地引导生成过程,使模型输出更加符合用户提供的文本描述。Classifier-Free Guidance(CFG)是当前广泛采用的引导策略,但其引导路径在模型尚未充分训练或估计误差较大时,容易导致样本偏离真实分布,甚至引入不必要的伪影或结构崩塌。

对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。

一、研究动机:CFG为何失效?

传统的CFG策略通过对有条件与无条件预测结果进行插值来实现引导。然而在Flow Matching模型中,推理过程是通过解常微分方程(ODE)进行的,其每一步依赖于前一步的速度估计。当模型训练不足时,初始阶段的速度往往较为不准确,而CFG此时的引导反而会将样本推向错误轨迹。研究者在高斯混合分布的可控实验中发现,CFG在初始步的引导效果甚至不如“静止不动”,即设速度为0。

二、方法介绍

研究者提出了CFG-Zero⋆,并引入以下两项关键创新:

  1. 优化缩放因子(Optimized Scale):在每个时间步中动态计算有条件速度与无条件速度的内积比值,从而调整CFG中无条件项的强度,避免“过度引导”导致的误差。

  2. 零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。

这两项策略可无缝集成至现有的CFG推理流程中,几乎不引入额外计算开销。下面我们具体介绍该方法的细节:

1. 优化缩放因子:

首先CFG的目标是能够估计出一个修正的速度,能够尽可能的接近真实速度:

为了提升引导的精度,研究者引入了一个修正因子s:

基于此可以建立优化的目标:

代入化简可以得到:

求解最优值为:

因此新的CFG形式为:

2. 零初始化:

研究者在2D多元高斯分布上进行进一步定量分析,可以求解得到扩散过程中每一步的最优速度的closed-form:

基于此他们在训练了一个模型,并分析训练不同轮数下模型的误差,如下图所示。

研究者发现在训练早期阶段,无分类引导得到的速度误差较大,甚至不如将速度设置为0:

他们进一步在高纬情况下验证了这一观察,如下图所示。

研究者对比原始CFG,与仅使用零初始化的CFG,发现随着模型的收敛,零初始化的收益逐渐变小,在160轮训练后出现拐点,与多元高斯实验结果吻合。

三、实验结果

研究者在多个任务与主流模型上验证了CFG-Zero⋆的有效性,涵盖了文本生成图像(Text-to-Image)与文本生成视频(Text-to-Video)两大方向。在图像生成任务中,研究团队选用了Lumina-Next、SD3、SD3.5、Flux等当前SOTA模型进行对比实验,结果显示CFG-Zero⋆在Aesthetic Score与CLIP Score两项核心指标上均优于原始CFG。

例如在Stable Diffusion 3.5上,美学分有明显提高,不仅图像美感更强,而且语义一致性更好。在T2I-CompBench评测中,CFG-Zero⋆在色彩、纹理、形状等多个维度均取得更优表现,特别适用于需要精准表达复杂语义的生成任务。

在视频生成任务中,研究者将CFG-Zero⋆集成到Wan2.1模型中,评估标准采用VBench基准套件。结果表明,改进后的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升,呈现出更连贯、结构更稳定的视频内容。CFG-Zero⋆有效减少了图像跳变与不自然的位移问题。

四、实际测试

CFG-Zero⋆在开源社区中实现了快速落地。目前,该方法已正式集成至ComfyUI与Diffusers官方库,并被纳入视频生成模型Wan2.1GP的推理流程。借助这些集成,普通开发者与创作者也能轻松体验该方法带来的画质与文本对齐提升。

该方法可以用于图生视频,我们使用官方的repo用这张测试图:

输入prompt:

得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。

该方法对wan2.1 文生视频同样适用:(图1为原始CFG,图2为CFG-Zero*)

使用的Prompt: " A cat walks on the grass, realistic."

该方法同时兼容LoRA:

使用的LoRA为:

https://civitai.com/models/46080?modelVersionId=1473682

该方法对最强文生图模型Flux同样支持:

该方法实现也比较简单,作者在附录中直接附上了代码,如下图:

六、总结

该工作在几乎不引入额外计算量的情况下,提出了一种更好的无分类器引导范式,对所有的流匹配模型都适用,是一种“无痛”涨点方法。从视觉效果来看,优化缩放因子会提升图片/视频很多细节,但是不会修正语义信息,零初始化会对整体有比较大的修改,让图片更自然,视频的运动更合理与流畅。但目前该方法只适用于流匹配模型,如何将该方法泛化至其他类型的扩散模型可能是比较有价值的研究方向。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯清纯花魁,葡萄牙太太团新宠,比乔治娜还吸睛笑容好甜

世界杯清纯花魁,葡萄牙太太团新宠,比乔治娜还吸睛笑容好甜

疯狂的豆芽
2026-06-29 13:01:51
公安部172号令落地,69岁C1、C2车主不用额外提交体检证明

公安部172号令落地,69岁C1、C2车主不用额外提交体检证明

沙雕小琳琳
2026-06-30 01:55:15
日本今年大学生就业率98%,月薪30万,历史第二高

日本今年大学生就业率98%,月薪30万,历史第二高

难得君
2026-06-29 12:03:48
俄乌局势逆转,俄罗斯犯下严重战略错误!

俄乌局势逆转,俄罗斯犯下严重战略错误!

一个坏土豆
2026-06-28 19:14:03
A股:要开始了,大家做好准备!明天(6月30日)的市场会这样走

A股:要开始了,大家做好准备!明天(6月30日)的市场会这样走

风风顺
2026-06-30 01:00:07
中国最“穷”的6个铁饭碗行业:表面体面风光,实际工资低到想哭

中国最“穷”的6个铁饭碗行业:表面体面风光,实际工资低到想哭

一口娱乐
2026-06-28 15:10:19
男女的性压抑已经恐怖如斯了?

男女的性压抑已经恐怖如斯了?

灯锦年
2026-06-29 17:15:19
知名音乐人在广州去世,家属发联合声明:希望酒店公开道歉

知名音乐人在广州去世,家属发联合声明:希望酒店公开道歉

南方都市报
2026-06-29 15:14:46
74小时绝望搜救!阿根廷球星一夜家破人亡,天灾撕碎十年异乡生活

74小时绝望搜救!阿根廷球星一夜家破人亡,天灾撕碎十年异乡生活

行者聊官
2026-06-29 19:34:59
李谷一大胆开麦,揭晓宋祖英走上高位的真相,观众:原来如此!

李谷一大胆开麦,揭晓宋祖英走上高位的真相,观众:原来如此!

温读史
2026-06-29 11:35:49
片酬动辄几千万,明星为何全程臭脸?票房翻车直接断送职业生涯

片酬动辄几千万,明星为何全程臭脸?票房翻车直接断送职业生涯

魔都姐姐杂谈
2026-06-29 10:02:27
沉默5天后!菲防长再发声,中国的制裁:成他心里过不去的坎儿

沉默5天后!菲防长再发声,中国的制裁:成他心里过不去的坎儿

瓦伦西亚月亮
2026-06-28 16:46:58
世界杯太残酷了,随着巴西2-1逆转,亚洲本土球队已全军覆没

世界杯太残酷了,随着巴西2-1逆转,亚洲本土球队已全军覆没

侧身凌空斩
2026-06-30 03:46:50
太突然!阿根廷球员刚晒一家四口合影,几小时后妻子和孩子全遇难

太突然!阿根廷球员刚晒一家四口合影,几小时后妻子和孩子全遇难

阿废冷眼观察所
2026-06-29 13:15:16
吴建豪宣布再婚,圈外妻子正面照疑似曝光,长相甜美很漂亮

吴建豪宣布再婚,圈外妻子正面照疑似曝光,长相甜美很漂亮

素素娱乐
2026-06-29 15:26:38
9名游客在福建仙游一峡谷发生意外,多部门到场救援,已确认5人身亡4人平安;事发地并非景区,此前已设置警示牌劝阻游客进入

9名游客在福建仙游一峡谷发生意外,多部门到场救援,已确认5人身亡4人平安;事发地并非景区,此前已设置警示牌劝阻游客进入

大风新闻
2026-06-29 15:41:04
中国男篮决战日本队,突传坏消息,郭士强面临最大挑战

中国男篮决战日本队,突传坏消息,郭士强面临最大挑战

宗介说体育
2026-06-29 14:23:12
罕见一幕发生!中美默契共同制裁,日本经济全面崩盘!

罕见一幕发生!中美默契共同制裁,日本经济全面崩盘!

漫步独行侠
2026-06-29 08:25:11
送水工一天挣1000,活款几百万上海两套房!媒体:努力干你也有

送水工一天挣1000,活款几百万上海两套房!媒体:努力干你也有

走读新生
2026-06-29 13:06:14
帅化民坦言:张学良被终身软禁一点不冤,西安打光了老蒋的御林军

帅化民坦言:张学良被终身软禁一点不冤,西安打光了老蒋的御林军

磊子讲史
2026-06-26 14:55:01
2026-06-30 06:12:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2415文章数 596关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

家居
游戏
艺术
旅游
本地

家居要闻

传奇筑 日常诗

魔坛节奏丨Life带病擒Happy,Sky队后来居上晋级全能王决赛

艺术要闻

16幅 冉茂芹小幅风景油画写生

旅游要闻

厌倦城市高楼就来凤龙湾,小火车搭配木屋村落,短途散心太治愈!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

无障碍浏览 进入关怀版