网易首页 > 网易号 > 正文 申请入驻

无痛提升文本对齐!无分类引导新范式CFG-Zero*火了,支持Diffusers/ComfyUI

0
分享至

新智元报道

编辑:LRST

【新智元导读】CFG-Zero*是由南洋理工大学S-Lab 与普渡大学提出的无分类引导新范式,支持所有Flow-Matching的生成模型,目前已被集成至Diffusers与ComfyUI

随着生成式AI的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。

近年来,Flow Matching作为一种更具可解释性、收敛速度更快的生成范式,正在逐步取代传统的基于随机微分方程(SDE)的扩散方法,成为主流模型(如Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等)中的核心方案。

然而,在这一技术迭代过程中,一个关键问题依然没有被解决:如何在推理阶段更好地引导生成过程,使模型输出更加符合用户提供的文本描述。

Classifier-Free Guidance(CFG)是当前广泛采用的引导策略,但其引导路径在模型尚未充分训练或估计误差较大时,容易导致样本偏离真实分布,甚至引入不必要的伪影或结构崩塌。

对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。

项目主页:https://weichenfan.github.io/webpage-cfg-zero-star/

代码仓库:https://github.com/WeichenFan/CFG-Zero-star

论文地址:https://arxiv.org/abs/2503.18886

CFG为何失效?

传统的CFG策略通过对有条件与无条件预测结果进行插值来实现引导,然而在Flow Matching模型中,推理过程是通过解常微分方程(ODE)进行的,其每一步依赖于前一步的速度估计。

当模型训练不足时,初始阶段的速度往往较为不准确,而CFG此时的引导反而会将样本推向错误轨迹。研究者在高斯混合分布的可控实验中发现,CFG在初始步的引导效果甚至不如「静止不动」,即设速度为0。

CFG-Zero⋆

研究者提出了CFG-Zero⋆,并引入以下两项关键创新:

  1. 优化缩放因子(Optimized Scale):在每个时间步中动态计算有条件速度与无条件速度的内积比值,从而调整CFG中无条件项的强度,避免「过度引导」导致的误差。

  2. 零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。

这两项策略可无缝集成至现有的CFG推理流程中,几乎不引入额外计算开销。

优化缩放因子

首先CFG的目标是能够估计出一个修正的速度,能够尽可能的接近真实速度:

为了提升引导的精度,研究者引入了一个修正因子s:

基于此可以建立优化的目标:

代入化简可以得到:

求解最优值为

因此新的CFG形式为:

零初始化

研究者在2D多元高斯分布上进行进一步定量分析,可以求解得到扩散过程中每一步的最优速度的closed-form:

基于此可以训练出一个模型,下图展现了模型在不同训练轮数下的误差。

研究者发现在训练早期阶段,无分类引导得到的速度误差较大,甚至不如将速度设置为0:

进一步在高纬情况下验证了这一观察,如下表所示。

研究者对比原始CFG,与仅使用零初始化的CFG,发现随着模型的收敛,零初始化的收益逐渐变小,在160轮训练后出现拐点,与多元高斯实验结果吻合。

实验结果

研究者在多个任务与主流模型上验证了CFG-Zero⋆的有效性,涵盖了文本生成图像(Text-to-Image)与文本生成视频(Text-to-Video)两大方向。

在图像生成任务中,研究团队选用了Lumina-Next、SD3、SD3.5、Flux等当前SOTA模型进行对比实验,结果显示CFG-Zero⋆在Aesthetic Score与CLIP Score两项核心指标上均优于原始CFG。

例如在Stable Diffusion 3.5上,美学分有明显提高,不仅图像美感更强,而且语义一致性更好。在T2I-CompBench评测中,CFG-Zero⋆在色彩、纹理、形状等多个维度均取得更优表现,特别适用于需要精准表达复杂语义的生成任务。

在视频生成任务中,研究者将CFG-Zero⋆集成到Wan2.1模型中,评估标准采用VBench基准套件。

结果表明,改进后的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升,呈现出更连贯、结构更稳定的视频内容,有效减少了图像跳变与不自然的位移问题。

实际测试

CFG-Zero⋆在开源社区中实现了快速落地。目前,该方法已正式集成至ComfyUI与Diffusers官方库,并被纳入视频生成模型Wan2.1GP的推理流程。借助这些集成,普通开发者与创作者也能轻松体验该方法带来的画质与文本对齐提升。

该方法可以用于图生视频,使用官方的repo用这张测试图:

prompt:Summer beach vacation style. A white cat wearing sunglasses lounges confidently on a surfboard, gently bobbing with the ocean waves under the bright sun. The cat exudes a cool, laid-back attitude. After a moment, it casually reaches into a small bag, pulls out a cigarette, and lights it. A thin stream of smoke drifts into the salty breeze as the cat takes a slow drag, maintaining its nonchalant pose beneath the clear blue sky.

得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。

该方法对wan2.1 文生视频同样适用:(图1为原始CFG,图2为CFG-Zero*)

Prompt:A cat walks on the grass, realistic.

该方法同时兼容LoRA:https://civitai.com/models/46080?modelVersionId=1473682

Prompt:Death Stranding Style. A solitary figure in a futuristic suit with a large, intricate backpack stands on a grassy cliff, gazing at a vast, mist-covered landscape composed of rugged mountains and low valleys beneath a rainy, overcast sky. Raindrops streak softly through the air, and puddles glisten on the uneven ground. Above the horizon, an ethereal, upside-down rainbow arcs downward through the gray clouds — its surreal, inverted shape adding an otherworldly touch to the haunting scene. A soft glow from distant structures illuminates the depth of the valley, enhancing the mysterious atmosphere. The contrast between the rain-soaked greenery and jagged rocky terrain adds texture and detail, amplifying the sense of solitude, exploration, and the anticipation of unknown adventures beyond the horizon.

该方法对最强文生图模型Flux同样支持:

Prompt:a tiny astronaut hatching from an egg on the moon.

该方法实现也比较简单,作者在附录中直接附上了代码,如下图:

总结

该工作在几乎不引入额外计算量的情况下,提出了一种更好的无分类器引导范式,对所有的流匹配模型都适用,是一种「无痛」涨点方法。

从视觉效果来看,优化缩放因子会提升图片/视频很多细节,但是不会修正语义信息,零初始化会对整体有比较大的修改,让图片更自然,视频的运动更合理与流畅,但目前该方法只适用于流匹配模型,如何将该方法泛化至其他类型的扩散模型可能是比较有价值的研究方向。

参考资料:

https://weichenfan.github.io/webpage-cfg-zero-star/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着西班牙4-0,瑞士4-1,比利时1-1,世预赛最新积分榜:3队出线

随着西班牙4-0,瑞士4-1,比利时1-1,世预赛最新积分榜:3队出线

侃球熊弟
2025-11-16 04:15:07
从中产抢着打卡,到集体甩卖倒闭:疯狂扩张的五星级酒店,为何突然崩了?

从中产抢着打卡,到集体甩卖倒闭:疯狂扩张的五星级酒店,为何突然崩了?

快刀财经
2025-11-14 22:46:29
王楚钦不敌樊振东止步半决赛,张继科点评引争议

王楚钦不敌樊振东止步半决赛,张继科点评引争议

老慃尾声体育解说
2025-11-15 20:11:08
杨兰兰案第四次庭审,全澳哗然!

杨兰兰案第四次庭审,全澳哗然!

难得君
2025-11-15 20:21:58
美国副总统万斯所在车队发生交通事故 一警员重伤

美国副总统万斯所在车队发生交通事故 一警员重伤

国际在线
2025-11-16 05:18:06
一场1-4缔造耻辱纪录,5亿豪阵也没用,伊萨克急速陨落

一场1-4缔造耻辱纪录,5亿豪阵也没用,伊萨克急速陨落

足球狗说
2025-11-16 07:28:43
狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

吭哧有力
2025-11-15 18:42:28
金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

萌神木木
2025-11-15 19:10:03
盘点岛国业界10大步兵女神,哪一位是你心中的意难平?

盘点岛国业界10大步兵女神,哪一位是你心中的意难平?

素然追光
2025-11-16 00:40:03
未用热应该缴费吗?西安供暖空置费争议“出圈”,背后民生诉求求解

未用热应该缴费吗?西安供暖空置费争议“出圈”,背后民生诉求求解

大风新闻
2025-11-15 17:34:06
金鸡奖颁奖名场面!宋佳二封咏梅失落,易烊千玺拿奖张艺谋乐开花

金鸡奖颁奖名场面!宋佳二封咏梅失落,易烊千玺拿奖张艺谋乐开花

萌神木木
2025-11-15 22:43:14
山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

慢半拍sir
2025-11-15 15:15:14
9比0才能晋级!最惨冠军诞生,连续三届跌入附加赛,世界杯又难了

9比0才能晋级!最惨冠军诞生,连续三届跌入附加赛,世界杯又难了

篮球圈里的那些事
2025-11-15 15:35:18
高市还在搞事?日本同时被四国痛批,一盟友划清界限!

高市还在搞事?日本同时被四国痛批,一盟友划清界限!

国是直通车
2025-11-15 11:10:05
陈思诚荣获金鸡奖最佳导演,导播把镜头切到了佟丽娅,她礼貌满分

陈思诚荣获金鸡奖最佳导演,导播把镜头切到了佟丽娅,她礼貌满分

五四观娱
2025-11-16 00:06:06
1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

以茶带书
2025-11-15 12:31:58
中金:国内房价从2021年6月至今已下跌35%,但还未止跌

中金:国内房价从2021年6月至今已下跌35%,但还未止跌

知识圈
2025-11-15 14:38:45
东莞一平台自曝出现挤兑,所签协议刻意遮掩“投资”属性

东莞一平台自曝出现挤兑,所签协议刻意遮掩“投资”属性

新浪财经
2025-11-13 20:35:37
韩媒:输给中国U22是前所未有的耻辱,这是一场令人震惊的比赛

韩媒:输给中国U22是前所未有的耻辱,这是一场令人震惊的比赛

懂球帝
2025-11-15 22:12:06
含寄生虫最多的3种鱼,没营养还贵,很多人经常买来吃

含寄生虫最多的3种鱼,没营养还贵,很多人经常买来吃

章幃户外
2025-11-14 18:56:35
2025-11-16 08:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13877文章数 66248关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

作价14亿元 宝能深圳160套房产遭中信信托挂牌处置

头条要闻

作价14亿元 宝能深圳160套房产遭中信信托挂牌处置

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
健康
亲子
家居
时尚

艺术要闻

她从教师岗位退休,却在画布上开始了第二次人生!

血液科专家揭秘白血病七大误区

亲子要闻

带走我的支架管!

家居要闻

现代简逸 寻找生活的光

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

无障碍浏览 进入关怀版