网易首页 > 网易号 > 正文 申请入驻

让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

AI作画、生视频,可以「自己救自己」了?!

当大家还在为CFG(无分类器引导)的参数搞到头秃,却依然得到一堆“塑料感”废片而发愁时,来自清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所的研究团队,推出全新方法S²-Guidance (Stochastic Self-Guidance)。

核心亮点在于通过随机丢弃网络模块(Stochastic Block-Dropping)来动态构建“弱”的子网络,从而实现对生成过程的自我修正。这不仅让AI学会了“主动避坑”,更重要的是,它避免了其他类似方法中繁琐、针对特定模型的参数调整过程,真正做到了即插即用、效果显著。

S²-Guidance方法在文生图和文生视频任务中,显著提升了生成结果的质量与连贯性。

具体表现在:

  • 卓越的时间动态: 无论是熊的运动姿态,还是赛车的动态镜头,都更具动感。
  • 精细的细节渲染: 能够刻画出宇航员头盔的透明质感等复杂细节。
  • 更少的视觉伪影: 有效减少了跑步者、打伞的女人等图像中的瑕疵。
  • 丰富的艺术表达: 在抽象肖像、城堡、彩色粉末爆炸等场景中,艺术细节更加饱满。
  • 更好的物体协调性: 猫与火箭、书与羊等组合中的物体关系更加和谐一致。

一、CFG的瓶颈:效果失真 + 缺乏通用性

在扩散模型的世界里,CFG (Classifier-Free Guidance)是提升生成质量和文本对齐度的标准操作。但它的“线性外推”本质,导致高引导强度下容易产生过饱和、失真等问题。

为了解决这个问题,学术界此前的思路是引入一个“监督员”——弱模型(weak model)。比如Autoguidance就提出用训练不充分的模型来修正。但这个思路在实践中遇到了核心难题:如何找到一个“恰到好处”的弱模型?

  • 弱模型如果太弱,它的预测就接近于无用噪声,无法提供有效引导。
  • 弱模型如果太强,它和主模型的行为又过于相似,起不到修正作用。
  • 最关键的是,对于像SD3这样已经发布的大模型,我们几乎不可能再获得一个与之配套的、训练到“一半火候”的官方弱模型。这使得Autoguidance的思路虽然理论上可行,但在现实中往往难以复现和应用。

为了绕开这个难题,后续的一些工作尝试“凭空制造”弱模型。它们通过在推理时手动修改网络结构来实现,比如模糊化特定的注意力图(Attention Map),或者在视频生成中跳过某些时空注意力层。但这些方法又带来了新的问题:它们通常是高度定制化的,需要针对不同任务进行精细的参数调整和大量的实验,缺乏通用性,使用起来非常繁琐

S²-Guidance则另辟蹊径,它问了一个直击灵魂的问题:我们能不能不找外援,也不搞复杂的调参,让模型自己监督自己,并且这个过程是通用且自动的?

二、S²-Guidance的精妙构思:“随机丢模块”就够了

S²-Guidance 在生成质量流形上的工作机制如下图所示。

生成过程从当前状态(Mₜ,橙色线框)向下一个状态(Mₜ₋₁)演进。标准CFG提供了一个强力但不够精准的引导方向(灰色箭头),它无法精确地命中代表最高质量的“山峰”(黄色峰值)。S²-Guidance的改进之处在于:它通过随机丢弃网络模块的策略,计算出一个“自我修正”的预测(蓝色箭头,“随机丢弃后的预测”)。最终,合成的S²-Guidance引导向量(紫色箭头)能更精准地将生成过程引向流形上的最优区域,最终得到保真度更高的结果。

第一步:通过随机模块丢弃,动态构建内生子网络

高性能扩散模型(如SD3)的核心架构多为Transformer,由一系列功能相似的Block堆叠而成。研究表明,这类大型网络存在显著的模型冗余(model redundancy)

S²-Guidance巧妙地利用了这一点。如图2所示,在每个推理步骤中,它通过随机模块丢弃(Stochastic Block-Dropping)这一策略,在前向传播时临时“跳过”或“屏蔽”掉一小部分网络模块。这个过程等效于在推理时动态地、无成本地构建出一个轻量化的内生子网络(intrinsic sub-network)

这个子网络并非外部训练的“弱模型”,而是完整模型的一个原生变体。由于部分功能模块被临时禁用,其预测能力相对受限,而它的预测结果恰恰暴露了完整模型在高认知不确定性(epistemic uncertainty)区域的“潜在错误倾向”。这种方法的优越性在于,它是一种通用且自动的策略,无需研究者手动判断应修改哪个特定模块,也无需为不同任务设计不同的“手术方案”。

第二步:利用子网络预测进行负向引导
当子网络给出了其预测方向后,S²-Guidance执行了其最关键的一步:负向引导修正。它并非尝试去靠近或模仿子网络的预测,而是主动地排斥(repel)它。

这在S²-Guidance的引导公式中体现得淋漓尽致,其核心逻辑可以直观地理解为:

最终引导方向 = 标准CFG引导方向 - 子网络预测的“高不确定性”方向

通过这个简单的“纠错式减法”,模型在保持CFG强引导力的同时,被一个源自内部的修正信号“拉回”,从而精准地规避了那些可能导致生成低质量、不真实结果的“陷阱区域”。最终,该方法在无需外部模型和繁琐参数微调的前提下,实现了便捷、通用且高效的自我优化。

理论先行:在“玩具实验”中验证可行性

在提出这个大胆的假设后,研究团队首先在一维和二维的高斯混合分布(Gaussian Mixture)这种有精确解的“玩具实验”上进行了验证。结果(如下图-图3所示)非常清晰:

S²-Guidance 实现了引导强度与分布保真度的平衡。 在玩具实验中,CFG(红框)会扭曲分布,而S²-Guidance能精准地捕获真实数据分布(半透明区域)的位置和形状,缓解了模式分离和分布失真的问题。

  • CFG(b) 虽然比无引导好,但生成的分布中心明显偏离了真实位置(红色框)。
  • Autoguidance(c) 有所改善,但仍不完美,难以找到合适的弱模型导致其效果受限。
  • 而S²-Guidance(e) 生成的分布,在位置和形状上都与真实的半透明分布更加贴合,证明了这种“自我纠错”机制缓解了CFG的分布失真问题。

有了理论上的坚实基础,团队才将其推广到更复杂的图像和视频生成任务中。

三、实验效果:全方位、可量化的质量提升

理论说得天花乱坠,不如看疗效。S²-Guidance在各大SOTA模型上,展现出了令人信服的、全方位的实力提升。

1 全面的视觉质量提升
开篇的这张对比图(图1)就是最好的证明。简单来说,S²-Guidance让生成结果在多个维度上实现了飞跃:

  • 动态感更强: 无论是熊爬树时更有力的动作,还是赛车镜头里传达出的速度感,时间动态(temporal dynamics)都远超CFG。
  • 细节更精致: 宇航员头盔的透明质感、抽象画作的笔触、彩色粉末爆炸的瞬间,细节(finer details)都得到了惊人的保留和渲染。
  • 伪影更少: 跑步的人、打伞的女人等场景中,CFG常见的肢体扭曲和物体粘连等伪影(fewer artifacts)被有效消除。
  • 物体一致性更好: “猫和火箭”、“书和羊”这类组合中,物体间的关系和比例(improved object coherence)更协调。

S²-Guidance 在美学质量和指令遵循度上,总能生成更出色的图像。 可以看到,像CFG、APG、CFG++和CFG-Zero这些现有的引导方法,常常会生成各种瑕疵,比如不自然的伪影、变形的物体,或者干脆无法理解复杂的指令(见红框)。而S²-Guidance方法则能产出干净、协调、观感舒适的图像,完美地规避了这些问题。

2 同台竞技,更胜一筹

当和其他先进的引导方法(如APG、CFG++、CFG-Zero)同台竞技时,S²-Guidance的优势就体现在稳定性上。在图4中可以看到,对于复杂的prompt,其他方法(红色框内)往往会产生扭曲的物体或不自然的伪影,或者干脆无法遵循完整的指令。而S²-Guidance则能稳定地生成干净、连贯且高度符合prompt描述的图像,在美学质量(aesthetic quality)和指令遵循度(prompt coherence)上都表现出色。

图5. S²-Guidance 能够生成时间和物理上都更合理的视频,解决了CFG的两大核心问题。 顶行对比: CFG无法生成合理的运动,它让卡车诡异地“横向漂移”而不是向前开(见红框)。相比之下,S²-Guidance渲染出了一个稳定又真实的行车场景。 底行对比: CFG没有完全理解指令,生成的光线并未“环绕”人脸(红色框),并且也漏掉了“发光粒子”这一细节(蓝色框)。而S²-Guidance则忠实地还原了整个prompt,生成了一个动态感十足、视觉元素丰富的场景。

3 视频生成:告别“指令遗忘症”,拥抱物理真实感

在视频生成中,S²-Guidance更是解决了CFG的两个核心痛点:

  • 物理真实性: 遵循物理规律是生成可信视频的基础。如图5顶行所示,对于“一个停车计时器和一辆卡车”的场景,CFG在处理物体运动时出现了严重失真。视频中的卡车并没有正常行驶,而是呈现出一种不符合物理常识的“横向漂移”,这种不自然的滑动破坏了整个场景的真实感。相比之下,S²-Guidance(第二行)则成功渲染出一个稳定且逻辑自洽的场景,物体的运动状态真实可信
  • 复杂指令遵循: 对于“金线编织并环绕她的脸,周围还有发光粒子”这样的复杂描述,CFG不仅忽略了关键的“环绕”动作(光线没有在脸周围运动),还漏掉了“发光粒子”。S²-Guidance则忠实地还原了整个动态、丰富的视觉场景,一个细节都不少。

4 硬核数据:领先的性能表现

这些视觉提升的背后,是HPSv2.1、T2I-CompBench、VBench等权威榜单上实打实的领先成绩。例如,在SD3模型和T2I-CompBench基准上,S²-Guidance在颜色、形状、纹理等维度的得分上均超越了包括CFG-Zero在内的所有对比方法。在VBench视频评测中,S²-Guidance同样在总分、语义一致性等多个关键指标上取得了最优性能。



视觉效果对比

S²-Guidance:

Baseline:

四、不只是有效,而且高效

搞这么一套“自我纠错”系统,会不会很慢?答案是几乎不慢

研究者在论文中通过严谨的消融实验证明,哪怕在每个去噪步骤中只分裂出一个“小号”(即N=1),效果也和分裂出几十个小号取平均(Naive S²-Guidance)几乎一样好。

这得益于扩散过程单一步的微小随机抖动,在几十上百步的迭代中会被自然地“平均”掉,最终共同将生成结果稳稳地导向高质量的终点。

一句话总结:S²-Guidance用较小的计算代价,实现了显著的质量提升。

论文: https://arxiv.org/abs/2508.12880
项目主页: https://s2guidance.github.io/
项目代码: https://github.com/AMAP-ML/S2-Guidance

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
横城战役:歼灭美军最多的一战,尸积如山,美军不愿重提的噩梦

横城战役:歼灭美军最多的一战,尸积如山,美军不愿重提的噩梦

浩渺青史
2026-04-20 18:18:20
歼-10C在伊朗现身,巴空军三次尝试未成功

歼-10C在伊朗现身,巴空军三次尝试未成功

余塩搞笑段子
2026-04-20 10:11:44
收拾完伊朗,下一个轮到中国?以色列发战争威胁,中方送出5个字

收拾完伊朗,下一个轮到中国?以色列发战争威胁,中方送出5个字

千羽解读
2026-04-18 10:12:15
16岁巴西天才横空出世!全欧豪门疯抢,曼联率先砸高价全力拿下

16岁巴西天才横空出世!全欧豪门疯抢,曼联率先砸高价全力拿下

夜白侃球
2026-04-21 11:33:34
有人说:打麻将和性生活是县城的底色?

有人说:打麻将和性生活是县城的底色?

灯锦年
2026-04-21 12:32:46
牛肉顶多注个水猪肉顶多催个肥,唯有三文鱼全程cosplay

牛肉顶多注个水猪肉顶多催个肥,唯有三文鱼全程cosplay

富贵说
2026-04-14 23:15:09
8-1,4-5!吴宜泽德比战创纪录,范争一紧追墨菲,中国4人进16强

8-1,4-5!吴宜泽德比战创纪录,范争一紧追墨菲,中国4人进16强

刘姚尧的文字城堡
2026-04-21 09:10:02
国务院任免国家工作人员

国务院任免国家工作人员

新华社
2026-04-21 11:35:19
许家印吃住14条:男性不准靠近房间,吃日本进口水果喝皇家礼炮

许家印吃住14条:男性不准靠近房间,吃日本进口水果喝皇家礼炮

兰亭墨未干
2026-04-21 10:43:33
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

这五个号码千万不要接,一旦接听,银行卡里的钱都可能秒没

笑熬浆糊111
2026-04-20 00:05:15
A股算力全线重挫,CPO翻倍牛股大涨14%,PCB逆势飙升,3100亿巨头创历史新高

A股算力全线重挫,CPO翻倍牛股大涨14%,PCB逆势飙升,3100亿巨头创历史新高

21世纪经济报道
2026-04-21 15:43:17
沉默1天,中方准时发话,“高市下岗”传遍日本,石破茂判断没错

沉默1天,中方准时发话,“高市下岗”传遍日本,石破茂判断没错

影孖看世界
2026-04-21 18:11:24
国泰民安脸,旺夫相的女生

国泰民安脸,旺夫相的女生

手工制作阿歼
2026-04-21 16:52:43
内衣产品标注“小地雷”被吐槽!都市丽人致歉:已全部下架

内衣产品标注“小地雷”被吐槽!都市丽人致歉:已全部下架

南方都市报
2026-04-21 10:12:21
萧旭岑叫板金溥聪,后者强势回应,李德维直接回呛马英九

萧旭岑叫板金溥聪,后者强势回应,李德维直接回呛马英九

兰妮搞笑分享
2026-04-21 17:37:12
全球最贵电车来了

全球最贵电车来了

大象新闻
2026-04-20 10:35:05
蒋介石曾孙蒋友松突然宣布:两蒋灵柩必须迁回浙江奉化

蒋介石曾孙蒋友松突然宣布:两蒋灵柩必须迁回浙江奉化

深度报
2026-04-20 22:37:17
航旅纵横突然崩了,行程、购票功能瘫痪,官方最新回应

航旅纵横突然崩了,行程、购票功能瘫痪,官方最新回应

21世纪经济报道
2026-04-21 14:19:03
用身边同事的经历提醒大家:人过70岁后,尽量和子女生活得近一点

用身边同事的经历提醒大家:人过70岁后,尽量和子女生活得近一点

小马达情感故事
2026-04-20 18:05:03
2026-04-21 18:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12507文章数 176457关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

男子买"随用随取"保险后得知百岁才能取本金 法院判了

头条要闻

男子买"随用随取"保险后得知百岁才能取本金 法院判了

体育要闻

62岁,成为中国足坛最火的人

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

教育
亲子
游戏
艺术
公开课

教育要闻

以沃土育良种——王淑慧家教好故事

亲子要闻

高龄备孕如何提高生育力?备孕辅酶q10需要吃多久?

万代大作摆烂放弃D加密?刚被破解三周

艺术要闻

任伯年写竹,真带劲

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版