还在用 Diffusion 解码出来的图片做 Rewarding Tuning?要知道,Diffusion 生成的图像分布与真实图像分布存在差异,直接使用生成图像计算 Rewarding Loss 会导致错误梯度累积。为此,清华大学智能产业研究院的研究团队提出基于 Uncertainty 建模的 Rewarding 过程,可以显著提升图像生成任务中的可控性以及生成质量!广泛实验证明,这是目前可控性最佳的条件生成模型,并且支持 Segmentation、HED、Depth、Lineart 等多种条件扩展。
论文题目: Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling 论文链接: https://arxiv.org/abs/2410.11236 代码链接: https://grenoble-zhang.github.io/Ctrl-U-Page
一、简介
条件图像生成旨在生成与用户指令高度匹配的图像,尽管现有方法已经取得了显著进展,但在生成图像的条件一致性和视觉质量上依然存在巨大挑战。为了解决这个问题,清华大学智能产业研究院的研究团队提出了基于不确定性引导的可控生成框架——Ctrl-U,显著提升了模型的可控性和生成质量。
二、研究动机
近年来,随着大规模图文数据集的构建,文本生成图像(文生图)扩散模型在生成高保真、高分辨率图像方面取得了显著进展。然而,由于文本条件在表达细节控制方面的固有局限性,文生图模型在复杂场景渲染和艺术风格模拟等特定应用场景中,难以实现精细化和高精度的控制。
为了解决上述问题,研究者们提出了多种条件控制方法(如 T2i-Adapter 和 ControlNet),通过引入手绘线稿、深度图等先验条件信息,增强了生成模型的精确性。尽管上述方法在扩展文生图模型的应用范围方面取得了一定进展,但在生成图像的质量和条件一致性上,仍面临显著挑战。
为进一步提高生成结果与输入条件之间的一致性,部分研究(如 ControlNet++)尝试利用预训练的奖励模型,提取生成图像中的条件特征,并与输入条件信息进行对齐。然而,研究表明,奖励模型在处理新生成数据时,往往存在反馈不准确的问题。这种不准确性主要源于以下两个方面:
扩散过程中的噪声干扰:扩散模型在训练过程中对输入添加不同程度的高斯噪声,显著增加了条件特征提取的难度。
未见数据的分布偏差:生成图像与真实图像之间存在分布差异。奖励模型在面对未见分布时,即便生成结果已与条件保持一致,也容易产生错误预测。这些不准确的奖励反馈会造成错误梯度累积,从而影响模型的优化。
(a)真实图像和先验条件。(b)扩散模型训练过程中,各时间步 t 下生成图像的 mIoU 误差变化曲线。值得注意的是,即使在采样点 t=0,mIoU ≠ 0,反映了预训练奖励模型本身的预测误差。随着 t 值递增,尽管生成图像的整体布局已与条件信息在空间上保持一致,奖励模型仍倾向于增大误差,进而导致错误梯度的反向传播。
三、不确定性引导的可控生成框架
研究团队通过估计奖励模型的不确定性,动态调整训练过程中的损失权重,显著提高了条件图像生成的一致性和可靠性。
整体分为两个阶段:
3.1 不确定性估计
以分割掩码为先验条件为例,输入文本、源图像 和条件控制 ,分别提取特征 、 、 。在训练过程中,我们分别向特征图 添加不同时间步 和 的高斯噪声 作为噪声潜变量,具体表示为:
随后,我们将文本条件 和图像条件 融合,用于预测注入的噪声。通过去除预测噪声,得到恢复的潜变量 和 。
利用预训练解码器,根据 和 分别重建输入图像,得到 和 。为了使生成图像与输入条件 保持一致,我们使用预训练奖励模型 来量化生成图像的输出条件与输入条件之间的一致性。
为估计奖励模型预测的不确定性,我们显式利用两次扩散前向过程,并比较从生成图像中提取的 、 之间的奖励差异,作为当前时间步的不确定性估计。对于分割掩码,我们利用像素级 KL 散度量化不确定性:
对于其他非概率条件(如线稿和深度),我们采用 距离 估计不确定性。
3.2 自适应奖励正则化
现有的可控性建模方法(如 ControlNet++)通过输入条件与提取条件之间的像素级一致性损失进行建模。例如,当输入条件为分割掩码时,一致性损失 可定义为像素级交叉熵损失:
其中, 表示输入条件, 和 分别代表从生成图像中提取的条件信息。为了自适应地校正不准确的奖励反馈,我们在一致性损失中引入了估计的不确定性,改进后的损失函数定义为:
其中, 为正则化因子。第一项用于在不确定性较大时降低奖励反馈权重,减少潜在错误反馈的负面影响;而在不确定性较小时赋予更高权重,增强模型对可靠反馈的学习能力。第二项则用于防止模型对所有样本持续预测高不确定性。当不确定性值保持恒定时,其梯度与原始一致性损失一致。
为了优化生成的鲁棒性,我们结合扩散模型损失 和不确定性正则化损失 ,其中 为:
最终的总损失定义为:
其中, 用于平衡扩散模型损失和奖励反馈的比例。此方法通过引入不确定性估计与自适应奖励正则化,有效提升了条件图像生成的鲁棒性与精度。
四、实验结果
作者在多种条件下的可控生成任务上进行了定性和定量评估,以验证Ctrl-U的效果。
4.1 定性比较
如图所示,Ctrl-U在视觉效果对比中表现出了优异的条件一致性和生成质量,在各类控制条件下均能生成与输入条件高度匹配的逼真图像。这一对比结果充分证明了Ctrl-U在可控图像生成任务中的优越性能。
4.2 定量比较
研究团队在ADE20K、COCO-Stuff及MultiGen-20M验证集上对Ctrl-U与对比方法进行了定量评估。结果表明,Ctrl-U在可控性、视觉质量和文本相似度上均实现了更优的表现,验证了其在各方面上的有效性。
4.2.1 可控性
4.2.2 视觉质量
4.2.3 文本相似度
五、总结与展望
Ctrl-U 通过引入基于不确定性引导的奖励建模,显著提升了生成模型的图像质量和可控性。具体而言,Ctrl-U 不仅能够有效捕捉复杂条件约束下的潜在结构信息,还能在生成过程中动态调整奖励反馈,从而更好地应对多样化的输入条件与目标分布。研究团队通过在多个数据集上的实验验证了所提出方法的可行性,并期待相关研究成果能够为深入研究特定场景下的约束条件,以及开发新型模型架构提供有益参考。
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.