网易首页 > 网易号 > 正文 申请入驻

ICLR 2025 | 多步不确定性让生成可控性大幅超越ControlNet++

0
分享至

还在用 Diffusion 解码出来的图片做 Rewarding Tuning?要知道,Diffusion 生成的图像分布与真实图像分布存在差异,直接使用生成图像计算 Rewarding Loss 会导致错误梯度累积。为此,清华大学智能产业研究院的研究团队提出基于 Uncertainty 建模的 Rewarding 过程,可以显著提升图像生成任务中的可控性以及生成质量!广泛实验证明,这是目前可控性最佳的条件生成模型,并且支持 Segmentation、HED、Depth、Lineart 等多种条件扩展。

论文题目: Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling 论文链接: https://arxiv.org/abs/2410.11236 代码链接: https://grenoble-zhang.github.io/Ctrl-U-Page

一、简介

条件图像生成旨在生成与用户指令高度匹配的图像,尽管现有方法已经取得了显著进展,但在生成图像的条件一致性视觉质量上依然存在巨大挑战。为了解决这个问题,清华大学智能产业研究院的研究团队提出了基于不确定性引导的可控生成框架——Ctrl-U,显著提升了模型的可控性和生成质量。

二、研究动机

近年来,随着大规模图文数据集的构建,文本生成图像(文生图)扩散模型在生成高保真、高分辨率图像方面取得了显著进展。然而,由于文本条件在表达细节控制方面的固有局限性,文生图模型在复杂场景渲染和艺术风格模拟等特定应用场景中,难以实现精细化和高精度的控制。

为了解决上述问题,研究者们提出了多种条件控制方法(如 T2i-Adapter 和 ControlNet),通过引入手绘线稿、深度图等先验条件信息,增强了生成模型的精确性。尽管上述方法在扩展文生图模型的应用范围方面取得了一定进展,但在生成图像的质量和条件一致性上,仍面临显著挑战。

为进一步提高生成结果与输入条件之间的一致性,部分研究(如 ControlNet++)尝试利用预训练的奖励模型,提取生成图像中的条件特征,并与输入条件信息进行对齐。然而,研究表明,奖励模型在处理新生成数据时,往往存在反馈不准确的问题。这种不准确性主要源于以下两个方面:

  1. 扩散过程中的噪声干扰:扩散模型在训练过程中对输入添加不同程度的高斯噪声,显著增加了条件特征提取的难度。

  2. 未见数据的分布偏差:生成图像与真实图像之间存在分布差异。奖励模型在面对未见分布时,即便生成结果已与条件保持一致,也容易产生错误预测。这些不准确的奖励反馈会造成错误梯度累积,从而影响模型的优化。

(a)真实图像和先验条件。(b)扩散模型训练过程中,各时间步 t 下生成图像的 mIoU 误差变化曲线。值得注意的是,即使在采样点 t=0,mIoU ≠ 0,反映了预训练奖励模型本身的预测误差。随着 t 值递增,尽管生成图像的整体布局已与条件信息在空间上保持一致,奖励模型仍倾向于增大误差,进而导致错误梯度的反向传播。

三、不确定性引导的可控生成框架

研究团队通过估计奖励模型的不确定性,动态调整训练过程中的损失权重,显著提高了条件图像生成的一致性可靠性

整体分为两个阶段:

3.1 不确定性估计

以分割掩码为先验条件为例,输入文本、源图像 和条件控制 ,分别提取特征 、 、 。在训练过程中,我们分别向特征图 添加不同时间步 和 的高斯噪声 作为噪声潜变量,具体表示为:

随后,我们将文本条件 和图像条件 融合,用于预测注入的噪声。通过去除预测噪声,得到恢复的潜变量 和 。

利用预训练解码器,根据 和 分别重建输入图像,得到 和 。为了使生成图像与输入条件 保持一致,我们使用预训练奖励模型 来量化生成图像的输出条件与输入条件之间的一致性。

为估计奖励模型预测的不确定性,我们显式利用两次扩散前向过程,并比较从生成图像中提取的 、 之间的奖励差异,作为当前时间步的不确定性估计。对于分割掩码,我们利用像素级 KL 散度量化不确定性:

对于其他非概率条件(如线稿和深度),我们采用 距离 估计不确定性。

3.2 自适应奖励正则化

现有的可控性建模方法(如 ControlNet++)通过输入条件与提取条件之间的像素级一致性损失进行建模。例如,当输入条件为分割掩码时,一致性损失 可定义为像素级交叉熵损失:

其中, 表示输入条件, 和 分别代表从生成图像中提取的条件信息。为了自适应地校正不准确的奖励反馈,我们在一致性损失中引入了估计的不确定性,改进后的损失函数定义为:

其中, 为正则化因子。第一项用于在不确定性较大时降低奖励反馈权重,减少潜在错误反馈的负面影响;而在不确定性较小时赋予更高权重,增强模型对可靠反馈的学习能力。第二项则用于防止模型对所有样本持续预测高不确定性。当不确定性值保持恒定时,其梯度与原始一致性损失一致。

为了优化生成的鲁棒性,我们结合扩散模型损失 和不确定性正则化损失 ,其中 为:

最终的总损失定义为:

其中, 用于平衡扩散模型损失和奖励反馈的比例。此方法通过引入不确定性估计与自适应奖励正则化,有效提升了条件图像生成的鲁棒性与精度。

四、实验结果

作者在多种条件下的可控生成任务上进行了定性和定量评估,以验证Ctrl-U的效果。

4.1 定性比较

如图所示,Ctrl-U在视觉效果对比中表现出了优异的条件一致性和生成质量,在各类控制条件下均能生成与输入条件高度匹配的逼真图像。这一对比结果充分证明了Ctrl-U在可控图像生成任务中的优越性能。

4.2 定量比较

研究团队在ADE20K、COCO-Stuff及MultiGen-20M验证集上对Ctrl-U与对比方法进行了定量评估。结果表明,Ctrl-U在可控性、视觉质量和文本相似度上均实现了更优的表现,验证了其在各方面上的有效性。

4.2.1 可控性

4.2.2 视觉质量

4.2.3 文本相似度

五、总结与展望

Ctrl-U 通过引入基于不确定性引导的奖励建模,显著提升了生成模型的图像质量和可控性。具体而言,Ctrl-U 不仅能够有效捕捉复杂条件约束下的潜在结构信息,还能在生成过程中动态调整奖励反馈,从而更好地应对多样化的输入条件与目标分布。研究团队通过在多个数据集上的实验验证了所提出方法的可行性,并期待相关研究成果能够为深入研究特定场景下的约束条件,以及开发新型模型架构提供有益参考。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深度分析:太阳队在德文·布克和杰伦·格林受伤后该何去何从?

深度分析:太阳队在德文·布克和杰伦·格林受伤后该何去何从?

好火子
2026-01-25 05:40:46
贝森特:中国是俄罗斯石油最大买家但中国再买不到委内瑞拉石油了

贝森特:中国是俄罗斯石油最大买家但中国再买不到委内瑞拉石油了

达文西看世界
2026-01-24 20:26:02
“港独”陈家驹:叫嚣“让香港重归英国”,潜逃英国后沦为乞丐

“港独”陈家驹:叫嚣“让香港重归英国”,潜逃英国后沦为乞丐

谈史论天地
2026-01-23 16:05:03
新华社记者直击伊朗最新局势

新华社记者直击伊朗最新局势

新华社
2026-01-24 17:45:55
美国中产斩杀线,到底谁在幸灾乐祸

美国中产斩杀线,到底谁在幸灾乐祸

冰川思想库
2025-12-29 10:56:56
前女双世界第一、中国台北名将詹咏然宣布退役!

前女双世界第一、中国台北名将詹咏然宣布退役!

网球之家
2026-01-24 13:05:40
打完了洲际大赛,回归安菲尔德的萨拉赫,还能跟斯洛特再续前缘么

打完了洲际大赛,回归安菲尔德的萨拉赫,还能跟斯洛特再续前缘么

里芃芃体育
2026-01-25 09:00:09
经济数据亮眼GDP破140万亿,为何民生仍感艰难

经济数据亮眼GDP破140万亿,为何民生仍感艰难

几人尽弃
2026-01-25 02:00:50
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
登基两年即猝死,周武王姬发灭商后的抑郁真相,远比你想象的沉重

登基两年即猝死,周武王姬发灭商后的抑郁真相,远比你想象的沉重

历史人文2
2026-01-02 12:56:38
重磅消息 !!利雅得胜利不打算与萨迪奥·马内和布罗佐维奇续约!

重磅消息 !!利雅得胜利不打算与萨迪奥·马内和布罗佐维奇续约!

足球大叔1986
2026-01-25 05:28:04
人形机器人赛道!8家核心企业梳理,或诞生下一个锋龙股份

人形机器人赛道!8家核心企业梳理,或诞生下一个锋龙股份

特特农村生活
2026-01-25 06:22:12
河南女子夜间站街被抓,评论区却一片叹息,网友质问让人深思!

河南女子夜间站街被抓,评论区却一片叹息,网友质问让人深思!

花小猫的美食日常
2026-01-24 16:26:22
离婚后的单身女人(1)挂空挡来的还是刚才慌得忘穿内裤

离婚后的单身女人(1)挂空挡来的还是刚才慌得忘穿内裤

风起见你
2026-01-25 08:59:07
官宣:王励勤正式辞任!

官宣:王励勤正式辞任!

十点街球体育
2026-01-23 17:05:38
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
海南封关运作后,就相当于中国版的新加坡正式上线了。

海南封关运作后,就相当于中国版的新加坡正式上线了。

流苏晚晴
2025-12-21 16:05:12
“贵金属狂潮”延续!白银首破100美元关口,黄金逼近5000美元

“贵金属狂潮”延续!白银首破100美元关口,黄金逼近5000美元

每日经济新闻
2026-01-24 13:42:39
2026年政策调整:油电公平,终结一箱油半箱税时代

2026年政策调整:油电公平,终结一箱油半箱税时代

阿芑历史
2026-01-18 23:08:22
索尼高管怒斥布莱克·莱弗利:“不成熟且业余,像个恐怖分子”

索尼高管怒斥布莱克·莱弗利:“不成熟且业余,像个恐怖分子”

粉红冻奶的观影日记
2026-01-24 20:30:34
2026-01-25 09:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

头条要闻

媒体:冯德莱恩遭遇三连击 她的麻烦才刚刚开始

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

艺术
健康
手机
房产
军事航空

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

耳石脱落为何让人天旋地转+恶心?

手机要闻

大疆Osmo Pocket 4 Pro手持云台相机现身,横排双摄设计

房产要闻

正式官宣!三亚又一所名校要来了!

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版