网易首页 > 网易号 > 正文 申请入驻

AdaGen: 让图像生成模型学会自适应策略

0
分享至



当前主流的图像生成模型——扩散模型(如 DiT)、自回归模型(如 VAR)、掩码生成模型(如 MaskGIT)、流模型(如 SiT)——都遵循一个共同范式:将复杂的图像生成任务拆解为多个可控的子步骤,逐步迭代完成。然而,这种多步策略引入了一个不可忽视的问题:每一步都需配置大量超参数(如噪声水平、采样温度、引导尺度等),而现有方法普遍依赖手工设计的静态调度规则来管理这些参数。

这种做法存在两个重要缺陷:一是需要大量专家知识和反复调参,二是"一刀切"的静态策略无法适配每个样本的独特特性

本文提出AdaGen——一个通用的、可学习的、样本自适应的生成策略框架。通过强化学习训练一个轻量级策略网络,AdaGen 能根据当前生成状态自动为每个样本定制最优的生成策略,在四大主流生成范式上均实现了显著的性能提升与效率优化。

  • 论文标题:
  • AdaGen: Learning Adaptive Policy for Image Synthesis
  • 论文链接:
  • https://arxiv.org/abs/2603.06993
  • 论文代码:
  • https://github.com/LeapLabTHU/AdaGen

核心动机:从"静态一刀切"到"动态因材施教"



图:AdaGen的核心思想。现有方法使用预定义的静态策略,所有样本共享相同调度规则;AdaGen则通过RL训练的策略网络,为每个样本自适应地产生定制化的生成策略。

现有的多步生成模型在推理时,所有样本共享同一套预定义的调度规则。以 MaskGIT 为例,即使生成步数为 T = 16,也需要配置 64 个策略参数(每步 4 个参数),实际操作中极度依赖人工经验。更关键的是,一张简单的风景图和一张复杂的人物肖像,真的应该用完全相同的生成策略吗?

AdaGen 的核心思想非常直观:引入一个通过强化学习训练的策略网络(Policy Network),让它观察当前的生成状态,自动且自适应地为每个样本决定最优的生成参数。

统一 MDP 建模:一个框架统一四大生成范式







状态转移 (Transition):由预训练的生成模型决定。扩散模型和流模型的转移由 ODE 求解器确定,是确定性的;MaskGIT 和自回归模型的转移则是随机的





对抗奖励建模:不让策略"投机取巧"

训练策略网络的另一个核心挑战在于:如何设计有效的奖励信号?论文探索了三种方案,揭示了一个重要发现:



图:三种奖励设计的对比。(a) 用FID作奖励:FID虽低至2.56,但图像质量差,保真度不达标;(b) 用预训练奖励模型:保真度好了但样本多样性严重不足;(c) AdaGen的对抗奖励建模:保真度与多样性兼顾。

(a) 用 FID 作奖励:虽然 FID 数值可以被优化到很低(2.56),但生成图像的视觉质量反而很差。策略网络学会了"刷"指标的捷径,牺牲了视觉保真度。

(b) 用预训练奖励模型:保真度上去了,但生成样本趋于同质化,多样性严重不足。策略过拟合于奖励模型的偏好。

(c) 对抗奖励建模(AdaGen 的方案):引入一个判别器作为奖励模型,与策略网络进行对抗训练。策略网络试图最大化奖励,而判别器则不断提高区分真假图像的标准,有效防止策略过拟合。最终实现了保真度与多样性的良好平衡



图:AdaGen的训练流程。策略网络控制生成过程产生图像,对抗奖励模型同时评估生成结果并不断自我进化。预训练生成模型在整个过程中保持冻结。

训练算法简洁优雅,核心循环仅包含两步:(1) 策略网络优化:生成图像,用 PPO 算法更新策略网络使奖励最大化;(2) 奖励模型优化:同时采样真实和生成图像,训练判别器更好地区分两者。两者交替进行,形成类似 GAN 的博弈过程。

动作平滑:驯服高维动作空间的探索





图:优化过程。当生成步数从T=8增加到T=32时(黄色曲线),优化变得不稳定且性能下降。引入动作平滑后(红色曲线),训练恢复稳定且性能超越T=8基线。

论文发现,不稳定性的根源在于 PPO 探索时对每步独立添加高斯噪声,导致动作序列出现剧烈且不必要的高频波动。而对于逐步推进的迭代生成过程,最优策略往往是平滑变化的。为此,论文提出动作平滑技术——对策略输出施加指数移动平均(EMA)滤波:







图:动作平滑前后的对比。左侧未平滑时,动作序列剧烈抖动(FID=3.5);右侧引入平滑后,序列合理平稳(FID=2.3)。

上图直观对比了平滑前后的效果:从杂乱无章的锯齿波到平滑有序的下降曲线,FID 也从 3.5 降至 2.3。

实验结果:四大范式全面提升

跨范式有效性验证

AdaGen 在 ImageNet 256×256 上跨越四大生成范式、六个模型进行了验证。在所有范式和推理步数下,AdaGen 均一致超越对应的基线方法,且性能增益在推理步数较少时更为显著:



表:AdaGen 在 ImageNet 256×256 上的 FID-50K 结果(↓越低越好),覆盖四大生成范式。注:MaskGIT、DiT、SiT 在不同推理步数 T 下评测;VAR 采用固定的 10 步生成,因此仅在 T=10 列报告结果。

效率优势



图:AdaGen在四种模型上的质量-效率权衡。无论是理论计算量(TFLOPs)还是实际GPU/CPU推理时延,AdaGen均能推进质量-效率前沿,实现1.6×到3.6×的推理加速。

上图系统展示了 AdaGen 在四种生成模型上的质量-效率权衡。无论是理论计算量还是实际推理延迟,AdaGen 均一致推进了质量-效率前沿,实现1.6× 到 3.6×的推理加速。

极低的额外开销

AdaGen 的策略网络仅为生成器增加0.07% 到 0.40%的额外推理计算量,因此其性能提升并不以增大推理开销为代价:



表:AdaGen 策略网络的推理开销占生成器总计算量的比例。

结语

AdaGen 将生成策略的设计从"手工艺术"转变为"数据驱动的优化问题"。通过统一的 MDP 建模、对抗奖励设计和动作平滑技术,AdaGen 以一种轻量、通用的方式,在四大主流生成范式上实现了 17% 到 54% 的性能提升,或 1.6× 到 3.6× 的推理加速。这一工作表明,多步生成模型的潜力远未被充分挖掘——一个好的"调度策略",和模型架构本身同样重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梦龙广告引争议,芭蕾鞋元素被指恋足暗示,创意还是低俗?

梦龙广告引争议,芭蕾鞋元素被指恋足暗示,创意还是低俗?

凤凰网财经
2026-04-13 15:04:13
补齐中国空军短板!国产运-30首飞,外媒:或打破美国60年垄断

补齐中国空军短板!国产运-30首飞,外媒:或打破美国60年垄断

大卫聊科技
2026-04-13 13:13:24
匈牙利总理一夜换人,欧尔班下课将引发哪些震动?

匈牙利总理一夜换人,欧尔班下课将引发哪些震动?

新民周刊
2026-04-13 11:41:18
安平逝世,享年65岁

安平逝世,享年65岁

南方都市报
2026-04-13 19:26:27
约基奇场均29+13+10刷爆历史,NBA用了78年等来第一个三冠王

约基奇场均29+13+10刷爆历史,NBA用了78年等来第一个三冠王

体坛观察猿
2026-04-13 15:02:31
净利大增2000%股价却不到10元!主力悄悄建仓,速看

净利大增2000%股价却不到10元!主力悄悄建仓,速看

慧眼看世界哈哈
2026-04-13 13:25:56
重庆:坚决拥护党中央决定

重庆:坚决拥护党中央决定

农民日报
2026-04-13 20:18:04
5场演唱会同日开!不愧是广州

5场演唱会同日开!不愧是广州

广东发布
2026-04-13 15:06:50
马斯克版微信来了!中国用户可直接下载 网友:Logo亮了

马斯克版微信来了!中国用户可直接下载 网友:Logo亮了

快科技
2026-04-13 19:07:04
美国中央司令部修复了特朗普的“封锁令bug”

美国中央司令部修复了特朗普的“封锁令bug”

凤眼论
2026-04-13 09:50:25
今晚10点全线封锁伊朗!特朗普转身威胁中国:就怕中国忍无可忍

今晚10点全线封锁伊朗!特朗普转身威胁中国:就怕中国忍无可忍

楼苏州
2026-04-13 17:28:52
美媒:美军公布海上封锁伊朗计划细节

美媒:美军公布海上封锁伊朗计划细节

参考消息
2026-04-13 14:32:07
欧尔班时代结束,匈牙利选出新总理,对华态度曝光,最大赢家浮现

欧尔班时代结束,匈牙利选出新总理,对华态度曝光,最大赢家浮现

军机Talk
2026-04-13 13:51:25
2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

2026年车企“最惨”开局:一季度的目标完成度,几乎都低于20%

互联网.乱侃秀
2026-04-12 11:33:02
可绕过弹劾直接罢免特朗普,万斯已经公开翻脸,将提前夺权?

可绕过弹劾直接罢免特朗普,万斯已经公开翻脸,将提前夺权?

清衣渡a
2026-04-13 12:02:37
8.03亿欧!若热刺降级将打破英超降级球队最高德转身价纪录

8.03亿欧!若热刺降级将打破英超降级球队最高德转身价纪录

懂球帝
2026-04-13 19:39:06
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
4月13日俄乌最新:可以提前庆祝了

4月13日俄乌最新:可以提前庆祝了

西楼饮月
2026-04-13 20:06:25
雷军发文:西班牙首相桑切斯今天中午到访小米总部,试用小米17 Ultra并拉我一起自拍,试乘YU7后对天际屏好评很高

雷军发文:西班牙首相桑切斯今天中午到访小米总部,试用小米17 Ultra并拉我一起自拍,试乘YU7后对天际屏好评很高

鲁中晨报
2026-04-13 17:20:12
31岁美女张筱雨去世,刚生完孩子仅1个月,妈妈悲痛透露原因

31岁美女张筱雨去世,刚生完孩子仅1个月,妈妈悲痛透露原因

180视角
2026-04-13 11:01:45
2026-04-13 21:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12751文章数 142624关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

美官员:美军已在中东大规模部署 能确保切断港口交通

头条要闻

美官员:美军已在中东大规模部署 能确保切断港口交通

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

今夜,出大事了,3种结果

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

游戏
时尚
健康
本地
公开课

EWC电竞世界杯: LPL的仇,EWC报!JDG三局击败BLG

“小红鞋”今年春夏又火了!这4双怎么搭都好看

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版