网易首页 > 网易号 > 正文 申请入驻

DiffusionOPD:复旦联合通义万相提出扩散模型在线策略蒸馏新范式

0
分享至



扩散模型在单一任务上的强化学习已经取得了显著进展,例如提升文字生成质量、增强构图准确性,或优化画面美感等。但当这些能力需要同时集成到同一个模型中时,训练往往会变得十分困难:不同任务之间容易产生相互干扰,训练目标也会变得复杂而不稳定。

近期,来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思考。他们认为,多任务强化学习不应被视为一个统一优化问题,而应该解耦为两个彼此独立的过程:单任务的在线策略探索 & 多任务能力整合。

基于这一观点,他们提出了DiffusionOPD,为 diffusion 领域的 On-Policy Distillation 提供了一个统一视角,并建立了相应的理论与实验框架。

DiffusionOPD 的核心思路,是先针对不同任务分别训练各自的「专家教师」模型;随后,再通过在线策略蒸馏,将这些教师模型的能力统一蒸馏到同一个学生模型中,实现多任务能力整合。最终,一个统一的 student model 便能够同时兼顾构图、OCR、美学等多项能力。



  • 论⽂标题:DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
  • 论文地址:https://arxiv.org/abs/2605.15055
  • 项⽬主⻚:https://quanhaol.github.io/DiffusionOPD-site/
  • 代码链接 https://github.com/ali-vilab/DiffusionOPD

多任务强化学习方法

过去常⻅的多任务强化学习⽅法主要有两类。

联合多任务 RL (Joint Multi-Task Optimization) :使用现有的 RL 算法例如 DiffusionNFT, GRPO 去联合优化多个任务。这种范式会撞上两个问题: 1 奖励冲突:不同任务的优化⽅向往往存在相互干扰; 2 任务失衡:简单任务会主导训练过程,导致复杂任务难以充分学习。

级联 RL (Cascade RL):按阶段依次训练不同任务。虽然能够缓解任务冲突,但是训练流程复杂,需要分别调整各阶段的超参数与训练策略,而且容易产生灾难性遗忘,后续任务训练的时候会削弱已有能力。



图 1:(a)相比所有多任务强化学习基线方法,DiffusionOPD 展现出显著更快的收敛速度以及更高的性能上限。(b)在包括 GenEval、OCR 与美学在内的多个任务领域中,DiffusionOPD 均优于所有基线方法。

DiffusionOPD: 单任务探索 + 多任务整合

DiffusionOPD 给出的答案⼲脆利落:多任务强化学习不应被视为一个统一优化问题,而应该解耦为两个彼此独立的过程:单任务的在线策略探索 & 多任务能力整合。



整体训练过程可分为两个阶段

  • Stage 1・单任务⽼师独⽴训练:针对不同任务(如 GenEval、OCR、Aesthetic 等),分别使用现有的 diffusion RL 方法训练对应的「专家教师」模型。其中,GenEval 任务采用 DiffusionNFT,OCR 与美学任务采用 GRPO-Guard。由于每个教师仅负责单一任务,因此能够避免跨任务干扰。
  • Stage 2・在线策略蒸馏多任务能力到学⽣模型:随后,从一个预训练扩散模型初始化统一的学生模型,并通过在线策略蒸馏整合多任务能力。在训练过程中,学生模型针对不同任务,基于自身策略生成去噪轨迹;随后,在学生生成的每个去噪状态上,由对应任务的教师模型提供监督信号。因此,学生模型无需重新对所有任务进行从零探索,而是能够直接学习各任务教师的策略与能力,从而实现高效的多任务能力融合。

Diffusion 领域 OPD 的⽬标函数推导

在 LLM 中,OPD 的做法很自然:学生模型先按照自己的策略生成 token,随后教师模型在学生访问到的每一个 token 状态上提供监督。由于语言模型本身是离散 token 分布,因此可以直接对每一步的 token distribution 做 KL 蒸馏。

但 diffusion model 不一样。它不是离散 token 序列,而是一个连续状态的去噪过程。

因此作者首先把 diffusion 的去噪过程重新视作一个 continuous-state Markov chain(连续状态马尔可夫链)。在这个视角下,每一步去噪 transition 都对应一个 Gaussian transition kernel;学生模型和教师模型分别定义自己的 transition distribution:









接着,论文进一步推导发现:由于 student 和 teacher 的transition covariance 是相同的,于是整个扩散版 OPD ⽬标 reverse KL,就被写成了⼀个完全解析、⽆ Monte-Carlo ⽅差的均值匹配损失:



作者进一步指出这一框架同时统一了stochastic SDE sampler 与 deterministic ODE sampler。在 ODE 情况下目标会退化成均值之间的 L2 匹配。



与 PPO-style policy gradient 的比较

另一个一非常自然的想法是:把老师当作「过程奖励模型」,把 KL 损失看作每一个去燥步的 dense reward 然后计算 advantage,最后套一个 PPO 的损失函数。

DiffusionOPD 论文里严格证明了直接闭式 KL 与 PPO -style policy gradient在期望意义下梯度完全相等。但 PPO 的梯度里会多出一项 score-function 项,它与高斯噪声成正比,期望为零但方差不为零。也就是说,PPO 估计天然比闭式 KL 更「吵」。





更关键的是 PPO 形式离不开 logprob 与 ratio 的计算,因此它在 ODE 确定性采样器下根本无法定义,仅仅支持 SDE sampler。

实验结果

1.与多任务强化学习方法的对比

定量效果对比:



训练曲线对比:



定性效果对比:



图 2:与多任务强化学习方法以及单任务教师模型的定性对比结果。每个案例分为两行展示:第一行从左到右依次为 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行从左到右依次为输入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成结果。

2.蒸馏方法消融:

作者还做了一组很有意义的对照实验:固定同一批专家老师,分别用 DiffusionOPD、DMD、TDM、SFT 蒸馏到同一个学生,控制变量后对比谁更适合「多任务能力整合」这个场景。

训练曲线对比:



曲线表示同样的老师、同样的采样设置,DiffusionOPD 在收敛速度和上限上都明显更好。

定性效果对比:



图 3:与不同蒸馏方法的定性对比结果。从左到右依次为:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。

3.Loss 形式以及 Sampler Type 消融



图 6:关于损失函数形式与采样器噪声水平的消融实验。当噪声水平设为 0 时,SDE sampler 将退化为 ODE sampler。实验结果表明,PPO-style policy gradient 的表现逊于同样 noise level 的 closed-form KL objective;此外,更低的噪声水平能够带来更快的收敛速度和更高的性能上限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
襄阳“割四赔五”后续!当事人还原真相,父亲曝更多,官方回应

襄阳“割四赔五”后续!当事人还原真相,父亲曝更多,官方回应

180视角
2026-05-29 13:43:46
大学食堂打饭阿姨因身材太好被拍照,火了!

大学食堂打饭阿姨因身材太好被拍照,火了!

微微热评
2026-05-30 09:28:52
徐州女幼师用热熔枪连烫两次孩子嘴唇!多名家长称早发现孩子有伤

徐州女幼师用热熔枪连烫两次孩子嘴唇!多名家长称早发现孩子有伤

听心堂
2026-05-29 21:22:08
10名车主诉特斯拉FSD欺诈案近日开庭,索赔金额数百万元

10名车主诉特斯拉FSD欺诈案近日开庭,索赔金额数百万元

新京报
2026-05-29 19:19:44
又一个巨头倒下了?亏损超62亿,一代空调大王爆雷!

又一个巨头倒下了?亏损超62亿,一代空调大王爆雷!

素衣读史
2026-05-29 22:12:03
孔子姓什么?公务员考试一道简单送分题,难倒了大部分人

孔子姓什么?公务员考试一道简单送分题,难倒了大部分人

长风文史
2026-05-27 17:20:34
向太不再隐瞒!曝黄晓明曾当众给她下跪,一句话揭开两人真实关系

向太不再隐瞒!曝黄晓明曾当众给她下跪,一句话揭开两人真实关系

林轻吟
2026-05-30 09:37:08
阿媒:阿库尼亚落选世界杯名单后情绪低落

阿媒:阿库尼亚落选世界杯名单后情绪低落

懂球帝
2026-05-30 02:23:24
不尊重香港?香港网友:黎家盈宇航服上的名字没按香港规矩写

不尊重香港?香港网友:黎家盈宇航服上的名字没按香港规矩写

阿龙聊军事
2026-05-30 08:48:16
为28元外卖恶意投诉骑手!985女白领遭全网社死,已被公司开除

为28元外卖恶意投诉骑手!985女白领遭全网社死,已被公司开除

网络易不易
2026-05-30 06:00:32
关志鸥任湖北省委书记,王忠林另有任用

关志鸥任湖北省委书记,王忠林另有任用

新京报
2026-05-30 09:50:19
网传26岁教师赛课时猝死:“表演式”赛课该停停了

网传26岁教师赛课时猝死:“表演式”赛课该停停了

教师吧
2026-05-30 09:20:39
奇耻大辱!女子因醋意大发,将用过的卫生巾塞闺蜜嘴里,被索20万

奇耻大辱!女子因醋意大发,将用过的卫生巾塞闺蜜嘴里,被索20万

火山詩话
2026-05-29 17:38:23
夏天,这碱性菜再贵也要多吃,一降火、二解暑,三补钙补钾,好吃

夏天,这碱性菜再贵也要多吃,一降火、二解暑,三补钙补钾,好吃

阿龙美食记
2026-05-29 21:52:34
“说着说着,他的手就趁你不注意,他手就捞过来,就很熟练。”武汉女子称报案维权反遭猥亵,多次向相关部门举报、报警

“说着说着,他的手就趁你不注意,他手就捞过来,就很熟练。”武汉女子称报案维权反遭猥亵,多次向相关部门举报、报警

都市快报橙柿互动
2026-05-30 08:18:51
“司机激活智驾,双手脱离方向盘”,一轿车追尾货车致3死,调查报告公布

“司机激活智驾,双手脱离方向盘”,一轿车追尾货车致3死,调查报告公布

南方都市报
2026-05-30 10:38:10
联合国变天?秘书长候选人出现,巴西力挺,中方:不准有官僚主义

联合国变天?秘书长候选人出现,巴西力挺,中方:不准有官僚主义

闻识
2026-05-30 00:43:28
环塔拉力赛一车手因事故身亡,家属称翻车后被困一小时 同车领航员:车倒扣进水沟,车手很快没了意识

环塔拉力赛一车手因事故身亡,家属称翻车后被困一小时 同车领航员:车倒扣进水沟,车手很快没了意识

红星新闻
2026-05-29 23:57:26
有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

浪子说
2026-05-30 00:05:05
年度荒诞事件,又好笑又辛酸

年度荒诞事件,又好笑又辛酸

亮见
2026-05-29 15:13:21
2026-05-30 13:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13116文章数 142655关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

车内放3千万财物的宾利遭窃 车主:金条是最不值钱的

头条要闻

车内放3千万财物的宾利遭窃 车主:金条是最不值钱的

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
本地
亲子
公开课
军事航空

《星际争霸2》PTR发布更新档 大幅改动游戏平衡性

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

孩子食欲不振怎么办,开点香辣鸡腿堡就好了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版