网易首页 > 网易号 > 正文 申请入驻

D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」

0
分享至



本文由阿里巴巴 Z-Image 团队联合香港科技大学等机构共同完成。第一作者为香港科技大学预备博士生 & 通义实验室实习生姜登阳,他的研究方向为视觉表征和生成。

少步扩散模型(如 Z-Image-Turbo)凭借高效采样和优异质量,已成为图像生成领域的主流方案。然而,这些经过 "步数蒸馏" 的模型在持续微调时面临一个棘手问题:传统监督微调(SFT)和离线 RL 方法会让模型 "忘记" 原本的少步生成能力,训练与推理之间存在严重的分布偏移。

为此,阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,仅凭目标图像 - 文本对即可让模型在保持原有少步采样能力的同时,学会新概念、新风格和新领域偏好。在 LoRA 定制和全量微调实验中,D-OPSD 在概念学习、视觉质量、提示词遵循和先验知识保留之间取得了最佳平衡。



  • 论文标题:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
  • 论文链接:https://arxiv.org/abs/2605.05204
  • 项目主页:https://vvvvvjdy.github.io/d-opsd/
  • 代码地址:https://github.com/vvvvvjdy/D-OPSD

一、核心问题:少步模型的 "持续学习" 困境

当前高性能图像生成模型正从低效的多步采样器转向高效的少步采样器。这些经过步数蒸馏的模型在减少函数评估次数的同时保持了生成质量,极具实用价值。但如何对这类模型进行持续微调,学界尚无明确答案。

传统训练范式各有短板:



  • Vanilla SFT:通过目标图像构造 GT velocity 进行监督,但优化状态和信号均来自目标图像而非模型自身的少步采样轨迹,导致训练与推理严重不匹配。
  • 离线 RL 方法(如 Diffusion-DPO、PSO):引入成对监督,但优化状态仍非完全由学生当前分布诱导。
  • 在线 RL 方法(如 ReFL、Flow-GRPO):在模型 rollout 上训练,能更好保留少步行为,但依赖奖励函数或奖励模型,而二次开发者往往只有图像 - 文本对,难以获取高质量奖励信号。

D-OPSD 在设计空间中占据了一个独特的位置:在线策略、无需奖励模型、保持训练 - 推理一致性,同时通过自蒸馏引入目标图像 - 文本对。

二、关键发现:扩散模型继承了 LLM/VLM 的 "上下文能力"

近期,大语言模型(LLM)领域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了广泛关注。其核心思想是:学生模型在自身采样出的轨迹(on-policy roll-outs)上进行训练,而教师模型在更丰富的上下文条件下提供更强的监督信号,从而在不依赖外部奖励模型的情况下实现高效的后训练对齐。例如,在 LLM 中,学生基于自身采样的回答进行优化,教师则在更完整的上下文(如参考文档、多轮对话历史)下给出更优的预测,通过分布对齐将学生拉向教师。

现代配备 LLM/VLM 编码器的扩散模型,能够从编码器中继承上下文学习(in-context learning)能力。研究团队发现,当仅用文本提示时,模型生成的是通用结果;而当将目标图像与文本提示一起输入编码器、使用多模态特征作为条件时,即使不做任何额外训练,模型也能生成保留目标概念或风格的图像变体。



这一涌现行为为在线策略自蒸馏提供了关键基础:目标图像不再作为直接的降噪目标(那会改变轨迹本身),而是作为更强教师条件的上下文监督信号。学生分支仅基于文本条件采样,教师分支基于文本 + 图像的多模态条件提供更强预测,两者在同一个 on-policy 轨迹上进行对齐。

三、方法框架:学生跑轨迹,教师给监督

D-OPSD 的训练流程如下:



对于每个训练对 首先编码学生和教师条件,然后进行学生 on-policy 轨迹采样,再在同一状态上,对齐学生预测速度和 教师预测速度,然后更新学生模型和同步 EMA 更新教师。



与 LLM 中的 OPD(On-Policy Distillation)类比:学生的采样响应对应学生的降噪轨迹,教师的更强预测对应更强的条件降噪场。核心区别在于,自回归 LLM 输出离散词表分布,可直接用 KL 散度对齐;而流匹配扩散模型参数化条件速度场,因此 D-OPSD 采用速度预测的均方误差作为对齐目标,起到类似的作用 ——> 将学生的条件生成动态拉向教师,在更强的多模态上下文下对齐诱导的轨迹分布。

四、为什么 D-OPSD 能保留少步能力?

与 SFT 相比,D-OPSD 避免了强迫模型拟合在其自身少步采样过程中从未出现过的目标图像状态。优化始终在学生的实际 rollout 上进行,大幅减少了训练与推理之间的失配。因此,D-OPSD 为步数蒸馏扩散模型提供了一种在线策略监督训练范式,使其能够从目标图像中学习新概念、风格或领域偏好,同时保留原始的少步采样行为。

五、核心实验效果


1. LoRA 定制:少量样本学会新概念

在仅有少量图像 - 文本对的 LoRA 训练中,D-OPSD 能够从极少量样本中学习新概念,同时保持少步生成质量,并能泛化到未见过的提示词。

对比基线模型、SFT 和 PSO:

  • 基线模型:完全不理解新概念 [V]
  • SFT:虽然学到了概念,但视觉质量明显下降,出现模糊、伪影
  • PSO:质量较好,但概念保真度不足,且可能破坏原有风格
  • D-OPSD:在保持高视觉质量的同时,精准复现目标概念,并能自然融入新场景



2. 全量微调:适应新领域不丢老本

在全量微调实验中,D-OPSD 将模型向目标领域(如动漫风格)适配,同时保留原始领域知识和少步推理能力。

  • SFT:过度拟合目标域,原始域知识严重遗忘
  • PSO:保留部分先验,但目标域适配不够充分
  • D-OPSD:在目标域表现优异的同时,原始域生成质量依然稳定,真正实现了 "学新不忘旧"

六、未来值得研究的方向


未来,D-OPSD 框架还可向多个方向拓展:

  • 更丰富的教师上下文:引入图像编辑模型或视频生成模型的指导信号
  • 额外训练约束:结合其他训练目标进一步提升性能
  • 多专家在线策略蒸馏:用其他算法训练领域专属专家后,在 D-OPSD 框架内蒸馏回单一基础模型

即少步扩散模型仍有巨大的后训练提升空间。"蒸馏 + 在线策略" 范式,为未来进一步释放扩散模型在可控性、组合性与持续学习能力方面的潜力,提供了一个充满前景的新方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
方媛,为何要来《桃花坞6》没苦硬吃?

方媛,为何要来《桃花坞6》没苦硬吃?

娱乐圈笔娱君
2026-05-15 14:19:34
多名院士调查发现:吃一口隔夜剩米饭,等于进一次毒?

多名院士调查发现:吃一口隔夜剩米饭,等于进一次毒?

鬼菜生活
2026-05-14 18:27:08
抢状元了!所有人都猜错了!爵士想要的是他!

抢状元了!所有人都猜错了!爵士想要的是他!

柚子说球
2026-05-15 15:33:34
中美会谈结束,特朗普松开了中方的手,中方邻国的心思藏不住了

中美会谈结束,特朗普松开了中方的手,中方邻国的心思藏不住了

各地精彩不容错过
2026-05-15 16:02:34
名记:姆巴佩与阿韦洛亚之争证实,阿隆索是被三巨头联手做掉的

名记:姆巴佩与阿韦洛亚之争证实,阿隆索是被三巨头联手做掉的

星耀国际足坛
2026-05-15 11:08:33
昨天还是“帝国主义走狗”,今天就在克里姆林宫喝酒

昨天还是“帝国主义走狗”,今天就在克里姆林宫喝酒

小院之观
2026-05-14 12:58:05
人类对“华强买瓜”的开发程度仍不足百分之一

人类对“华强买瓜”的开发程度仍不足百分之一

BB姬
2026-05-14 22:05:25
马斯克晚宴上同框库克,却望向了美女服务员,“表情灵动”引热议

马斯克晚宴上同框库克,却望向了美女服务员,“表情灵动”引热议

译言
2026-05-14 21:18:22
特朗普访华  椰树牌火山岩矿泉水爆红 中美双边会谈饮料成热话

特朗普访华 椰树牌火山岩矿泉水爆红 中美双边会谈饮料成热话

环球趣闻分享
2026-05-15 16:36:13
黄仁勋算不算中国人?血统追根溯源一目了然,下一代截然不同

黄仁勋算不算中国人?血统追根溯源一目了然,下一代截然不同

奇思妙想生活家
2026-05-14 00:17:49
日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

天天热点见闻
2026-05-15 06:26:40
谢幕了!没有4000万可能真不玩了

谢幕了!没有4000万可能真不玩了

体育新角度
2026-05-15 16:49:47
马斯克儿子一身新中式火了!虎头包338元“广西制造”,马甲定价970元

马斯克儿子一身新中式火了!虎头包338元“广西制造”,马甲定价970元

上观新闻
2026-05-15 09:28:11
已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

新时代的两性情感
2026-05-15 10:08:20
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

小小科普员
2026-03-26 00:27:10
央视以约1.1亿美元拿下2026世界杯转播权!抖音等平台与央视分销

央视以约1.1亿美元拿下2026世界杯转播权!抖音等平台与央视分销

开成运动会
2026-05-15 16:48:53
外交部:中方支持主席国印度成功举办金砖国家外长会晤

外交部:中方支持主席国印度成功举办金砖国家外长会晤

澎湃新闻
2026-05-14 15:42:25
突然强势拉升!外交部就特朗普访华情况答记者问,科创芯片ETF(588290)上涨1.32%

突然强势拉升!外交部就特朗普访华情况答记者问,科创芯片ETF(588290)上涨1.32%

每日经济新闻
2026-05-15 11:24:39
广东季后赛出局后,已有3名国内球员确定离队,外援或只留下一人

广东季后赛出局后,已有3名国内球员确定离队,外援或只留下一人

宏远小师哥
2026-05-15 17:07:19
国宴服务员走红,气质拿捏太到位

国宴服务员走红,气质拿捏太到位

乡野小珥
2026-05-15 10:24:09
2026-05-15 17:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13004文章数 142649关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

银行买"雇员忠诚险"后员工骗走客户393万 欲理赔被拒

头条要闻

银行买"雇员忠诚险"后员工骗走客户393万 欲理赔被拒

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

标杆级乘坐感受 驾驶智界V9需要再细腻一点?

态度原创

健康
本地
旅游
教育
军事航空

专家揭秘干细胞回输的安全风险

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

野外露营地如何选?这份安全指南请查收

教育要闻

既要学校稳,又要同学好,还要门槛低?这所学校满足你!

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版