D-OPSD: 将OPSD引入扩散模型，让少步扩散模型「边跑边学」|信号|模态|上下文|pso|新论文

D-OPSD: 将OPSD引入扩散模型，让少步扩散模型「边跑边学」

2026-05-15 15:10:29　来源: 机器之心Pro

河北举报

分享至

本文由阿里巴巴 Z-Image 团队联合香港科技大学等机构共同完成。第一作者为香港科技大学预备博士生 & 通义实验室实习生姜登阳，他的研究方向为视觉表征和生成。

少步扩散模型（如 Z-Image-Turbo）凭借高效采样和优异质量，已成为图像生成领域的主流方案。然而，这些经过 "步数蒸馏" 的模型在持续微调时面临一个棘手问题：传统监督微调（SFT）和离线 RL 方法会让模型 "忘记" 原本的少步生成能力，训练与推理之间存在严重的分布偏移。

为此，阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出D-OPSD（On-Policy Self-Distillation），首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据，仅凭目标图像 - 文本对即可让模型在保持原有少步采样能力的同时，学会新概念、新风格和新领域偏好。在 LoRA 定制和全量微调实验中，D-OPSD 在概念学习、视觉质量、提示词遵循和先验知识保留之间取得了最佳平衡。

论文标题：D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
论文链接：https://arxiv.org/abs/2605.05204
项目主页：https://vvvvvjdy.github.io/d-opsd/
代码地址：https://github.com/vvvvvjdy/D-OPSD

一、核心问题：少步模型的 "持续学习" 困境

当前高性能图像生成模型正从低效的多步采样器转向高效的少步采样器。这些经过步数蒸馏的模型在减少函数评估次数的同时保持了生成质量，极具实用价值。但如何对这类模型进行持续微调，学界尚无明确答案。

传统训练范式各有短板：

Vanilla SFT：通过目标图像构造 GT velocity 进行监督，但优化状态和信号均来自目标图像而非模型自身的少步采样轨迹，导致训练与推理严重不匹配。
离线 RL 方法（如 Diffusion-DPO、PSO）：引入成对监督，但优化状态仍非完全由学生当前分布诱导。
在线 RL 方法（如 ReFL、Flow-GRPO）：在模型 rollout 上训练，能更好保留少步行为，但依赖奖励函数或奖励模型，而二次开发者往往只有图像 - 文本对，难以获取高质量奖励信号。

D-OPSD 在设计空间中占据了一个独特的位置：在线策略、无需奖励模型、保持训练 - 推理一致性，同时通过自蒸馏引入目标图像 - 文本对。

二、关键发现：扩散模型继承了 LLM/VLM 的 "上下文能力"

近期，大语言模型（LLM）领域的 On-Policy Distillation（OPD）和 On-Policy Self-Distillation（OPSD）范式引起了广泛关注。其核心思想是：学生模型在自身采样出的轨迹（on-policy roll-outs）上进行训练，而教师模型在更丰富的上下文条件下提供更强的监督信号，从而在不依赖外部奖励模型的情况下实现高效的后训练对齐。例如，在 LLM 中，学生基于自身采样的回答进行优化，教师则在更完整的上下文（如参考文档、多轮对话历史）下给出更优的预测，通过分布对齐将学生拉向教师。

现代配备 LLM/VLM 编码器的扩散模型，能够从编码器中继承上下文学习（in-context learning）能力。研究团队发现，当仅用文本提示时，模型生成的是通用结果；而当将目标图像与文本提示一起输入编码器、使用多模态特征作为条件时，即使不做任何额外训练，模型也能生成保留目标概念或风格的图像变体。

这一涌现行为为在线策略自蒸馏提供了关键基础：目标图像不再作为直接的降噪目标（那会改变轨迹本身），而是作为更强教师条件的上下文监督信号。学生分支仅基于文本条件采样，教师分支基于文本 + 图像的多模态条件提供更强预测，两者在同一个 on-policy 轨迹上进行对齐。

三、方法框架：学生跑轨迹，教师给监督

D-OPSD 的训练流程如下：

对于每个训练对首先编码学生和教师条件，然后进行学生 on-policy 轨迹采样，再在同一状态上，对齐学生预测速度和教师预测速度，然后更新学生模型和同步 EMA 更新教师。

与 LLM 中的 OPD（On-Policy Distillation）类比：学生的采样响应对应学生的降噪轨迹，教师的更强预测对应更强的条件降噪场。核心区别在于，自回归 LLM 输出离散词表分布，可直接用 KL 散度对齐；而流匹配扩散模型参数化条件速度场，因此 D-OPSD 采用速度预测的均方误差作为对齐目标，起到类似的作用 ——> 将学生的条件生成动态拉向教师，在更强的多模态上下文下对齐诱导的轨迹分布。

四、为什么 D-OPSD 能保留少步能力？

与 SFT 相比，D-OPSD 避免了强迫模型拟合在其自身少步采样过程中从未出现过的目标图像状态。优化始终在学生的实际 rollout 上进行，大幅减少了训练与推理之间的失配。因此，D-OPSD 为步数蒸馏扩散模型提供了一种在线策略监督训练范式，使其能够从目标图像中学习新概念、风格或领域偏好，同时保留原始的少步采样行为。

五、核心实验效果

1. LoRA 定制：少量样本学会新概念

在仅有少量图像 - 文本对的 LoRA 训练中，D-OPSD 能够从极少量样本中学习新概念，同时保持少步生成质量，并能泛化到未见过的提示词。

对比基线模型、SFT 和 PSO：

基线模型：完全不理解新概念 [V]
SFT：虽然学到了概念，但视觉质量明显下降，出现模糊、伪影
PSO：质量较好，但概念保真度不足，且可能破坏原有风格
D-OPSD：在保持高视觉质量的同时，精准复现目标概念，并能自然融入新场景

2. 全量微调：适应新领域不丢老本

在全量微调实验中，D-OPSD 将模型向目标领域（如动漫风格）适配，同时保留原始领域知识和少步推理能力。

SFT：过度拟合目标域，原始域知识严重遗忘
PSO：保留部分先验，但目标域适配不够充分
D-OPSD：在目标域表现优异的同时，原始域生成质量依然稳定，真正实现了 "学新不忘旧"

六、未来值得研究的方向

未来，D-OPSD 框架还可向多个方向拓展：

更丰富的教师上下文：引入图像编辑模型或视频生成模型的指导信号
额外训练约束：结合其他训练目标进一步提升性能
多专家在线策略蒸馏：用其他算法训练领域专属专家后，在 D-OPSD 框架内蒸馏回单一基础模型

即少步扩散模型仍有巨大的后训练提升空间。"蒸馏 + 在线策略" 范式，为未来进一步释放扩散模型在可控性、组合性与持续学习能力方面的潜力，提供了一个充满前景的新方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.