告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成|轨迹|模态|异构|opd|多任务|新论文|flow

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

2026-05-25 14:49:32　来源: 机器之心Pro

天津举报

分享至

本文由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作完成。共同作者第一为中国科学技术大学一年级研究生方镇，他的研究方向为通用多模态智能体。

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如DeepSeek-V4，GLM5就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好。

那么这样一种高效直观的多教师 OPD 策略是否能够应用于图像生成任务呢？如果可行，这将是构建涵盖多种生成内容、生成质量良好、风格多样的超强通才文生图模型的一次有益尝试！

最近，来自 USTC、UCLA、CUHK 和小红书的研究团队开创性地提出了Flow-OPD，这是首个将 OPD 引入流匹配模型的统一多任务后训练框架，为构建可靠、多维度泛化的视觉基础模型提供了高度可扩展的对齐新范式。

论文标题：Flow-OPD: On-Policy Distillation for Flow Matching Models
论文链接
https://arxiv.org/abs/2605.08063
项目主页
https://costaliya.github.io/Flow-OPD/
代码地址
https://github.com/CostaliyA/Flow-OPD

一、核心问题：GRPO 在多任务中的系统性失效

在流匹配模型的后训练对齐中，核心问题在于模型无法同时兼顾多个异构的对齐任务，陷入了严重的「跷跷板效应」。

具体表现为：

单奖励 GRPO虽然能在孤立的单目标任务中让模型逼近性能天花板，但会导致非目标领域的对齐能力发生严重退化，引发「奖励黑客」行为，如上图所示，使用 GenEval 进行强化学习训练的模型无法成功完成文字渲染和风格化生成任务；

混合奖励 GRPO试图通过简单堆叠或混合多个标量奖励函数来进行联合优化，却根本无法建立稳定的认知基础，每当引入新的奖励信号时，就会引发此前已习得能力的灾难性遗忘与参数吞噬。如下表所示，每当有新的奖励模型加入训练，模型进行基础视觉生成和文本渲染的能力都会下降。

无论是 GRPO 单独训练还是混合训练，其核心症结在于稀疏的标量奖励无法有效调和异构任务之间的梯度冲突，导致单独训练时因缺乏多维监督而引发非目标能力的严重降级，而混合训练则会因异构梯度间的参数内耗触发对先前能力的灾难性遗忘。

那么，是否存在一种训练方式，在每一种任务上都能达到对应的能力上界呢？是否可以通过一种方式，将多个单奖励训练的「教师模型」压缩进一个「学生」，从而构建通才流匹配文生图模型呢？

二、Flow-OPD：首个流匹配模型的 OPD 合版后训练框架

对于相似的多任务优化难题，DeepSeek-V4 和 GLM5 等模型成功启发了我们进行一种另外的尝试：多教师 OPD 合版。通过学生模型的在线 rollout 和教师模型的稠密奖励巧妙解决了多任务的梯度冲突。

Flow-OPD 的训练框架如上图所示：

首先通过单奖励 GRPO 培养对应任务的教师；

对学生模型进行冷启动，这里包含两种冷启动策略，分别是监督微调 SFT 和模型融合。冷启动赋予了较高的初始表现，可以促使学生模仿教师的生成模式，从而快速收敛；

多教师 OPD 蒸馏：Flow-OPD 的核心思想是让学生模型通过「实践」暴露自身的错误与偏差，并在自己生成的图像路径上，实时接受不同专家教师的精准指引。训练时，学生模型通过带有随机性的动态探索，自主生成图像的演变轨迹。每走到一个具体的生成步骤，系统就会根据当前的文字指令，自动将任务派发给对应的领域专家（如文字渲染专家或基础视觉元素生成专家）。这种「术业有专攻」的硬路由机制，让特定专家只针对自身擅长的任务提供黄金标准指导。这里我们选择教师和学生速度场的均方误差对标 LLM OPD 中的 KL 散度。更进一步地，我们选择使用负均方误差替代标准 GRPO 中的奖励，无需组内归一化，使用 PPO-Style 进行参数更新；

激进地优化功能性目标往往会诱发严重的背景模式坍塌和语义冗余。为此，Flow-OPD 引入流形锚点正则化（Manifold Anchor Regularization, MAR）。该机制维护了一个冻结的美学教师模型（Aesthetic Teacher），提供高保真的 KL 正则化，从而保证了学生的生成质量和多样性。

三、实验效果

为了验证 Flow-OPD 的性能，我们使用 stable-diffusion-3.5-medium（SD-3.5-M）作为基线模型，遵循 Flow-GRPO 的数据和训练方式进行教师训练。

多任务性能

多任务训练常面临「顾此失彼」的瓶颈，而新框架 Flow-OPD 实现了突破。它在文本渲染和图像质量等多个维度全面看齐并超越了各领域的专家模型，有效解决了多任务联合训练中的能力衰退与优化难题。

更重要的是，在多位导师模型集体失效的极端边缘场景下，Flow-OPD 表现出「青出于蓝」的「出师」现象（如上图的生成橙色剪刀）。这种通过多专家协同监督的方式，成功消除了单一模型的领域偏见，促使学生模型在潜空间中融会贯通，最终探索出超越任意单一导师的更优解法。

冷启动消融

冷启动初始化为后续训练快速奠定了坚实基础。在现有方案中，监督微调（SFT）扩展性强，具备吸收异构导师能力冷启动的潜力；模型融合（Model Merging）则能在零训练成本下，完美对齐同构导师的各项功能。

MAR 图像质量正则化

传统的 GRPO 优化由于奖励粒度过粗，容易导致模型陷入背景模式崩塌或语义冗余，而单纯依赖导师模型又常面临指令遵循度不足的困境。 MAR 成功突破了这一瓶颈。它将优化过程锚定在高保真流形上，对于所有数据全流程监督，在保持结构多样性的同时，实现了精准的语义遵循。表格的定量结果进一步证实，MAR 引入的全局数据集监督，在图像视觉质量与人类偏好对齐上均取得了显著突破。

四、为什么 Flow-OPD 可以完成多任务联合优化？

Flow-OPD 成功的核心在于在线多专家密集监督机制。传统方法仅依赖稀疏的标量奖励，极易引发任务间的梯度干扰。而 Flow-OPD 在在线训练过程中，将优化实时锚定在高保真流形上，利用多位专家的密集信号进行动态、协同的引导。这种在线互动不仅化解了梯度冲突、消除了单一偏见，更让学生模型在潜空间中融会贯通，高效实现了多任务的实时联合优化与超越。

五、未来的研究方向

未来，Flow-OPD 框架还可向多个方向拓展：

异构导师的动态调度：探索如何动态引入不同架构、不同模态（如纯文本或具身模型）的异构导师，并实现自动化的在线权重分配。

跨流形轨迹的自发演化：深入探索「超越导师」现象，研究如何让学生模型在潜空间中自发创造出导师从未涉足过的全新最优生成轨迹。

轻量化在线蒸馏算法：开发动态专家激活（MoE 化导师集群）或参数共享机制，大幅降低多专家在线训练时的算力和显存开销。

Flow-OPD 作为首次将在线策略蒸馏引入流匹配扩散模型多任务训练的创新尝试，成功打破了传统联合优化的瓶颈。它不仅实现了多能力的完美融合，更展现出「青出于蓝」的超越潜力。未来，这一全新范式有望在具身智能、跨模态协同等更广泛的领域发酵，为构建真正通用、全能的下一代生成式大模型开辟全新的演进路径。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.