网易首页 > 网易号 > 正文 申请入驻

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

0
分享至



本文由中国科学技术大学、加州大学洛杉矶分校、香港中文大学和小红书等机构合作完成。共同作者第一为中国科学技术大学一年级研究生方镇,他的研究方向为通用多模态智能体。

今年以来,在线策略蒸馏 OPD(On-Policy Distillation)已经逐渐成为大厂 LLM 后训练中的重要组件,例如DeepSeek-V4,GLM5就使用了多教师 OPD 来整合不同领域专家模型的能力,相比混合奖励强化学习收敛更快、效果更好。

那么这样一种高效直观的多教师 OPD 策略是否能够应用于图像生成任务呢?如果可行,这将是构建涵盖多种生成内容、生成质量良好、风格多样的超强通才文生图模型的一次有益尝试!

最近,来自 USTC、UCLA、CUHK 和小红书的研究团队开创性地提出了Flow-OPD,这是首个将 OPD 引入流匹配模型的统一多任务后训练框架,为构建可靠、多维度泛化的视觉基础模型提供了高度可扩展的对齐新范式。





  • 论文标题:Flow-OPD: On-Policy Distillation for Flow Matching Models
  • 论文链接
  • https://arxiv.org/abs/2605.08063
  • 项目主页
  • https://costaliya.github.io/Flow-OPD/
  • 代码地址
  • https://github.com/CostaliyA/Flow-OPD

一、核心问题:GRPO 在多任务中的系统性失效



在流匹配模型的后训练对齐中,核心问题在于模型无法同时兼顾多个异构的对齐任务,陷入了严重的「跷跷板效应」。

具体表现为:

单奖励 GRPO虽然能在孤立的单目标任务中让模型逼近性能天花板,但会导致非目标领域的对齐能力发生严重退化,引发「奖励黑客」行为,如上图所示,使用 GenEval 进行强化学习训练的模型无法成功完成文字渲染和风格化生成任务;

混合奖励 GRPO试图通过简单堆叠或混合多个标量奖励函数来进行联合优化,却根本无法建立稳定的认知基础,每当引入新的奖励信号时,就会引发此前已习得能力的灾难性遗忘与参数吞噬。如下表所示,每当有新的奖励模型加入训练,模型进行基础视觉生成和文本渲染的能力都会下降。



无论是 GRPO 单独训练还是混合训练,其核心症结在于稀疏的标量奖励无法有效调和异构任务之间的梯度冲突,导致单独训练时因缺乏多维监督而引发非目标能力的严重降级,而混合训练则会因异构梯度间的参数内耗触发对先前能力的灾难性遗忘。

那么,是否存在一种训练方式,在每一种任务上都能达到对应的能力上界呢?是否可以通过一种方式,将多个单奖励训练的「教师模型」压缩进一个「学生」,从而构建通才流匹配文生图模型呢?

二、Flow-OPD:首个流匹配模型的 OPD 合版后训练框架

对于相似的多任务优化难题,DeepSeek-V4 和 GLM5 等模型成功启发了我们进行一种另外的尝试:多教师 OPD 合版。通过学生模型的在线 rollout 和教师模型的稠密奖励巧妙解决了多任务的梯度冲突。



Flow-OPD 的训练框架如上图所示:

  • 首先通过单奖励 GRPO 培养对应任务的教师;

  • 对学生模型进行冷启动,这里包含两种冷启动策略,分别是监督微调 SFT 和模型融合。冷启动赋予了较高的初始表现,可以促使学生模仿教师的生成模式,从而快速收敛;

  • 多教师 OPD 蒸馏:Flow-OPD 的核心思想是让学生模型通过「实践」暴露自身的错误与偏差,并在自己生成的图像路径上,实时接受不同专家教师的精准指引。训练时,学生模型通过带有随机性的动态探索,自主生成图像的演变轨迹。每走到一个具体的生成步骤,系统就会根据当前的文字指令,自动将任务派发给对应的领域专家(如文字渲染专家或基础视觉元素生成专家)。这种「术业有专攻」的硬路由机制,让特定专家只针对自身擅长的任务提供黄金标准指导。这里我们选择教师和学生速度场的均方误差对标 LLM OPD 中的 KL 散度。更进一步地,我们选择使用负均方误差替代标准 GRPO 中的奖励,无需组内归一化,使用 PPO-Style 进行参数更新;

  • 激进地优化功能性目标往往会诱发严重的背景模式坍塌和语义冗余。为此,Flow-OPD 引入流形锚点正则化(Manifold Anchor Regularization, MAR)。该机制维护了一个冻结的美学教师模型(Aesthetic Teacher),提供高保真的 KL 正则化,从而保证了学生的生成质量和多样性。

三、实验效果


为了验证 Flow-OPD 的性能,我们使用 stable-diffusion-3.5-medium(SD-3.5-M)作为基线模型,遵循 Flow-GRPO 的数据和训练方式进行教师训练。

多任务性能





多任务训练常面临「顾此失彼」的瓶颈,而新框架 Flow-OPD 实现了突破。它在文本渲染和图像质量等多个维度全面看齐并超越了各领域的专家模型,有效解决了多任务联合训练中的能力衰退与优化难题。

更重要的是,在多位导师模型集体失效的极端边缘场景下,Flow-OPD 表现出「青出于蓝」的「出师」现象(如上图的生成橙色剪刀)。这种通过多专家协同监督的方式,成功消除了单一模型的领域偏见,促使学生模型在潜空间中融会贯通,最终探索出超越任意单一导师的更优解法。

冷启动消融



冷启动初始化为后续训练快速奠定了坚实基础。在现有方案中,监督微调(SFT)扩展性强,具备吸收异构导师能力冷启动的潜力;模型融合(Model Merging)则能在零训练成本下,完美对齐同构导师的各项功能。

MAR 图像质量正则化





传统的 GRPO 优化由于奖励粒度过粗,容易导致模型陷入背景模式崩塌或语义冗余,而单纯依赖导师模型又常面临指令遵循度不足的困境。 MAR 成功突破了这一瓶颈。它将优化过程锚定在高保真流形上,对于所有数据全流程监督,在保持结构多样性的同时,实现了精准的语义遵循。表格的定量结果进一步证实,MAR 引入的全局数据集监督,在图像视觉质量与人类偏好对齐上均取得了显著突破。

四、为什么 Flow-OPD 可以完成多任务联合优化?


Flow-OPD 成功的核心在于在线多专家密集监督机制。传统方法仅依赖稀疏的标量奖励,极易引发任务间的梯度干扰。而 Flow-OPD 在在线训练过程中,将优化实时锚定在高保真流形上,利用多位专家的密集信号进行动态、协同的引导。这种在线互动不仅化解了梯度冲突、消除了单一偏见,更让学生模型在潜空间中融会贯通,高效实现了多任务的实时联合优化与超越。

五、未来的研究方向


未来,Flow-OPD 框架还可向多个方向拓展:

  • 异构导师的动态调度:探索如何动态引入不同架构、不同模态(如纯文本或具身模型)的异构导师,并实现自动化的在线权重分配。

  • 跨流形轨迹的自发演化:深入探索「超越导师」现象,研究如何让学生模型在潜空间中自发创造出导师从未涉足过的全新最优生成轨迹。

  • 轻量化在线蒸馏算法:开发动态专家激活(MoE 化导师集群)或参数共享机制,大幅降低多专家在线训练时的算力和显存开销。

Flow-OPD 作为首次将在线策略蒸馏引入流匹配扩散模型多任务训练的创新尝试,成功打破了传统联合优化的瓶颈。它不仅实现了多能力的完美融合,更展现出「青出于蓝」的超越潜力。未来,这一全新范式有望在具身智能、跨模态协同等更广泛的领域发酵,为构建真正通用、全能的下一代生成式大模型开辟全新的演进路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天赐材料:根据第三方数据分析,公司预计2026年储能电池相关电解液占比在25%-30%之间

天赐材料:根据第三方数据分析,公司预计2026年储能电池相关电解液占比在25%-30%之间

每日经济新闻
2026-05-25 15:53:09
山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

凡知
2026-05-25 13:54:50
劳务派遣迎来至暗时刻,很多公司尤其是央国企开始大规模清退!

劳务派遣迎来至暗时刻,很多公司尤其是央国企开始大规模清退!

灯锦年
2026-05-25 15:33:30
庾澄庆《歌手》首场遭淘汰,洪涛回应:难以理喻,请他是证明“姜还是老的辣”而不是爆冷;节目没有黑幕

庾澄庆《歌手》首场遭淘汰,洪涛回应:难以理喻,请他是证明“姜还是老的辣”而不是爆冷;节目没有黑幕

新民周刊
2026-05-25 12:27:42
知恩图报!德比斯直播百万打赏一分不留,全捐给张雪搞中国青训!

知恩图报!德比斯直播百万打赏一分不留,全捐给张雪搞中国青训!

80后房车生活
2026-05-25 14:45:06
每瓶仅含0.01克,喝几千瓶才抵一个桃!“饮料一哥”也翻车了?杭州多家超市在售,你可能也喝过

每瓶仅含0.01克,喝几千瓶才抵一个桃!“饮料一哥”也翻车了?杭州多家超市在售,你可能也喝过

都市快报橙柿互动
2026-05-24 20:48:16
国际油价,暴跌!

国际油价,暴跌!

新浪财经
2026-05-25 10:50:01
深圳常住人口首次突破1800万,去年增量居全国城市首位

深圳常住人口首次突破1800万,去年增量居全国城市首位

界面新闻
2026-05-25 19:21:51
伊朗最高领袖人间蒸发?美情报揭开惊天秘密:其实住在地下碉堡里

伊朗最高领袖人间蒸发?美情报揭开惊天秘密:其实住在地下碉堡里

菁菁子衿
2026-05-25 13:19:34
追梦:说实话文班的防守比我强,我属于一人之下万人之上

追梦:说实话文班的防守比我强,我属于一人之下万人之上

懂球帝
2026-05-25 14:49:38
不要错过!5月25日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

不要错过!5月25日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-05-25 15:56:00
柴荣这一生犯了最大的错误,就是免去了张永德殿前都点检的职务

柴荣这一生犯了最大的错误,就是免去了张永德殿前都点检的职务

掠影后有感
2026-05-25 10:33:16
犹太和盎撒资本在内斗?一个重要原因是美国收割不了中国

犹太和盎撒资本在内斗?一个重要原因是美国收割不了中国

王鶔吃吃喝喝
2026-05-24 09:10:57
网友质疑违反《劳动法》代价过低,同为法律,执行为何有差距?

网友质疑违反《劳动法》代价过低,同为法律,执行为何有差距?

渔夫说事
2026-05-24 13:10:10
回国后我才敢说:俄罗斯小孩看中国人的眼神,和老人态度截然不同

回国后我才敢说:俄罗斯小孩看中国人的眼神,和老人态度截然不同

复转这些年
2026-05-24 16:38:35
央视三胎宣传片翻车惹争议:看似温情劝生,为何吓退无数年轻人?

央视三胎宣传片翻车惹争议:看似温情劝生,为何吓退无数年轻人?

大稻网络科技
2026-05-25 15:23:25
王楚钦妈妈谈儿媳标准:不要豪门不要颜值,只要这三点!

王楚钦妈妈谈儿媳标准:不要豪门不要颜值,只要这三点!

酷侃体坛
2026-05-25 16:42:10
巴基斯坦总理夏巴兹:愿成为地区“小中国”,签12.2亿美元大单

巴基斯坦总理夏巴兹:愿成为地区“小中国”,签12.2亿美元大单

俄罗斯卫星通讯社
2026-05-25 15:12:43
太夸张了!“捐精1L送奥迪A4L”广告出圈,网友:捐精1升得一辈子

太夸张了!“捐精1L送奥迪A4L”广告出圈,网友:捐精1升得一辈子

火山詩话
2026-05-25 07:09:54
王光慈发声!曝周美青、马唯中见证医嘱:马英九已不宜公开露面

王光慈发声!曝周美青、马唯中见证医嘱:马英九已不宜公开露面

掉了颗大白兔糖
2026-05-25 19:09:43
2026-05-25 21:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13080文章数 142652关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

律师身份证丢失后被他人办卡接收涉赌资金 成被执行人

头条要闻

律师身份证丢失后被他人办卡接收涉赌资金 成被执行人

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

时尚
游戏
数码
公开课
军事航空

初夏穿出温柔范,离不开一条香芋紫色的裙子,轻松告别路人感

战马官宣《天国拯救》新作!2027至2028财年发售

数码要闻

AMD Zen 7“Grimlock”处理器将采用台积电1.4nm制程 并评估FOPLP封装技术

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版