网易首页 > 网易号 > 正文 申请入驻

DPO与GRPO谁更胜一筹?港中文、北大等发布首个系统性对比研究

0
分享至

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

如今,这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和GRPO在这个新战场上表现如何?它们各自的优势、挑战以及最佳实践又是什么?

近日,一篇来自香港中文大学、北京大学及上海人工智能实验室的最新研究给出了答案。该研究首次对 GRPO 和 DPO 算法在自回归图像生成中的应用进行了全面深入的比较,不仅评估了它们在域内(in-domain)和域外(out-of-domain)的性能,还细致探究了不同奖励模型及扩展策略对其能力的影响。

  • 论文标题:Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
  • 论文链接:https://arxiv.org/abs/2505.17017
  • 代码链接:https://github.com/ZiyuGuo99/Image-Generation-CoT

与 LLM 的 CoT 推理不同,图像生成的 CoT 面临着独特的挑战,例如确保文本 - 图像一致性、提升图像美学质量以及设计复杂的奖励模型(而非简单的基于规则的奖励)。现有工作虽然已将 RL 引入该领域,但往往缺乏对这些领域特定挑战以及不同 RL 策略特性的深入分析。

该团队的这项新研究填补了这一空白,为我们揭示了 DPO 和 GRPO 在图像生成领域的「相爱相杀」和「各自为王」。

图 1: GRPO 与 DPO 在自回归图像生成中的研究总览,涵盖了域内域外性能对比、不同奖励模型的影响以及扩展策略的效果。

研究核心发现概览

研究团队以最新的自回归图像生成模型Janus-Pro为基线,在 T2I-CompBench (域内、长文本复杂场景) 和GenEval(域外、短文本模板化) 数据集上进行了细致评估。核心发现可归纳为三大方面:

1. 域内性能 vs. 域外泛化:DPO 与 GRPO 各擅胜场

  • DPO 称雄域内: 实验结果显示,离策略 (off-policy) 的 DPO 方法在域内任务上表现优于 GRPO。在 T2I-CompBench 数据集上,DPO 的平均性能比 GRPO 高出约 11.53%;在使用官方评估工具作为奖励信号时,DPO 甚至能达到 7.8% 的峰值提升。这突显了 DPO 在域内任务上的有效性和鲁棒性。
  • GRPO 泛化更强: 与之相反,在策略 (on-policy) 的 GRPO 在域外泛化能力上表现更出色。在 GenEval 数据集上,GRPO 始终展现出比 DPO 更好的泛化性能;在使用HPS奖励模型时,GRPO 的峰值提升甚至比 DPO 高出 2.42%。

2. 奖励模型的影响:DPO 更敏感,优质奖励模型提升 RL 泛化

  • DPO 对奖励模型选择更敏感: 研究发现,DPO 的泛化性能对奖励模型的选择比 GRPO 更为敏感,表现为更大的域外性能波动。GRPO 在 GenEval 上的性能方差为 0.5486,显著低于 DPO 的 0.9547。
  • 奖励模型的内在泛化能力至关重要: 一个具有更强内在泛化能力的奖励模型,能够潜在地提升 RL 算法的整体泛化性能。研究中,不同奖励模型(如 HPS、ImageReward、Unified Reward 等)在 GenEval 上的表现排序,与它们通过 GRPO 或 DPO 优化后的 RL 模型表现排序高度一致。

3. 有效扩展策略的探索:因材施教,DPO 与 GRPO 策略迥异

研究团队系统探索了三种主流扩展策略:扩展每个提示生成的样本图像数量、扩展域内训练数据的多样性和体量,以及采用迭代训练方法。

  • 对于 GRPO:

  • 扩展采样图像数量能带来更高效的域内性能提升。
  • 适度扩展采样规模和域内数据有助于改善泛化能力,但过度扩展可能导致过拟合。

  • 对于 DPO:

  • 迭代训练倾向于最大化域内性能,但在多轮迭代后可能损害泛化能力。
  • 适度采样能锐化偏好对比,优化域内和域外性能;但过度采样会引入偏差。
  • 扩展域内数据通过缓解小数据集带来的偏好范围局限,能同时提升域内和域外性能。

研究细节与洞察

研究团队首先明确了任务设定:自回归图像生成模型(如 LlamaGen、Show-o、Janus-Pro)通过将图像转换为离散 token 序列进行预测,其过程与 LLM 的文本生成类似,因此可以无缝集成 DPO 和 GRPO 的损失机制。

在DPO 与 GRPO 的对比中,研究者确保了两者在计算成本上的可比性。例如,DPO 中每个 prompt 生成的图像数量与 GRPO 中的组大小对齐,并使用相同的奖励模型。

结果清晰地显示,DPO 凭借其对预收集静态数据的有效利用,在域内场景(如 T2I-CompBench 的复杂长描述)中表现更佳。而 GRPO 通过迭代优化策略和在线采样,更能适应复杂任务分布,从而在域外场景(如 GenEval 的模板化短描述)中展现出更强的泛化性。

图 2: 域内与域外性能对比的可视化结果。

在奖励模型影响的分析中,研究团队考察了三类奖励模型:基于人类偏好的模型 (HPS, ImageReward)、视觉问答模型 (UnifiedReward, Ft. ORM) 和基于度量的奖励模型。

一个有趣的发现是,奖励模型自身的泛化能力(通过 best-of-N 策略在 GenEval 上评估得到)与通过 RL 算法(DPO 或 GRPO)训练后模型的泛化能力排序高度吻合(Unified Reward > Image Reward > HPS Reward)。这表明,提升奖励模型本身的泛化性是提升 RL 泛化性的一个关键途径。

图 3: 不同奖励模型影响的可视化结果。

在扩展策略的探索上,研究团队针对 GRPO 和 DPO 的特性提出了不同的优化路径。例如,对于 GRPO,增加每轮采样的图像数量(group size)比增加训练数据量或迭代次数,能更经济地提升域内性能。

而对于 DPO,迭代训练(如 DPO-Iter)虽然能显著提升域内分数,但过早地在泛化能力上达到瓶颈甚至衰退,这可能源于对训练偏好数据的过拟合。另一方面,扩展域内训练数据的多样性和数量,则能帮助 DPO 克服小规模偏好数据集带来的局限性,从而同时提升域内和域外表现。

图 4: 扩展策略影响的可视化结果。

总结与展望

这项研究为我们提供了一幅关于 DPO 和 GRPO 在自回归图像生成领域应用的清晰图景。它不仅揭示了 DPO 在域内任务上的优势和 GRPO 在域外泛化上的长处,还强调了高质量、高泛化性奖励模型的重要性,并为两种 RL 范式提供了针对性的扩展策略建议。

这些发现为未来开发更高效的 RL 算法,以在自回归图像生成领域实现更鲁棒的 CoT 推理,铺平了新的道路。研究者希望这项工作能启发更多后续研究,共同推动 AI 在视觉创造力上的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家明确2026债务新规!这6种债直接作废,欠债人可以不用还了?

国家明确2026债务新规!这6种债直接作废,欠债人可以不用还了?

今朝牛马
2026-01-08 16:52:13
单亲妈妈柬埔寨寻子一个月无果,19岁小伙疑被16万元转卖,与母亲视频通话时曾按“酒窝”暗示“救我”

单亲妈妈柬埔寨寻子一个月无果,19岁小伙疑被16万元转卖,与母亲视频通话时曾按“酒窝”暗示“救我”

极目新闻
2026-01-08 21:08:49
新华社痛批!多地加油站疯狂作弊,网友:罚2000是在鼓励犯罪吗?

新华社痛批!多地加油站疯狂作弊,网友:罚2000是在鼓励犯罪吗?

徐德文科学频道
2026-01-08 15:05:15
亚运冠军举报训练基地负责人“索要奖金”续:云南体育局称“很快会有结论”

亚运冠军举报训练基地负责人“索要奖金”续:云南体育局称“很快会有结论”

澎湃新闻
2026-01-08 16:04:29
郑州9岁女孩课堂上写试卷时昏倒去世,家属不忍尸检“她怕疼”,当地成立专班调查

郑州9岁女孩课堂上写试卷时昏倒去世,家属不忍尸检“她怕疼”,当地成立专班调查

大风新闻
2026-01-08 14:41:04
美国被爆对委内瑞拉动手背后,暗藏一个更大图谋!

美国被爆对委内瑞拉动手背后,暗藏一个更大图谋!

环球时报国际
2026-01-08 20:56:04
分手传闻持续发酵后,一言不发的庞众望,终于不再顾忌所谓的体面

分手传闻持续发酵后,一言不发的庞众望,终于不再顾忌所谓的体面

观察者海风
2026-01-08 09:35:23
女子开车碾压草场后续:扬言撞死牧民,真实身份被扒,公司被牵连

女子开车碾压草场后续:扬言撞死牧民,真实身份被扒,公司被牵连

奇思妙想草叶君
2026-01-07 23:56:24
宜家的问题已经挺严重了

宜家的问题已经挺严重了

蔚然未来消费
2026-01-08 08:34:50
U23国足遭暴击!鲍世蒙8分钟闪退,抢断王出场,媒体人:因祸得福

U23国足遭暴击!鲍世蒙8分钟闪退,抢断王出场,媒体人:因祸得福

奥拜尔
2026-01-08 22:15:59
挨冻的河北农村老人:每年好几千燃气费舍不得烧,合作医疗也得好几千

挨冻的河北农村老人:每年好几千燃气费舍不得烧,合作医疗也得好几千

小萝卜丝
2026-01-08 11:23:44
临走前李在明涉台表述更进一步,并提四大请求,中方应对很有格局

临走前李在明涉台表述更进一步,并提四大请求,中方应对很有格局

博览历史
2026-01-08 18:45:46
中国养老负担将越来越重:从4.7个劳动力养一个老人到1.9个劳动力供养1个老人

中国养老负担将越来越重:从4.7个劳动力养一个老人到1.9个劳动力供养1个老人

西虹市闲话
2026-01-08 13:51:18
电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

星空区块链
2026-01-07 21:14:37
唏嘘!34岁J罗失业第8天+5年遭7队抛弃 全网投简历求职无人回应他

唏嘘!34岁J罗失业第8天+5年遭7队抛弃 全网投简历求职无人回应他

风过乡
2026-01-08 20:41:14
农民日报关于河北农民取暖难的稿,为啥不见了?

农民日报关于河北农民取暖难的稿,为啥不见了?

笔杆论道
2026-01-08 07:02:14
周琦专访:赵睿当初的首选不是首钢;合作最舒服的后卫是赵继伟

周琦专访:赵睿当初的首选不是首钢;合作最舒服的后卫是赵继伟

懂球帝
2026-01-08 20:06:44
安徽美女陈秀丽去世,年仅36岁,确诊前天天跑步,每天都喝黑咖啡

安徽美女陈秀丽去世,年仅36岁,确诊前天天跑步,每天都喝黑咖啡

180视角
2026-01-08 13:58:25
26年央视春晚导演官宣彩排!小品领军人物确认回归,终于等到这天

26年央视春晚导演官宣彩排!小品领军人物确认回归,终于等到这天

瓜汁橘长Dr
2026-01-08 10:51:52
中国母女2人在老挝遇害身亡,嫌疑人曾在被害女子丈夫手下工作,母亲奔逃呼救画面被拍下

中国母女2人在老挝遇害身亡,嫌疑人曾在被害女子丈夫手下工作,母亲奔逃呼救画面被拍下

扬子晚报
2026-01-08 20:25:37
2026-01-08 23:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12080文章数 142532关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

10岁抗癌"王子"病情恶化 家人"放弃治疗"孩子憧憬出院

头条要闻

10岁抗癌"王子"病情恶化 家人"放弃治疗"孩子憧憬出院

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

游戏
旅游
时尚
房产
公开课

重制《最终幻想6》?《FF7RE》制作人回应!

旅游要闻

特写:在台湾基隆“穿越”刘铭传隧道

190万赞的爆款女孩,等待代表作

房产要闻

豪宅抢疯、刚需捡漏……2025年,一张房票改写了广州市场格局

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版