港大赵恒爽团队论文：让扩散模型既拿高分又不「作弊」丨CVPR 2026|实验|计算机视觉

分享至

GDRO：一种通过组级奖励排序优化扩散模型生成能力的后训练方法。

作者丨郑佳美

编辑丨岑峰

现如今，扩散模型已经成为当前图像生成领域的核心技术之一。从文本生成图像到复杂视觉内容合成，这类模型已经能够生成高度逼真的画面。然而，在真实应用场景中，人们对生成模型的要求并不仅仅是“生成逼真图像”，而是希望模型能够严格按照提示完成特定任务。

例如，在要求生成包含指定文字的图像时，模型可能 simply 将文字放大到占据画面大部分区域，从而轻松获得 OCR 系统的高分，而在需要生成多个对象的任务中，模型也可能通过极度简化场景结构来满足评分规则。这种现象通常被称为“奖励作弊”，已经成为当前生成模型对齐研究中的一个重要挑战。

为了解决这一问题，近年来一些研究开始尝试利用强化学习或奖励机制对扩散模型进行后训练，希望通过奖励信号引导模型生成更加符合任务要求的内容。然而实践中逐渐发现，这种方法容易带来一个新的问题：模型可能学会迎合评价指标，而不是理解任务本身。

在这样的研究背景下，香港大学赵恒爽团队提出了一种新的扩散模型后训练方法，并在论文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中系统探讨了这一问题。研究通过引入组级奖励优化机制对扩散模型进行后训练，在提升模型任务表现的同时有效缓解奖励作弊问题，并且还可以显著提高训练效率。

更重要的，这一方法在实际应用中也具有明显的工程价值。传统的在线强化学习方法通常需要在每一次优化步骤中重新执行完整的扩散采样过程来生成图像，这意味着模型需要不断运行完整的扩散链进行图像生成，在线采样往往成为训练过程中最主要的时间和计算开销。

相比之下，GDRO 支持完全离线的训练方式，在训练开始之前先生成并保存带有评分信息的图像数据，之后的优化过程无需再依赖扩散采样，从而避免了重复执行扩散链带来的巨大计算成本。同时，这个方法也不依赖特定的扩散采样器，不需要通过 ODE 到 SDE 的近似来引入随机性，使训练流程更加简单稳定。

对于工业界而言，这意味着企业可以在不显著增加算力投入的情况下，对大规模扩散模型进行后训练优化，从而以更低的计算资源消耗提升模型表现。

论文地址：https://arxiv.org/pdf/2601.02036

不仅得分更高，还能避免「奖励作弊」

不仅得分更高，还能避免「奖励作弊」

在实验结果方面，研究主要从模型任务表现、奖励作弊现象以及训练效率等多个方面进行了分析。

整体结果表明，GDRO 不仅能够提升扩散模型在相关任务中的评分表现，还可以明显减少奖励作弊问题，同时在训练效率和稳定性方面也具有优势。研究人员主要通过两个任务来评估模型能力，分别是 OCR 任务和 GenEval 任务。

OCR 任务用于测试图像中生成文字的准确性。具体流程是：首先向模型输入一个提示词，例如 “ 一个广告牌，上面写着 diamond sale ”或者“ 一张卡片写着 we meet never ”；随后扩散模型根据提示词生成图片；接着 OCR 系统读取图片中的文字；如果 OCR 识别出的文字与提示词中的内容一致，则会获得较高评分。

实验观察发现，原始模型生成的文字经常出现多种问题，例如拼写错误、字体模糊、字符缺失以及排列混乱。有些图片中的文字还会出现明显倾斜或不完整的情况，导致 OCR 识别系统无法正确识别。经过 GDRO 训练之后，生成图片中的文字更加清晰，文字排版更加规范，OCR 识别的准确率也明显提高。

除了 OCR 任务，研究还通过 GenEval 任务评估模型对文本描述的理解能力。GenEval 任务主要关注四个方面的能力：物体数量是否正确、物体属性是否正确（例如颜色和类别）、物体之间的位置关系是否正确，以及图像整体是否符合文本描述。

例如提示词可能包括 “一张黄色餐桌和一只粉色狗” “一个笔记本电脑在球下面” “两辆火车” “一个酒杯和一只熊” 等。评测系统会进一步检查生成图像中是否确实包含指定对象、对象数量是否符合描述、对象之间的位置关系是否正确。实验结果显示，在使用 GDRO 训练之后，图像中的对象数量更加准确，对象之间的位置关系更加符合提示描述，对象属性匹配也更加稳定。

在分析实验结果的过程中，研究人员还发现了一个非常重要的问题，即奖励作弊现象。所谓奖励作弊，是指模型为了获得更高评分，并没有真正提高生成图像的质量，而是通过某种投机方式去欺骗评分系统。

在 OCR 任务中，一些强化学习方法（例如 Flow - GRPO ）在训练过程中会采取某些极端策略来提高 OCR 评分，例如把目标文字做得非常大，将文字放在图像中央位置，同时减少图像中的背景内容。这样 OCR 系统更容易识别文字，因此评分会很高。但这种策略会带来明显问题，包括图像整体变得不自然、背景细节消失以及图像结构被破坏。例如原本应该是一个复杂的地图场景，但最终生成结果却变成了一个巨大横幅。图像示例显示，一些方法虽然获得更高 OCR 评分，但图像细节明显减少。

在 GenEval 任务中也存在类似的奖励作弊现象。一些方法生成的图像会变得非常简单，只保留最基本的对象，同时几乎没有任何细节。例如在提示词为“一个绿色热狗”的情况下，一些方法生成的图像只有一个简单的图形，背景几乎为空。虽然对象类型正确，但整体图像质量明显下降。相比之下，使用 GDRO 训练后的模型生成图像通常仍然保持完整场景，同时能够满足评分系统的要求，从而减少了这种奖励作弊现象。

为了进一步验证自动评分系统的可靠性，研究团队还进行了人工评估实验。实验邀请了 21 名参与者，对不同方法生成的图片进行比较评价。

评价主要从三个方面进行，包括文字准确性、图像与提示词之间的匹配程度以及图像整体质量。每组图片中同时包含原始模型生成结果、GDRO 生成结果以及其他强化学习方法生成结果，参与者需要从这些图片中选择表现更好的结果。实验结果显示，在文字准确性方面，各种方法之间的差距并不明显，但在图像质量以及语义匹配方面，GDRO 生成的图像表现明显更好。

此外，研究还比较了不同方法在训练效率方面的表现。传统强化学习方法在训练扩散模型时，每一步训练通常都需要完成三个步骤，即生成新的图片、计算奖励以及更新模型。由于扩散模型生成图片本身计算成本较高，这种训练方式往往需要大量时间和计算资源。

GDRO 则采用离线训练方式，在训练开始之前先生成数据，然后在训练过程中反复使用这些数据。实验结果显示，在达到相似性能水平时，GDRO 所需的训练时间明显更短，并且在某些任务中训练效率可以提升数倍。

从数据生成到模型训练

在实验设计方面，研究首先选择 FLUX.1-dev 作为基础模型。FLUX.1-dev 是一个已经训练好的文本到图像扩散模型。研究人员并没有重新训练整个模型，而是在这个模型的基础上进行后训练优化。这样做的主要目的是节省计算资源，同时能够将研究重点集中在奖励优化方法本身，而不需要消耗大量资源去重新训练完整模型。

在数据集设置方面，实验使用了两个数据集，分别对应 OCR 任务和 GenEval 任务。OCR 任务的数据集中，训练集包含约 2 万条提示词，测试集包含约 1000 条提示词。这些提示词通常用于描述某个具体场景，并且场景中包含指定文字。

例如其中一个提示词是 “一个珠宝店橱窗，上面写着 diamond sale”。模型需要根据这些提示词生成相应图像，并在图像中正确呈现指定文字。另一部分实验使用 GenEval 数据集，其中训练集包含约 5 万条提示词，测试集包含约 2000 条提示词。这些提示词通常描述多个对象、对象属性以及对象之间的空间关系，例如物体的数量、颜色以及位置关系等内容。

由于 GDRO 采用离线训练方式，因此在正式训练之前需要先生成训练数据。具体流程是：对于每一个提示词，首先使用基础模型生成 16 张图像；随后对每一张图像计算奖励评分，评分来源包括 OCR 识别准确度以及 GenEval 评估结果；之后根据奖励大小对这些图像进行排序。经过这一过程，每一个提示词都会对应一组带有评分信息的图像集合，这些图像组随后作为 GDRO 训练阶段使用的数据。

在 GDRO 训练过程中，模型不会再生成新的图像，而是反复利用已经生成好的这些图像组进行训练。训练时首先从某一个提示词对应的图像组中取出多张图片，然后给这些图片加入噪声，以模拟扩散过程中的中间状态。接着将这些带噪图像输入扩散模型，由模型预测噪声信息。最后根据模型预测结果以及原始图像评分计算训练损失。随着训练不断进行，模型逐渐学习到更倾向生成评分较高的图像，同时减少生成评分较低图像的概率。

在实验比较方面，研究人员将 GDRO 与多种方法进行了对比，包括 Flow - GRPO、Dance GRPO 以及 DPO。这些方法代表不同类型的训练思想。其中 Flow - GRPO 是一种利用强化学习优化扩散模型的方法， Dance GRPO 是另一种强化学习改进方法，而 DPO 则是一种基于偏好优化思想的方法。通过在相同实验条件下比较这些方法的效果，可以更加清楚地验证 GDRO 在性能和稳定性方面的优势。

此外，研究团队还进行了消融实验，用于分析不同参数设置对模型表现的影响。其中一个重要实验是改变图像组大小。当图像组大小只有 2 时，训练过程会出现明显的不稳定现象，模型甚至容易发生崩溃。

当图像组大小增加到 4 或 6 时，训练稳定性明显提高。这是因为组级奖励能够提供更加丰富的排序信息，使模型在训练过程中获得更稳定的优化信号。研究人员还对其他关键参数进行了测试，以进一步分析这些因素对模型稳定性和性能的影响。

扩散模型训练的三个关键启示

在实验意义方面，这项研究的结果主要体现了三个方面的重要结论。首先，实验表明扩散模型同样可以进行奖励对齐。也就是说，扩散模型可以像语言模型一样，通过奖励优化的方式实现模型对齐。不过，由于扩散模型的结构与语言模型存在差异，因此需要设计新的优化方法。GDRO 正是针对扩散模型特点所提出的一种优化方法。

其次，实验结果表明离线训练能够显著降低训练成本。研究结果说明，如果能够利用离线数据进行训练，就可以避免在训练过程中频繁生成新的图像样本。这一点对于扩散模型训练尤为重要，因为图像生成过程本身计算成本较高，因此减少生成过程能够明显降低整体训练开销。

最后，实验还揭示了评价指标使用时需要保持谨慎。研究发现，高评分并不一定意味着生成结果质量更高，因为模型可能会学会利用评分系统中的漏洞，从而获得较高评分而不真正提升图像质量。因此，未来研究需要进一步设计更加可靠的评价方法，以更准确地反映模型生成结果的真实质量。

构建 GDRO 的人

论文一作汪逸阳，目前是香港大学计算机视觉方向的博士研究生，导师为赵恒爽教授。他于 2024 年开始攻读博士学位，目前处于博士第二年。在进入香港大学之前，他于 2024 年 7 月在北京大学完成计算机科学专业本科教育。他的研究方向主要集中在视觉生成模型和多模态模型领域。

具体来说，他关注三个方面的研究问题：第一，利用视觉生成模型解决真实场景中的视觉内容创作需求，例如图像生成和视觉内容创作；第二，通过设计合理的优化策略和评价标准来提升生成模型的性能，例如利用强化学习或人工反馈等方式改进生成模型；第三，研究如何对生成模型进行更加客观和合理的评估，从而促进生成模型生成更高质量的内容。

除了学术研究之外，他目前还在通义视觉智能实验室担任研究实习生，参与视觉智能相关研究工作。

参考链接：https://chandlerwang14.github.io/

这篇论文的通讯作者赵恒爽，目前是香港大学计算与数据科学学院助理教授，从事计算机视觉与人工智能相关研究。他的研究领域主要包括计算机视觉、多模态人工智能、空间智能、生成式人工智能、具身智能以及物理智能等方向，研究目标是构建能够感知、理解并与环境交互的智能视觉系统，从而推动人工智能在多个领域的应用。

在学术经历方面，赵恒爽曾在美国麻省理工学院计算机科学与人工智能实验室从事博士后研究工作，并在英国牛津大学视觉几何团队从事研究，由托拉尔巴教授和托尔教授指导。他在香港中文大学获得博士学位，导师为贾佳亚教授，本科毕业于华中科技大学。

在博士阶段以及之后的研究工作中，他曾在多家国际科技公司和研究机构进行科研合作与实习，包括美国 Adobe 公司、Uber 公司以及英特尔公司等，并与多位研究人员开展合作研究。

在研究内容方面，他的研究兴趣涵盖计算机视觉、机器学习和人工智能等多个领域，重点关注三个方向。第一是视觉场景理解，包括视觉感知、三维重建、表示学习以及多模态学习等问题。第二是生成式模型与内容生成，例如图像、视频和三维内容的生成与编辑。第三是具身智能相关研究，包括自动驾驶、机器人学习以及大语言模型在真实环境中的应用。

赵恒爽在计算机视觉领域具有较高的学术影响力，多次获得重要科研奖励。他获得过国家自然科学基金优秀青年科学基金项目资助，并获得世界人工智能大会亮点之星奖以及青年优秀论文奖。他还多次入选人工智能领域具有影响力的学者榜单。

此外，他在多个国际顶级会议和学术活动中担任重要角色，担任国际计算机视觉会议多模态学习分会场主席，并组织多个国际会议的专题研讨会与教程。

参考链接：https://i.cs.hku.hk/~hszhao/

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.