网易首页 > 网易号 > 正文 申请入驻

腾讯混元基础模型团队提出MixGRPO:通过“混合ODE-SDE采样”实现高效GRPO训练

0
分享至

虽然GRPO在图像生成的人类偏好对齐中显著提升了流匹配模型的表现,但诸如FlowGRPO的方法仍存在效率低下的问题,原因在于必须对马尔可夫决策过程(MDP)中所有去噪步骤进行采样和优化。本文提出了一种新颖的框架MixGRPO,该框架通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略的灵活性,简化了MDP中的优化流程,从而提升了效率并增强了性能。

具体而言,MixGRPO引入了滑动窗口机制,仅在窗口内采用SDE采样和GRPO引导的优化,而在窗口外则使用ODE采样。此设计将采样的随机性限制在窗口内的时间步,从而减少了优化开销,使梯度更新更加集中,加快了收敛速度。此外,由于滑动窗口外的时间步不参与优化,支持使用高阶求解器进行采样。基于此,本文提出了一个更快的变体MixGRPO-Flash,在保持相近性能的同时进一步提升了训练效率。MixGRPO在人类偏好对齐的多个维度上均表现出显著提升,效果和效率均优于DanceGRPO,训练时间降低近50%。值得注意的是,MixGRPO-Flash则将训练时间进一步缩短了71%。


论文标题: MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE 论文链接: https://arxiv.org/abs/2507.21802 代码链接: https://github.com/Tencent-Hunyuan/MixGRPO 项目主页: https://tulvgengenr.github.io/MixGRPO-Project-Page/
一、介绍(Introduction)

近年来, 文本到图像(Text-to-Image,T2I)任务的最新进展(fan2023reinforcement, xu2023imagereward, miao2024training, liu2025flow, xue2025dancegrpo)表明,通过在后训练阶段引入基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)策略(ouyang2022training)以最大化奖励,流匹配模型的性能得到了显著提升。具体而言,基于组相对策略优化(Group Relative Policy Optimization, GRPO)(shao2024deepseekmath)的方法(liu2025flow, xue2025dancegrpo)近期被提出, 能够实现与人类偏好的最佳对齐。

当前概率流模型中的GRPO方法, 如Flow-GRPO(liu2025flow)和 DanceGRPO(xue2025dancegrpo), 在每个去噪步骤中利用随机微分方程(Stochastic Differential Equations, SDE)采样引入图像生成的随机性,以解决RLHF中对随机探索的依赖。它们将去噪过程建模为随机环境下的马尔可夫决策过程(MDP),并使用GRPO优化整个状态-动作序列。然而,由于去噪迭代过程带来的巨大开销,这显著降低了训练速度。具体来说,为了计算后验概率的比值,必须分别使用旧策略模型 和新策略模型 独立完成全步骤采样。虽然 DanceGRPO 提出了随机选择部分去噪步骤进行优化的方法,但我们在图1中的实证分析表明,随着所选子集规模的缩小,性能会出现显著下降。


图1.不同优化去噪步骤数量下的性能对比。DanceGRPO 的性能提升依赖于更多去噪步骤的优化,而MixGRPO在仅需优化4个步骤的情况下即能达到最佳性能。

为了解决上述问题,我们提出了MixGRPO,该方法在实现随机探索的同时,仅对较少的去噪步骤进行优化。这样将MDP序列缩减为去噪过程的一个子集,并利用GRPO进行优化。具体而言,我们采用混合的ODE-SDE策略,对部分步骤使用SDE采样,其余步骤使用常微分方程(ODE)采样,将随机性限制在基于SDE的采样步骤中。通过这种方式,优化所需的时间步数减少,同时在奖励计算时不影响图像质量。

此外,我们引入了滑动窗口策略,沿着去噪步骤移动,仅在窗口内应用SDE采样和GRPO引导的优化,窗口外则采用ODE采样。与随机选择不同,该调度策略按照去噪程度从高到低的顺序进行优化,这与强化学习(RL)中对奖励应用时间折扣因子的直觉相符(pitis2019rethinking, amit2020discount, hu2022role)。MixGRPO优先优化初始时间步,这些步骤涉及最显著的噪声去除且探索空间更大(见图2)。最后,我们发现高阶ODE求解器,如DPMSolver++(lu2022dpm++),能够显著加速训练时的采样过程,且性能几乎无损,因为滑动窗口之后无需计算后验概率分布。


图2.不同采样策略下采样图像的 t-SNE 可视化。在去噪过程的早期阶段采用 SDE 采样,会使数据分布更加离散。

我们使用HPS-v2.1(wu2023human), Pick Score(kirstain2023pick), ImageReward(xu2023imagereward) 和Unified Reward(UnifiedReward)作为奖励模型(Reward Models, RMs)和评估指标,对MixGRPO进行了训练和评估。同时, 我们还量化了训练时采样过程中的函数调用次数(Number of Function Evaluations, NFE)和时间消耗开销。在训练过程中, 我们基于FLUX.1-dev(flux2024)进行了微调,并分别使用单一奖励模型和多奖励模型作为指导,评估了模型在内域(in-domain)和外域(out-of-domain)指标上的表现。

具体而言, 在 HPDv2 数据集(wu2023human)上训练和评估时,MixGRPO将 ImageReward(xu2023imagereward)从1.088 提升至1.629,超过了 DanceGRPO的 1.436,同时生成的图像在语义质量、美学效果和失真度方面均有所提升。此外,MixGRPO将DanceGRPO的训练时间缩短了近50%。进一步地,MixGRPO-Flash利用DPMSolver++(lu2022dpm++)加速了旧策略模型 的采样过程,使训练时间减少了71%。

总结,我们工作的主要贡献包括:

  • 我们提出了一种混合ODE-SDE的GRPO训练框架用于流匹配,通过简化MDP中的优化流程,有效缓解了计算开销瓶颈。

  • 我们引入了滑动窗口策略,用于采样去噪时间步以进行模型优化,该策略契合强化学习中从难到易搜索空间转换的直觉,显著提升了性能。

  • 我们的方法支持在GRPO训练过程中使用高阶ODE求解器加速 的采样,实现了显著的速度提升,同时保持了相当的性能表现。

  • 我们在多种奖励函数上进行了全面实验,结果表明MixGRPO在多项评估指标上均取得了显著提升,同时大幅降低了训练开销。

二、相关工作(Related Work) 2.1 用于图像生成的强化学习(RL for image generation)

受近端策略优化(PPO)(schulman2017proximal)的启发, 早期工作(fan2023optimizing, black2023training, fan2023dpok, lee2023aligning) 将强化学习(RL)引入扩散模型,通过策略梯度方法优化得分函数(song2020score),从而生成更符合人类偏好的图像。随后,(wallace2024diffusion) 首次将离线直接偏好优化(offline-Direct Preference Optimization, DPO)引入文本到图像(T2I)任务,使扩散模型能够直接从人类反馈中学习,并验证了其在大规模模型上的有效性。鉴于离线胜负对数据易导致模型偏离原始分布,一些工作(yuan2024self, liang2025aesthetic)采用在线方法,在训练过程中通过步长感知的偏好模型持续调整采样轨迹,以提升性能。

近期,基于 GRPO 的研究如(tong2025delving)、Flow-GRPO(liu2025flow) 和 DanceGRPO(xue2025dancegrpo),将强化学习增强的图像生成推向新高度。具体而言,Flow-GRPO(liu2025flow)和DanceGRPO(xue2025dancegrpo)将GRPO引入流匹配模型,通过将常微分方程(ODE)转化为等价的随机微分方程(SDE)实现多样化采样。他们同时指出,组内全步采样带来的开销成为瓶颈,并尝试通过减少或随机选择去噪步骤来缓解该问题。然而,这些方法并未从根本上解决该难题。我们希望通过混合采样技术与优化调度,深入探讨GRPO在概率流上的本质,并提供更深层次的见解。

2.2 概率流模型的采样方法(Sampling Methods for Probability Flow)

DDPM(ho2020denoising) 首次提出训练一个概率模型以逆转每一步的噪声污染,并利用概率流随机微分方程(SDE)进行采样,从而实现逼真图像的生成。然而,该采样方法通常需要数千步,导致计算开销较大。DDIM(song2020denoising)引入了确定性采样,并提出了概率常微分方程(ODE)采样方法,将采样步数减少至约 100 步。随后,受Fokker-Planck equation(福克-普朗克方程)(risken1996fokker)启发,(song2020score)从得分函数的视角统一了SDE与ODE的采样方法。此后,更多高阶ODE求解器被提出,如DPM-Solver(lu2022dpm)和DPM-Solver++(lu2022dpm++),它们采用多步法进行微分离散化,显著将采样步数降低至约10 步,同时保持较高的采样精度。尽管后续出现了性能更优的求解器(zheng2023dpm, zhao2023unipc),但提升有限,最终被蒸馏方法(salimans2022progressive, yin2024one)所取代。

与此同时,流匹配模型(lipman2022flow, esser2024scaling) 通过预测向量场速度简化并稳定了训练过程,实现了在 50 步以内的确定性 ODE 采样。近期理论工作(gao2025diffusionmeetsflow, albergo2023stochastic) 证明了流匹配的采样方法与 DDIM 等价,并展示了流匹配模型与扩散模型共享相同的等价 SDE 和 ODE 表达式。这为我们的工作提供了重要的理论支持和启示,使我们能够探索概率流模型中 SDE 与 ODE 的交错采样作为一种潜在方法。

三、方法(Method) 3.1 GRPO中的ODE-SDE混合采样(Mixed ODE-SDE Sampling in GRPO)

根据Flow-GRPO(liu2025flow),流匹配中的SDE采样可以被构建为一个随机环境下的马尔可夫决策过程(MDP) 。在采样过程中,智能体生成一条轨迹,定义为 ,并获得奖励 。

在MixGRPO中,我们提出了一种结合SDE与ODE的混合采样方法。MixGRPO定义了一个区间 ,它是去噪时间范围 的子区间,满足 。在去噪过程中,我们在区间 内采用SDE采样,区间外采用ODE采样,且区间 会随着训练过程从0逐步移动到 (见图2)。

MixGRPO将智能体的随机探索空间限制在区间 内,将MDP的序列长度缩短为子集 ,并仅对该子集进行强化学习(RL)优化:


MDP中的其他设置保持不变。MixGRPO不仅降低了计算开销,同时也减轻了优化难度。接下来,我们推导MixGRPO的具体采样形式和优化目标。

对于确定性的概率流ODE(song2020score),其形式如下:


其中, 是称为漂移系数的向量值函数, 是称为扩散系数的标量函数。 是时刻 的得分函数。

根据Fokker-Planck方程(risken1996fokker),(song2020score)证明了式 (2) 具有以下等价的概率流SDE,该SDE在每个时间点 保持相同的边际分布:


在MixGRPO中,我们将ODE和SDE混合用于采样,具体形式如下:


具体来说,对于Flow Matching(FM)(lipman2022flow),尤其是Rectified Flow(RF)(liu2022flow),采样过程可以看作是一个确定性的ODE:


式(5)实际上是式(2)的一个特例,其中速度场为 因此,我们可以推导出RF的ODE-SDE混合采样形式如下:


在RF框架中,模型用于预测确定性ODE的速度场,表示为 根据(liu2025flow),score函数表示为 噪声的标准差表示为 。根据标准维纳过程的定义,我们使用 对SDE采用Euler-Maruyama离散化,对ODE采用Euler离散化,设 为包含从 到 之间所有时间步的集合,我们构建了MixGRPO中的最终去噪过程如下:


MixGRPO中的训练过程与Flow-GRPO(liu2025flow)和DanceGRPO(xue2025dancegrpo)类似,但我们仅需对区间 内采样的时间步进行优化。最终的训练目标表示为:


其中, 称为策略比率(policy ratio), 为优势函数(advantage score)。我们设定ε=0.0001 。


其中, 由奖励模型提供。

需要注意的是,我们省略了KL Loss(shao2024deepseekmath)。尽管(KL Loss)在一定程度上可以缓解reward hacking 问题(liu2025flow),但受(flow_grpo_issue7)的启发,我们在测试阶段采用混合模型采样(mixed model sampling),这能够显著解决奖励劫持问题(详见附录A)。

与对所有时间步进行优化相比,MixGRPO降低了策略 的函数评估次数(NFE,Number of Function Evaluations)。然而,策略 的NFE并未减少,因为需要完整推理以获得用于奖励计算的最终图像。在第3.3节,我们将介绍高阶ODE求解器的使用,这同样能够减少 的NFE,从而实现进一步加速。综上所述,混合ODE-SDE采样在显著降低计算开销的同时,保证了采样过程不会偏离单独ODE或SDE采样在每个时间步的边际分布,这得益于概率流(probability flow)的等价性。

3.2 作为优化调度器的滑动窗口(Sliding Window as Optimization Scheduler)

实际上,区间 在训练过程中可以是非固定的。本节将引入滑动窗口(sliding window)的概念,用以描述区间 的移动,这显著提升了生成图像的质量。沿着离散的去噪时间步序列 ,MixGRPO 定义了一个滑动窗口 ,并且仅在该窗口内的时间步上进行优化。


其中, 是滑动窗口的左边界, 是表示窗口大小的超参数。滑动窗口的左边界 会随着训练的进行而移动。在实验中,我们发现窗口大小 、移动间隔 以及窗口步长 都是关键的超参数。通过消融研究(详见实验4.4.1),我们确定了最优的参数设置。当总采样步数 时,最佳性能对应的参数为 、 和 。详细的滑动窗口策略及 MixGRPO 算法可参见算法1。

限制在滑动窗口内使用 SDE 采样,不仅保证了生成图像的多样性,还使模型能够集中精力优化该窗口内的流动。沿着去噪方向的移动反映了概率流从强到弱的随机性,如图2 所示。这本质上是一种贪心策略,类似于强化学习中为处理奖励而分配折扣因子的做法(pitis2019rethinking, amit2020discount, hu2022role),即在早期过程给予来自更大搜索空间的奖励更高的权重。表3 验证了这一直觉的有效性。我们发现,即使滑动窗口保持不动(Frozen),仅优化较早的时间步,MixGRPO 依然能够取得良好效果,尤其是在 ImageReward 和 UnifiedReward 指标上表现突出。基于此直觉,我们还提出了如下的指数衰减策略,使得 随去噪步数的增加而减小,从而使模型能够更专注于在更大搜索空间内进行优化。


其中, 是初始移动间隔, 是衰减因子, 是控制衰减开始时机的阈值。指数函数 计算的是 ,而修正线性单元 定义为 。表3 显示,指数衰减策略在 Pick Score(kirstain2023pick)和 ImageReward(xu2023imagereward)指标上均能取得更优的结果,这很可能是因为模型更专注于去噪的早期阶段,从而带来了更显著的高层次变化。


算法1.MixGRPO的训练过程 3.3 开销与性能之间的权衡(Trade-off Between Overhead and Performance)

MixGRPO 在滑动窗口内采用 SDE 采样,窗口外则采用 ODE 采样,从而允许使用高阶 ODE 求解器加速 GRPO 训练时的采样过程。利用 ODE 采样的时间步被划分为滑动窗口之前和之后两部分。滑动窗口之后的时间步仅影响奖励计算,而窗口之前的时间步既影响奖励,也会对策略比率计算中的累积误差产生贡献。因此,我们重点关注滑动窗口之后时间步的加速。

(gao2025diffusionmeetsflow) 已证明流匹配模型(FM)的 ODE 采样与 DDIM 等价,且第3.1节也表明扩散概率模型(DPM)与 FM 在去噪过程中共享相同的 ODE 形式。因此,专为 DPM 采样加速设计的高阶 ODE 求解器,如 DPM-Solver 系列(lu2022dpm, lu2022dpm++, zheng2023dpm)、UniPC(zhao2023unipc),同样适用于 FM。我们已将 DPM-Solver++(lu2022dpm++)重新形式化,以便在 FM 框架中应用于 ODE 采样加速,详细推导见附录B。

通过应用高阶求解器,我们实现了 GRPO 训练过程中对 采样的加速,这本质上是在计算开销与性能之间的权衡。过度加速会导致时间步数减少,必然引起图像生成质量下降,进而在奖励计算中积累误差。实践中我们发现,二阶 DPM-Solver++ 足以显著加速,同时保证生成图像与人类偏好高度一致。最终,我们采用了渐进式和冻结式滑动窗口策略,提出了 MixGRPO-Flash 和 MixGRPO-Flash*。算法的详细描述见附录C。这些方法相比MixGRPO 实现了更大程度的加速,同时在性能上也优于 DanceGRPO。

四、实验(Experiments) 4.1 实验设置(Experiment setup)

数据集(Dataset)我们使用 HPDv2 数据集(wu2023human)中提供的提示词进行实验,该数据集是 HPS-v2 基准的官方数据集。训练集包含 103,700 条提示词;实际上,MixGRPO 在仅使用 9,600 条提示词训练一个 epoch 后,就已取得良好的人类偏好对齐效果。测试集包含 400 条提示词。提示词风格多样,涵盖四种类型:“动画”(Animation)、“概念艺术”(Concept Art)、“绘画”(Painting)和“照片”(Photo)。

模型(Model)继承自 DanceGRPO(xue2025dancegrpo),我们采用基于流匹配的先进文本生成图像模型 FLUX.1 Dev(flux2024) 作为基础模型。

开销评估(Overhead Evaluation)在评估计算开销时,我们采用了两个指标:函数调用次数(NFE)(lu2022dpm) 和训练过程中每次迭代的时间消耗。NFE 分为 和 两部分。 表示用于计算策略比率和生成图像的参考模型的前向传播次数; 则是仅用于计算策略比率的策略模型的前向传播次数。此外,GRPO每次迭代的平均训练时间能够更准确地反映加速效果。

表现评估(Performance Evaluation)我们使用四个奖励模型作为训练中的奖励指导及性能评估指标,分别是 HPS-v2.1(wu2023human)、Pick Score(kirstain2023pick)、ImageReward(xu2023imagereward) 和 Unified Reward(UnifiedReward)。这些指标均基于人类偏好,但侧重点不同,例如 ImageReward(xu2023imagereward) 强调图文对齐和图像保真度,而 Unified Reward(UnifiedReward) 更关注语义层面。DanceGRPO(xue2025dancegrpo) 也证明了多奖励模型的使用能带来更优效果。为验证 MixGRPO 的鲁棒性,我们同样遵循 DanceGRPO,进行了仅使用 HPS-v2.1 单一奖励以及结合 HPS-v2.1(wu2023human) 与 CLIP Score(radford2021learning) 的多奖励对比实验。

在训练时采样方面,我们首先对均匀分布的时间步 进行变换,计算 ,然后定义 。其中, , 作为缩放参数,采样总步数设为 。在GRPO训练中,模型针对每个提示词生成12张图像,并将优势函数裁剪到区间 内。

需要特别说明的是,我们采用了3步梯度累积,这意味着在一次训练迭代中实际进行了 次梯度更新。对于滑动窗口的指数衰减策略(见公式11),我们经验性地设置参数为 、 和 。此外,当多个奖励模型联合训练时,各奖励模型的权重均等分配。

在训练设置上,所有实验均在32块Nvidia GPU上进行,批量大小为1,最大训练迭代次数为300次。优化器采用AdamW(loshchilov2017decoupled),学习率设为1e-5,权重衰减系数为0.0001。训练过程中使用混合精度,采用bfloat16(bf16)格式,而主权重参数保持全精度(fp32)。

4.3 主实验(Main Experiments)

在主实验中,四个基于人类偏好的奖励模型按照优势函数(advantages)进行了加权聚合,具体算法见算法1。我们对 MixGRPO 与 DanceGRPO 的开销和性能进行了对比评估,结果汇总于表1。官方 DanceGRPO 采用的函数调用次数为 ,为保证公平性,我们同时测试了 的 DanceGRPO。对于 MixGRPO-Flash,我们评估了渐进式(progressive)和冻结式(frozen)两种策略,并且为了公平起见,也对 DanceGRPO 采用了冻结式策略。

我们选取了多个场景提示语,对 FLUX.1 Dev、官方配置的 DanceGRPO 以及 MixGRPO 的生成结果进行了可视化展示,见图3。结果表明,MixGRPO 在语义表达、美学效果及文本-图像对齐度方面均取得了最佳表现。图4 展示了在 条件下,DanceGRPO、MixGRPO 及 MixGRPO-Flash 的对比结果。可以观察到,在相同开销下,MixGRPO 的表现优于 DanceGRPO;同时,MixGRPO-Flash 通过加速采样 ,在降低开销的同时,生成图像的质量依然与人类偏好保持高度一致。

沿用 DanceGRPO(xue2025dancegrpo) 的实验设计,我们还在 HPDv2 数据集(wu2023human)上,分别使用单一奖励模型和双奖励模型进行了训练与评估。结果(见表2)显示,无论是单奖励还是多奖励,MixGRPO 在域内和域外奖励指标上均取得了最佳性能。更多可视化结果详见附录D。


表1.计算开销与性能的对比结果显示,MixGRPO 在多个指标上均取得了最佳表现。MixGRPO-Flash 显著缩短了采样时间,同时性能优于 DanceGRPO。加粗表示排名第一,下划线表示排名第二。Frozen 策略指仅在初始去噪步骤中进行优化。


图3.定性比较,MixGRPO在语义表达、美学效果以及文本与图像的对齐方面均表现出卓越的性能。


图4.不同训练时采样步数的定性比较在训练过程中,随着采样步数(即训练时的计算开销)减少,MixGRPO 的性能并未显著下降,表现出较强的鲁棒性。∗ 冻结策略(Frozen strategy)指的是仅在初始去噪步骤(initial denoising steps)进行优化,其余步骤保持参数冻结不变。


表2.域内与域外奖励指标的比较结果比较结果表明,无论采用单一奖励模型还是多个奖励模型,MixGRPO 在域内(in-domain)和域外(out-of-domain)奖励指标上均取得了最佳性能,表现出较强的泛化能力和稳健性。 4.4 消融实验(Ablation Experiments) 4.4.1 滑动窗口超参数(Sliding Window Hyperparamters)

如第3.2节所述,滑动窗口的重要参数包括移动策略、移动间隔 、窗口大小 以及窗口步长 。我们对这些参数分别进行了消融实验。针对移动策略,我们比较了三种方法:frozen(窗口保持静止)、random(每次迭代随机选择窗口位置)以及 progressive(滑动窗口随去噪步骤逐步移动)。对于 progressive 策略,我们测试了不同的调度方式,其中间隔 初始设为 25,随后随训练迭代发生变化。正如表3所示,结果表明在 progressive 策略下,指数衰减和恒定调度均为最优选择。对于移动间隔 ,25 是最佳设置(详见表4)。

随着窗口大小 的增大, 的推理次数也随之增加,导致时间开销加大。我们比较了不同的 设置,结果如表5所示。最终,我们选择 作为开销与性能之间的平衡点。对于窗口步长 ,实验结果表明 是最优选择,详见表6。


4.4.2 高阶ODE求解器(High Order ODE Solver)

MixGRPO 通过结合随机微分方程(SDE)和常微分方程(ODE)的采样方法,实现了利用高阶ODE求解器加速ODE采样的可能性。我们首先针对求解器的阶数进行了消融实验,使用 DPM-Solver++(lu2022dpm++) 作为高阶求解器,并采用progressive策略。结果如表7所示,表明二阶中点法是最优设置。随后,如第3.3节所述,我们比较了两种加速方案:一种是采用progressive 窗口移动策略的 MixGRPO-Flash,另一种是采用 frozen 移动策略的 MixGRPO-Flash。两者均通过减少窗口后端的 ODE 采样步数,在开销与性能之间取得了平衡。然而,实际应用中,MixGRPO-Flash 需要窗口在整个训练过程中持续移动,导致被加速的 ODE 部分较短。因此,平均来看,MixGRPO-Flash 的加速效果不及 MixGRPO-Flash 明显。


表7.不同阶数求解器的性能比较,其中二阶中点法取得了最佳性能。


表8.MixGRPO-Flash 中 progressive 和 frozen 策略的比较。两种策略均在开销与性能之间取得了平衡。MixGRPO-Flash* 展现出更显著的加速效果,同时指标仅有轻微下降。 五、结论(Conclusion)

尽管 GRPO(shao2024deepseekmath) 在语言模态中取得了显著成功,但在视觉领域仍处于起步阶段(tong2025delving, xue2025dancegrpo, liu2025flow)。现有基于流匹配的 GRPO 面临采样效率低和训练缓慢等挑战。为了解决这些问题,我们提出了 MixGRPO,一种结合了 SDE 和 ODE 采样的新型训练框架。该混合方法使得优化能够聚焦于 SDE 采样流部分,降低了复杂度的同时保证了奖励计算的准确性。受强化学习中衰减因子(hu2022role)的启发,我们引入了滑动窗口策略来调度优化的去噪步骤。实验结果验证了我们方法在单奖励和多奖励设置下的有效性。此外,MixGRPO 解耦了去噪阶段的优化与奖励计算,使得后者能够通过高阶求解器实现加速。我们进一步提出了 MixGRPO-Flash,在开销与性能之间实现了平衡。我们希望 MixGRPO 能够激发图像生成后训练领域的深入研究,推动通用人工智能(AGI)的发展。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
十大元帅与毛主席的关系亲疏,分为三档,谁在前,谁在后?

十大元帅与毛主席的关系亲疏,分为三档,谁在前,谁在后?

文史道
2025-08-28 10:29:59
泪目!杰克逊进球后致敬逝去的好友:安息吧,兄弟!

泪目!杰克逊进球后致敬逝去的好友:安息吧,兄弟!

雷速体育
2025-11-02 05:32:20
“血糖疫苗”正式启用了,半年只需注射2次?哪些人适合打呢?

“血糖疫苗”正式启用了,半年只需注射2次?哪些人适合打呢?

男女那点事儿儿
2025-10-27 13:35:22
官方已确认!75岁张艺谋,突传消息!

官方已确认!75岁张艺谋,突传消息!

好叫好伐
2025-11-01 18:19:38
“苏超”冠军奖杯,钛合金3D打印造!

“苏超”冠军奖杯,钛合金3D打印造!

3D打印技术参考
2025-11-02 08:43:57
新加坡总统对全球发出警告:要想世界和平,中国必须放弃一样东西

新加坡总统对全球发出警告:要想世界和平,中国必须放弃一样东西

小lu侃侃而谈
2025-10-31 20:46:13
刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

娱乐故事
2025-10-30 14:00:25
许家屯:被英国收买,贪腐卖国,被调查时携女人叛逃,结局如何?

许家屯:被英国收买,贪腐卖国,被调查时携女人叛逃,结局如何?

阿胡
2024-11-01 15:18:33
WTT法国冠军赛:11月2日赛程公布!诞生2项冠军,王艺迪独闯4强

WTT法国冠军赛:11月2日赛程公布!诞生2项冠军,王艺迪独闯4强

全言作品
2025-11-02 06:48:32
寸土不让!布达诺夫指挥的多支突击部队突入波克罗夫斯克俄控制区

寸土不让!布达诺夫指挥的多支突击部队突入波克罗夫斯克俄控制区

军迷战情室
2025-11-01 13:30:11
森林狼大胜黄蜂:兰德尔30+7连场30+ 布里奇斯30+8三球18+7+8

森林狼大胜黄蜂:兰德尔30+7连场30+ 布里奇斯30+8三球18+7+8

醉卧浮生
2025-11-02 08:28:33
4-0,巴萨天塌了!皇马又赢了+6连胜,稳居榜首

4-0,巴萨天塌了!皇马又赢了+6连胜,稳居榜首

乌龙球OwnGoal
2025-11-02 06:39:42
随着切尔西1-0热刺,阿森纳2-0,英超最新积分榜:利物浦2-0升第3

随着切尔西1-0热刺,阿森纳2-0,英超最新积分榜:利物浦2-0升第3

侃球熊弟
2025-11-02 03:40:09
暨南大学附属医院发生甲等医疗事故!

暨南大学附属医院发生甲等医疗事故!

医脉圈
2025-10-31 12:13:33
《新闻联播》报道:中央宣讲团成员,教育部党组书记、部长怀进鹏宣讲党的二十届四中全会精神

《新闻联播》报道:中央宣讲团成员,教育部党组书记、部长怀进鹏宣讲党的二十届四中全会精神

微言教育
2025-11-01 21:36:46
国王生涯首次两双!威少14中4正负值却+14 熊抱扬尼斯一幕成经典

国王生涯首次两双!威少14中4正负值却+14 熊抱扬尼斯一幕成经典

颜小白的篮球梦
2025-11-02 08:05:12
荷兰大选结果惊呆欧洲!得票第一的党魁,竟被集体拒之门外

荷兰大选结果惊呆欧洲!得票第一的党魁,竟被集体拒之门外

爱看剧的阿峰
2025-11-01 14:45:34
儿子休学躺平一年,毫无改变,我才醒悟:最愚蠢的教育,就是“无条件接纳”孩子

儿子休学躺平一年,毫无改变,我才醒悟:最愚蠢的教育,就是“无条件接纳”孩子

青春期父母成长学堂
2025-11-01 20:16:12
米莱再当选又一次证明西方选举制是条烂透的末路

米莱再当选又一次证明西方选举制是条烂透的末路

兰妮搞笑分享
2025-11-01 07:10:45
58岁魏骏杰接女儿放学,15岁女儿近180 和爸爸很像,家中温馨时尚

58岁魏骏杰接女儿放学,15岁女儿近180 和爸爸很像,家中温馨时尚

乐悠悠娱乐
2025-11-01 15:22:16
2025-11-02 10:00:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2247文章数 595关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

牛弹琴:高市早苗上台后 中国作出第一次强烈抗议

头条要闻

牛弹琴:高市早苗上台后 中国作出第一次强烈抗议

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
旅游
教育
艺术
公开课

核磁VS肌骨超声,谁更胜一筹?

旅游要闻

重庆忠县:“高峡出平湖” 江城景色殊

教育要闻

让教育回归生活本质:西安浐灞三小跨学科课程的七年实践与蜕变

艺术要闻

八旬老者退休后学毛体书法,创作多幅作品引关注

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版