网易首页 > 网易号 > 正文 申请入驻

北大与字节团队BranchGRPO,「树形分叉 + 剪枝」重塑扩散模型

0
分享至

快分叉与稳收敛

在扩散 / 流匹配模型的人类偏好对齐中,实现高效采样与稳定优化的统一,一直是一个重大挑战。

近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。

该方法在 HPDv2.1 图像对齐与 WanX-1.3B 视频生成上均取得了优异表现。最令人瞩目的是,BranchGRPO 在保证对齐效果更优的同时,迭代时间最高近 5×(Mix 变体 148s vs 698s)。

  • 论文链接: https://arxiv.org/pdf/2509.06040
  • 项目主页:
  • https://fredreic1849.github.io/BranchGRPO-Webpage/
  • 代码链接:
  • https://github.com/Fredreic1849/BranchGRPO
  • PKU HMI 实验室主页:https://pku-hmi-lab.github.io/HMI-Web/index.html
  • 单位:该项目主要由来自北京大学、北京师范大学、字节跳动的师生联合研究,作者包括李聿明、王一凯等,通讯作者为北京大学仉尚航。

研究背景与挑战

近年来,扩散模型与流匹配模型凭借在图像与视频生成上的高保真、多样性与可控性,已成为视觉生成的主流方案。然而,仅靠大规模预训练并不能保证与人类意图完全对齐:模型生成的结果常常偏离美学、语义或时间一致性的需求。

为解决这一问题,「人类反馈强化学习(RLHF)」被引入,用以直接优化生成模型,使其输出更贴近人类偏好。

在 RLHF 体系中,「群体相对策略优化(GRPO)」被证明在图生文、文生图和视频生成中具有良好的稳定性与可扩展性。然而,当 GRPO 应用于扩散 / 流模型时,依旧面临两大根本性瓶颈:

低效性:标准 GRPO 采用顺序 rollout,每条轨迹必须在旧策略和新策略下独立采样,复杂度达到 O (N×T)(其中 T 是扩散步数,N 是组大小)。这种重复采样带来大量计算冗余,严重限制了大规模生成任务的扩展性。

稀疏奖励:现有方法通常只在最终生成结果上计算单一奖励,并将其均匀回传至所有步。这种 “稀疏且均匀” 的反馈忽视了中间状态中蕴含的关键信号,导致 credit assignment 不准确,训练波动大、收敛不稳,甚至出现高方差梯度。

因此,一个关键问题被提出:如何在不破坏多样性的前提下,既提升采样效率,又让奖励信号更稠密、更稳定地作用于训练过程?

正是在这一背景下,我们提出了 BranchGRPO。通过树形分叉、奖励融合与剪枝机制,BranchGRPO 做到了「又快又稳、又强又准」,为大规模视觉生成对齐开辟了新路径。

BranchGRPO如何在扩散过程中分化出树形结构

为突破顺序 rollout 的低效与稀疏奖励瓶颈,BranchGRPO 将原本单一路径的采样过程,重构为一种树形展开:

  1. 分叉(Branching):在若干预设的扩散步上进行分裂,每条轨迹可以向多个子路径扩展,前缀计算被复用,大幅减少冗余采样。这种结构既保持了扩散过程的完整性,又让探索更高效。

  2. 奖励融合与逐层归因(Reward Fusion & Depth-wise Advantage):不同于将单一终末奖励均匀分配到所有步骤,BranchGRPO 将叶子节点的奖励自底向上传递,并在每一深度上进行标准化,形成逐步稠密的优势信号,使训练过程更稳定、更精准。

  3. 剪枝(Pruning):为避免树形结构带来的指数级成本,BranchGRPO 设计了两种剪枝策略:

  • 宽度剪枝:仅保留关键叶子参与反向传播,减少梯度计算量;
  • 深度剪枝:跳过部分层的反传(但保留前向和奖励评估),进一步压缩开销。

这一系列设计使得 BranchGRPO 在效率和稳定性之间实现了统一:既能显著加速训练、降低迭代开销,又能在奖励归因上更精细、更稳定,从而在图像与视频生成任务中同时提升对齐效果与收敛速度。

精度、速度、稳定度

1.图像对齐(HPDv2.1):

在图像对齐测试中,BranchGRPO 带来了真正的「又快又好」:

更快:

DanceGRPO (tf=1.0) 每迭代 698s;BranchGRPO 493s;剪枝版 314s;Mix 变体 148s(相对 698s 最高近 4.7× 加速)

更稳更准:

HPS-v2.1 0.363–0.369,稳定高于 DanceGRPO 的 0.360;ImageReward 1.319(DepPru) 为全表最佳。

对比其他方法:

MixGRPO 虽然也能压缩时间到 289 秒,但对齐分数略有下降,并且 MixGRPO 训练常常不稳定;相比之下,BranchGRPO-Mix 在极致加速的同时,依旧保持了与原始 BranchGRPO 相当的对齐效果和稳定的训练,展现出惊人的性价比。

2.视频生成(WanX-1.3B)

在视频生成任务中,BranchGRPO 同样展现了强大的优势:

更清晰:

不使用 RLHF 的基础模型常出现严重的闪烁和变形;DanceGRPO 虽有所改善,但画面依旧模糊、不够稳定。相比之下,BranchGRPO 生成的视频帧更锐利,细节更丰富,角色和物体在时间维度上保持一致,真正实现了「流畅不掉帧」的观感。

更快:

在相同硬件条件下,DanceGRPO 每次迭代大约需要 近 20 分钟;而 BranchGRPO 仅需约 8 分钟 就能完成一次迭代,训练效率直接翻 2 倍以上。

3.消融实验

从消融实验可以看到:适中的分支相关度、早期更密集的分裂能加快奖励提升;路径加权的奖励融合让训练更稳;深度剪枝带来最佳最终效果;而混合 ODE–SDE 调度则在保持稳定的同时达到最快训练速度。

4.多样性保持:

分叉并未削弱样本分布,MMD²≈0.019,几乎与顺序采样一致。

5. 扩展性(Scaling Law):

得益于 BranchGRPO 的高效性与训练稳定性,我们能够轻松扩大分支规模而不崩溃:无论是增加分支因子还是分支次数,性能都持续提升。比如在 81 个样本规模下,DanceGRPO 每次迭代要花 2400 秒,而 BranchGRPO 只需 680 秒,真正把大规模对齐训练变得可行。

总结与展望

BranchGRPO 通过树形分叉、奖励融合与轻量剪枝,创新性地融合了效率与稳定,奖励从「终点一锤子」变「全程有信号」—— 在速度、稳定与对齐效果上全面提升(HPDv2.1 最高近 5×,视频生成更清晰更一致)。成为视觉生成对齐的新一代解决方案。

未来,若引入自适应分裂 / 剪枝策略,并拓展至多模态与更大规模生成任务,BranchGRPO 有望成为扩散 / 流模型 RLHF 的核心方法,为高效、稳定的人类偏好对齐提供新的范式。

如果您在研究中使用BranchGRPO,欢迎引用我们的工作:

@article{li2025branchgrpo,

title={BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models},

author={Li, Yuming and Wang, Yikai and Zhu, Yuying and Zhao, Zhongyu and Lu, Ming and She, Qi and Zhang, Shanghang},

journal={arXiv preprint arXiv:2509.06040},

year={2025}

DanceGRPO: Unleashing GRPO on Visual Generation:https://arxiv.org/abs/2505.07818

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE:

https://arxiv.org/abs/2507.21802

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
重庆警方通报“一小区有人高空撒钱”:系涉诈嫌犯抛撒赃款

重庆警方通报“一小区有人高空撒钱”:系涉诈嫌犯抛撒赃款

澎湃新闻
2026-03-26 21:39:03
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
深圳一救援队队员遭遇意外去世,年仅40岁,曾参与救援行动10次,累计志愿服务时长750小时

深圳一救援队队员遭遇意外去世,年仅40岁,曾参与救援行动10次,累计志愿服务时长750小时

极目新闻
2026-03-26 22:22:23
泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

泰国U23国脚:中国队是亚洲顶级球队之一,和他们交手很愉快

懂球帝
2026-03-26 12:27:11
省长刘捷在台州专题调研开发区高质量发展工作

省长刘捷在台州专题调研开发区高质量发展工作

台州发布
2026-03-26 20:57:28
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
为什么建议你多做俯卧撑?6个被低估的好处

为什么建议你多做俯卧撑?6个被低估的好处

增肌减脂
2026-03-25 11:53:14
卢卡库擅自玩消失,孔蒂急了,那不勒斯怒了

卢卡库擅自玩消失,孔蒂急了,那不勒斯怒了

体坛周报
2026-03-26 21:43:12
73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

73岁港姐为李小龙哥哥扫墓,墓前铺满白花,离婚逾30年仍每年拜祭

八斗小先生
2026-03-26 15:02:47
土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

土耳其油轮遭无人机袭击引发剧烈爆炸,载有14万吨原油,曾被多方制裁

红星新闻
2026-03-26 17:20:06
想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

想不明白!当年李小冉两次怀上鄢颇的孩子,为何鄢颇仍是不娶她?

春之寞陌
2026-03-19 05:58:30
美国鹰派很不满,叫嚣特朗普对中国还不够狠,拜登派系开始冒头了

美国鹰派很不满,叫嚣特朗普对中国还不够狠,拜登派系开始冒头了

三石记
2026-03-26 20:32:54
伊朗首都德黑兰遭空袭 多地传出爆炸声

伊朗首都德黑兰遭空袭 多地传出爆炸声

财联社
2026-03-26 19:44:11
广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

多特体育说
2026-03-26 10:17:08
CBA最新排名!三四名竞争激烈,山西浙江连败,5队争夺第12!

CBA最新排名!三四名竞争激烈,山西浙江连败,5队争夺第12!

篮球资讯达人
2026-03-26 22:29:07
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
2026-03-26 23:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
健康
旅游
教育
艺术

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

教育要闻

骂人没有杀伤力?那不是白忙活吗?

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版