网易首页 > 网易号 > 正文 申请入驻

北大与字节团队BranchGRPO,「树形分叉 + 剪枝」重塑扩散模型

0
分享至



快分叉与稳收敛

在扩散 / 流匹配模型的人类偏好对齐中,实现高效采样与稳定优化的统一,一直是一个重大挑战。

近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。

该方法在 HPDv2.1 图像对齐与 WanX-1.3B 视频生成上均取得了优异表现。最令人瞩目的是,BranchGRPO 在保证对齐效果更优的同时,迭代时间最高近 5×(Mix 变体 148s vs 698s)。



  • 论文链接: https://arxiv.org/pdf/2509.06040
  • 项目主页:
  • https://fredreic1849.github.io/BranchGRPO-Webpage/
  • 代码链接:
  • https://github.com/Fredreic1849/BranchGRPO
  • PKU HMI 实验室主页:https://pku-hmi-lab.github.io/HMI-Web/index.html
  • 单位:该项目主要由来自北京大学、北京师范大学、字节跳动的师生联合研究,作者包括李聿明、王一凯等,通讯作者为北京大学仉尚航。

研究背景与挑战

近年来,扩散模型与流匹配模型凭借在图像与视频生成上的高保真、多样性与可控性,已成为视觉生成的主流方案。然而,仅靠大规模预训练并不能保证与人类意图完全对齐:模型生成的结果常常偏离美学、语义或时间一致性的需求。

为解决这一问题,「人类反馈强化学习(RLHF)」被引入,用以直接优化生成模型,使其输出更贴近人类偏好。

在 RLHF 体系中,「群体相对策略优化(GRPO)」被证明在图生文、文生图和视频生成中具有良好的稳定性与可扩展性。然而,当 GRPO 应用于扩散 / 流模型时,依旧面临两大根本性瓶颈:

低效性:标准 GRPO 采用顺序 rollout,每条轨迹必须在旧策略和新策略下独立采样,复杂度达到 O (N×T)(其中 T 是扩散步数,N 是组大小)。这种重复采样带来大量计算冗余,严重限制了大规模生成任务的扩展性。

稀疏奖励:现有方法通常只在最终生成结果上计算单一奖励,并将其均匀回传至所有步。这种 “稀疏且均匀” 的反馈忽视了中间状态中蕴含的关键信号,导致 credit assignment 不准确,训练波动大、收敛不稳,甚至出现高方差梯度。

因此,一个关键问题被提出:如何在不破坏多样性的前提下,既提升采样效率,又让奖励信号更稠密、更稳定地作用于训练过程?

正是在这一背景下,我们提出了 BranchGRPO。通过树形分叉、奖励融合与剪枝机制,BranchGRPO 做到了「又快又稳、又强又准」,为大规模视觉生成对齐开辟了新路径。

BranchGRPO如何在扩散过程中分化出树形结构

为突破顺序 rollout 的低效与稀疏奖励瓶颈,BranchGRPO 将原本单一路径的采样过程,重构为一种树形展开:



  1. 分叉(Branching):在若干预设的扩散步上进行分裂,每条轨迹可以向多个子路径扩展,前缀计算被复用,大幅减少冗余采样。这种结构既保持了扩散过程的完整性,又让探索更高效。

  2. 奖励融合与逐层归因(Reward Fusion & Depth-wise Advantage):不同于将单一终末奖励均匀分配到所有步骤,BranchGRPO 将叶子节点的奖励自底向上传递,并在每一深度上进行标准化,形成逐步稠密的优势信号,使训练过程更稳定、更精准。

  3. 剪枝(Pruning):为避免树形结构带来的指数级成本,BranchGRPO 设计了两种剪枝策略:

  • 宽度剪枝:仅保留关键叶子参与反向传播,减少梯度计算量;
  • 深度剪枝:跳过部分层的反传(但保留前向和奖励评估),进一步压缩开销。

这一系列设计使得 BranchGRPO 在效率和稳定性之间实现了统一:既能显著加速训练、降低迭代开销,又能在奖励归因上更精细、更稳定,从而在图像与视频生成任务中同时提升对齐效果与收敛速度。

精度、速度、稳定度

1.图像对齐(HPDv2.1):



在图像对齐测试中,BranchGRPO 带来了真正的「又快又好」:

更快:

DanceGRPO (tf=1.0) 每迭代 698s;BranchGRPO 493s;剪枝版 314s;Mix 变体 148s(相对 698s 最高近 4.7× 加速)

更稳更准:

HPS-v2.1 0.363–0.369,稳定高于 DanceGRPO 的 0.360;ImageReward 1.319(DepPru) 为全表最佳。

对比其他方法:

MixGRPO 虽然也能压缩时间到 289 秒,但对齐分数略有下降,并且 MixGRPO 训练常常不稳定;相比之下,BranchGRPO-Mix 在极致加速的同时,依旧保持了与原始 BranchGRPO 相当的对齐效果和稳定的训练,展现出惊人的性价比。



2.视频生成(WanX-1.3B)

在视频生成任务中,BranchGRPO 同样展现了强大的优势:

更清晰:

不使用 RLHF 的基础模型常出现严重的闪烁和变形;DanceGRPO 虽有所改善,但画面依旧模糊、不够稳定。相比之下,BranchGRPO 生成的视频帧更锐利,细节更丰富,角色和物体在时间维度上保持一致,真正实现了「流畅不掉帧」的观感。

更快:

在相同硬件条件下,DanceGRPO 每次迭代大约需要 近 20 分钟;而 BranchGRPO 仅需约 8 分钟 就能完成一次迭代,训练效率直接翻 2 倍以上。



3.消融实验

从消融实验可以看到:适中的分支相关度、早期更密集的分裂能加快奖励提升;路径加权的奖励融合让训练更稳;深度剪枝带来最佳最终效果;而混合 ODE–SDE 调度则在保持稳定的同时达到最快训练速度。



4.多样性保持:

分叉并未削弱样本分布,MMD²≈0.019,几乎与顺序采样一致。



5. 扩展性(Scaling Law):

得益于 BranchGRPO 的高效性与训练稳定性,我们能够轻松扩大分支规模而不崩溃:无论是增加分支因子还是分支次数,性能都持续提升。比如在 81 个样本规模下,DanceGRPO 每次迭代要花 2400 秒,而 BranchGRPO 只需 680 秒,真正把大规模对齐训练变得可行。



总结与展望

BranchGRPO 通过树形分叉、奖励融合与轻量剪枝,创新性地融合了效率与稳定,奖励从「终点一锤子」变「全程有信号」—— 在速度、稳定与对齐效果上全面提升(HPDv2.1 最高近 5×,视频生成更清晰更一致)。成为视觉生成对齐的新一代解决方案。

未来,若引入自适应分裂 / 剪枝策略,并拓展至多模态与更大规模生成任务,BranchGRPO 有望成为扩散 / 流模型 RLHF 的核心方法,为高效、稳定的人类偏好对齐提供新的范式。

如果您在研究中使用BranchGRPO,欢迎引用我们的工作:

@article{li2025branchgrpo,

title={BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models},

author={Li, Yuming and Wang, Yikai and Zhu, Yuying and Zhao, Zhongyu and Lu, Ming and She, Qi and Zhang, Shanghang},

journal={arXiv preprint arXiv:2509.06040},

year={2025}

DanceGRPO: Unleashing GRPO on Visual Generation:https://arxiv.org/abs/2505.07818

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE:

https://arxiv.org/abs/2507.21802

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国APEC第三城为什么是深圳?这个答案最直观!

中国APEC第三城为什么是深圳?这个答案最直观!

GA环球建筑
2025-11-02 19:01:52
经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

新京报政事儿
2025-11-02 17:12:16
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
河南中牟男子涉嫌杀害发小妻儿3人,警方在遇害者指甲中发现关键DNA线索

河南中牟男子涉嫌杀害发小妻儿3人,警方在遇害者指甲中发现关键DNA线索

封面新闻
2025-11-01 23:29:09
广州一教师留遗书宿舍身亡:遗体被强行运走 校方人员表示无责任

广州一教师留遗书宿舍身亡:遗体被强行运走 校方人员表示无责任

先驱鸟
2025-11-02 23:41:57
离婚才7天,41岁唐嫣直接官宣喜讯,原来早用行动给出了答案

离婚才7天,41岁唐嫣直接官宣喜讯,原来早用行动给出了答案

科学发掘
2025-10-31 06:27:46
事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

优趣纪史记
2025-08-13 18:46:36
毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

毛主席对尼泊尔首相说:你想把珠峰全部划归贵国?还有更好的办法

鹤羽说个事
2025-10-30 15:53:46
1979年打越南,邓小平提前放出口风没人相信,为何唯独李光耀深信

1979年打越南,邓小平提前放出口风没人相信,为何唯独李光耀深信

南书房
2025-10-24 16:01:25
没他在利物浦2-0!1.36亿水货14场仍0球 长传离谱出边线+对抗4赢1

没他在利物浦2-0!1.36亿水货14场仍0球 长传离谱出边线+对抗4赢1

我爱英超
2025-11-02 06:38:56
燃爆广州!全红婵复出首秀就封神,广东队十五运跳水女团卫冕太顶

燃爆广州!全红婵复出首秀就封神,广东队十五运跳水女团卫冕太顶

做一个合格的吃瓜群众
2025-11-02 21:31:21
韩国教授拿出三个铁证,证明韩国人的祖先,很有可能就是中国人!

韩国教授拿出三个铁证,证明韩国人的祖先,很有可能就是中国人!

凡人侃史
2025-11-02 15:46:33
从选调生提拔为区委常委,“85后”蔡哲分享成长历程

从选调生提拔为区委常委,“85后”蔡哲分享成长历程

新京报政事儿
2025-11-02 10:34:57
特朗普亚洲之行,最看重的是中美会晤,他对中国实力敬畏与尊重

特朗普亚洲之行,最看重的是中美会晤,他对中国实力敬畏与尊重

仙味少女心
2025-11-01 23:36:09
“我的孩子坐哪?”新国标车取消后座,全国家长遭遇接娃难题!

“我的孩子坐哪?”新国标车取消后座,全国家长遭遇接娃难题!

环球电动车网
2025-11-02 18:06:52
正式官宣!确认是张艺谋

正式官宣!确认是张艺谋

TVB的四小花
2025-10-31 12:22:30
搞笑登,伦纳德绝杀成功时哈登露出鬼魅笑容

搞笑登,伦纳德绝杀成功时哈登露出鬼魅笑容

懂球帝
2025-11-02 09:15:04
为何美军在上甘岭战役中没像对付日军那样,用喷火器对着坑道喷?

为何美军在上甘岭战役中没像对付日军那样,用喷火器对着坑道喷?

老范谈史
2025-11-01 19:59:54
陈乔恩老公首公开真实家境,并没有私人飞机,自称收入不如陈乔恩

陈乔恩老公首公开真实家境,并没有私人飞机,自称收入不如陈乔恩

小先生笔记
2025-11-02 15:59:34
11分逆转!步行者拿下勇士收获赛季首胜,西卡27+5库里24分

11分逆转!步行者拿下勇士收获赛季首胜,西卡27+5库里24分

湖人崛起
2025-11-02 09:37:44
2025-11-03 01:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

亲子
本地
健康
房产
时尚

亲子要闻

Two Teen Geniuses Solve Rubik's Cube in Perfect Sy...

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

核磁VS肌骨超声,谁更胜一筹?

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

最近很火的发型,原来这么简单!

无障碍浏览 进入关怀版