网易首页 > 网易号 > 正文 申请入驻

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

0
分享至




刘子儒博士毕业于香港城市大学数据科学专业,导师为赵翔宇教授及数学家周定轩教授。目前就职于华为香港研究所小艺团队,负责 RLVR 算法与扩散语言模型方向的研究。龚成目前在香港城市大学攻读博士学位,导师为张青富教授。期间在华为香港研究所小艺团队进行研究实习,负责RLVR算法方向的研究。

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法,即采用可验证奖励强化学习(RLVR)逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。相较于依赖高质量人工数据或从强大模型中提炼出的思维链的监督微调(SFT),基于强化学习(RL)的后训练在增强推理能力方面表现出更强的泛化性。

然而,目前以Group Relative Policy Optimization (GRPO)为代表的 RLVR 方法通常面临两个局限点:1. 训练数据难度与模型能力之间存在差距,导致奖励稀疏从而阻碍了学习过程的稳定性。2. 单纯基于 On-policy 强化学习算法的样本效率低下,这对于端侧小模型而言尤为突出。

为此,华为香港研究所小艺团队、诺亚方舟实验室与香港城市大学合作推出了 GHPO 算法框架,实现了在线强化学习与模仿学习的融合,并且能够自适应地进行切换。



  • 论文标题:GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning
  • 论文:https://arxiv.org/abs/2507.10628
  • Github:https://github.com/hkgc-1/GHPO
  • 数据:https://huggingface.co/datasets/hkgc/math3to5_olympiads_aime

GHPO 不仅能大幅提升端侧模型的样本利用效率,同时针对性缓解了目前 RLVR 方法中的奖励稀疏现象。通过难度感知与动态引导模块设计,GHPO 不仅提升了模型训练过程中的稳定性,并且在 6 个不同的开源数学推理 Benchmark 上实现提升,尤其在 GPQA-Diamond 和 AMC23 上分别提升 9% 和 10%。该方法进一步被证明可以适用于不同难度分布的训练数据集与多个模型类别。



具体方法

在 RL 中引入模仿学习

源自于对在线强化学习算法与基于模仿学习方法的思考,该团队发现在传统 GRPO 算法的训练过程中,只有正确答案本身被用来提供监督信号,而标准解题过程未被利用。因此,团队提出了一个全新思路:通过将标准解题过程直接整合到强化学习循环中,来解决之前提到的奖励稀疏问题,并进一步提出假设:模型训练过程中通过标准解题过程的提示,从而获得有效的学习信号。并且该方法能提升模型在推理任务上的泛化能力。

后续通过一系列的实验证明该假设确实可行。

GHPO 算法框架

然而,以上的离线方案需要预先将一组训练数据集中的样本进行难度划分,并始终对其应用固定比例的提示。从而导致该方案无法实现全局最优的效果与有效的拓展。因此,该团队进一步提出了引导式混合策略优化(GHPO),实现了动态样本难度评估,并自适应地在强化学习和模仿学习之间切换。



如图所示,GHPO 由两个核心模块组成:

  • 自动化难度检测:该模块评估当前问题的内在难度,从而决定后续的学习过程。该模块不需要提前标准或引入其他大模型作为辅助,仅需要基于每个样本生成的解答的分布即可进行难度分类。该方案既能实现高效训练且随模型能力同步演进。
  • 自适应提示切换:根据检测到的难度,该模块通过整合不同级别的标准解题路径来引导模型进行探索学习。团队提出了一种具有多阶段指导的自适应提示优化策略,该策略动态调整提示比例 ω。这种动态提示注入的核心思想是一个由学习阶段控制的线性调度。训练过程中会首先应用一小部分真实解作为初始提示,如果模型未能生成正确响应,提示的长度将在后续阶段逐渐增加。

基于以上的创新方案,GHPO 的目标函数可以表达为以下形式:



这种创新方法确保仅在模型真正需要时才提供对应指导,为模型当前能力范围内的任务保留了有价值的探索,同时为更具挑战性的场景提供了自适应的优化。

评测表现全面超越 GRPO 算法,代码数据全面开源

GHPO 的代码实现基于 Openr1 项目,训练框架的选择为 TRL,使用 vLLM 进行推理加速。团队在 TRL 的代码逻辑上直接实现了 GHPOTrainer,后续有望在 TRL 后续版本上集成。

实验设计上,基于 Qwen2.5-7B-base 模型进行了多种 RLVR 算法的实现,包括 GRPO、DeepScaleR 的课程学习,以及固定比例提示作为基线,并基于开源数据准备了两种不同难度设定的训练集,验证了 GHPO 算法在 6 个主流数学 Benchmark 上的表现:





结果表明 GHPO 算法相较于 GRPO 可以实现平均 4.5% 的性能提升。



同时 GHPO 在训练过程中有着更加稳定的梯度更新。并且团队进一步证明该算法可以应用到其他模型上,如 Qwen2.5-Math-7B。

进一步提供了详细的案例展示:



总结与展望:GHPO 推动了强化学习与 SFT 之间的借鉴融合

自从 DeepSeek-R1 问世后,以 GRPO 为代表的强化学习算法一度成为大模型后训练的热点,相较于 SFT,被认为能带来更强的模型泛化能力。GHPO 不仅以一种巧妙地方式缓解了 RLVR 训练奖励信号稀疏带来的训练不稳定问题,同时实现了 on-policy 强化学习与模仿学习的自适应调整,为社区提供重新看待 SFT 与 RL 的视角以及提供两者未来深度融合的可能性,助力人类进一步探索人工智能本质。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欺骗全世界?马杜罗被抓是与美国商量好的!或帮特朗普演了一出戏

欺骗全世界?马杜罗被抓是与美国商量好的!或帮特朗普演了一出戏

玛丽莲萌兔
2026-01-04 09:50:54
特朗普让委内瑞拉一夜变天,中国接下来的态度至关重要

特朗普让委内瑞拉一夜变天,中国接下来的态度至关重要

麓谷隐士
2026-01-04 10:16:14
台岛内斗升级!爆贪污大案,陈水扁被前蓝营大佬指证,收3亿佣金

台岛内斗升级!爆贪污大案,陈水扁被前蓝营大佬指证,收3亿佣金

深挖全球热点
2026-01-04 08:46:26
长春“唐僧”拒签合同!新合同砍至8万还想抢账号?

长春“唐僧”拒签合同!新合同砍至8万还想抢账号?

失宠的小野猪
2026-01-02 20:23:06
她身为黄埔军校的校花,与叶帅离异后独自教子,建国后出任副主席,其子亦被授予少将军衔

她身为黄埔军校的校花,与叶帅离异后独自教子,建国后出任副主席,其子亦被授予少将军衔

史海孤雁
2026-01-02 17:46:14
张本美和:2025很沮丧,成绩不如意,但还好有家人在身边

张本美和:2025很沮丧,成绩不如意,但还好有家人在身边

冥王星与一只碗
2026-01-04 09:48:01
女护士让男友配药后续,央视点名批评,正脸曝光已社死,被扒惯犯

女护士让男友配药后续,央视点名批评,正脸曝光已社死,被扒惯犯

不写散文诗
2026-01-03 21:59:42
长大以后才发现语文课本里全是人生,网友:终是山猪品不了细糠

长大以后才发现语文课本里全是人生,网友:终是山猪品不了细糠

另子维爱读史
2026-01-01 22:55:19
广东队伤病情况更新!张昊6-8月恢复 崔永熙和麦考尔年后复出

广东队伤病情况更新!张昊6-8月恢复 崔永熙和麦考尔年后复出

胖子喷球
2026-01-03 10:09:46
美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

美方报道的中国大使馆被炸事件,中国军事顾问团遭重创,秘而不宣

干史人
2025-10-22 20:10:03
潮汕出了个“乔布斯”,干出年入120亿小电驴!拟2026年赴港上市

潮汕出了个“乔布斯”,干出年入120亿小电驴!拟2026年赴港上市

文史旺旺旺
2026-01-03 19:08:03
6国宣布出兵!中方不低头也得低?扬言和中方斗到底!咱妈动真格

6国宣布出兵!中方不低头也得低?扬言和中方斗到底!咱妈动真格

瞳哥视界
2025-12-31 21:05:39
恒大前总裁夏海钧上诉被驳回,香港法院:600亿港元资产不能转移、不能处置出售房产收益!他曾年薪2亿元,被曝藏身于美国加州,与妻儿同住

恒大前总裁夏海钧上诉被驳回,香港法院:600亿港元资产不能转移、不能处置出售房产收益!他曾年薪2亿元,被曝藏身于美国加州,与妻儿同住

每日经济新闻
2026-01-03 11:10:06
现实版好莱坞大片:美军特战部队空突成功,生擒马杜罗

现实版好莱坞大片:美军特战部队空突成功,生擒马杜罗

西楼饮月
2026-01-03 20:02:44
徐长元敛财上千亿拥房2714套退休三年难逃法网

徐长元敛财上千亿拥房2714套退休三年难逃法网

羽逸地之光
2026-01-04 04:41:31
6年前自称西施貂蝉,非千万富翁不嫁的四川女孩,如今嫁人了吗?

6年前自称西施貂蝉,非千万富翁不嫁的四川女孩,如今嫁人了吗?

吃青菜长高
2025-12-31 23:08:08
腐乳再次被关注!研究发现:糖尿病患者常吃腐乳,或出现4种变化

腐乳再次被关注!研究发现:糖尿病患者常吃腐乳,或出现4种变化

摇感军事
2026-01-03 21:16:50
曼联新卢克·肖拒续约欲转会英冠!被阿莫林批评,左闸太多没希望

曼联新卢克·肖拒续约欲转会英冠!被阿莫林批评,左闸太多没希望

罗米的曼联博客
2026-01-04 10:43:36
夫妻性生活:女人最讨厌的5种“床上行为”,男人千万别犯!

夫妻性生活:女人最讨厌的5种“床上行为”,男人千万别犯!

精彩分享快乐
2025-11-25 00:05:03
天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

天箭科技净利润或减少超2亿元,陷退市危机!股民可索赔

扬子晚报
2026-01-03 17:01:43
2026-01-04 11:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12034文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

头条要闻

牛弹琴:美国开了一个危险先例 世界正在大乱

体育要闻

离开中超后,他成了足坛“倒钩之王”

娱乐要闻

司晓迪再曝猛料,晒和陈翔亲密合照

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

游戏
教育
健康
旅游
军事航空

魔兽世界:TBC版本入手难度最大的极品装备,99%普通玩家拿不到!

教育要闻

教育部:鼓励师范院校建立数学、科技、工程类教育中心

这些新疗法,让化疗不再那么痛苦

旅游要闻

科技焕彩迎新春!东营市科技馆元旦假期接待游客近 1万人次

军事要闻

特朗普公布马杜罗被捕后照片

无障碍浏览 进入关怀版