网易首页 > 网易号 > 正文 申请入驻

GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」

0
分享至



大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型(SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升就微乎其微。

针对小模型在强化学习中的推理困境,香港中文大学(深圳)T-Lab 唐晓莹教授携课题组博士毕业生郭永新、邓文博提出了全新算法 G²RPO-A(Guided Group Relative Policy Optimization with Adaptive Guidance)。已被 ACL 2026 主会议(Main Conference)接收。

该方法通过在 roll-out 过程中注入高质量思维轨迹,并根据训练状态动态调整指导强度,有效缓解小模型面临的奖励稀疏问题。在 Llama、Qwen、DeepSeek 等多个主流模型家族上的实验表明,G²RPO-A 在数学推理和代码生成任务上显著优于 vanilla GRPO,其中 Qwen3-1.7B 在 MATH500 上从 50.96 提升到 67.21,HumanEval 上从 46.08 提升到 75.93。



  • 论文地址:G²RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance
  • 论文链接:https://arxiv.org/abs/2508.13023
  • 代码仓库:https://github.com/T-Lab-CUHKSZ/G2RPO-A
  • 作者:Yongxin Guo♠,♡,*, Wenbo Deng♠,*, Zhenglin Cheng♣, Xiaoying Tang♠
  • 单位:♠ 香港中文大学(深圳) ♡ 淘天集团(郭永新为香港中文大学(深圳)T-Lab毕业博士生) ♣ 西湖大学
「我们用 GRPO 训练了 Qwen3-1.7B,结果高奖励候选始终太少,模型很难稳定学到有效的推理策略……」

一个灵魂拷问随之而来:难道小模型注定与高级推理能力无缘吗?



图 1:Naive Guidance 的困境。使用 Qwen2.5-Math-7B 在 s1K-1.1 数据集上训练,简单的固定长度指导在早期训练阶段有短暂提升,但很快与 vanilla GRPO 无异。

一、小模型的「推理瓶颈」到底卡在哪?

当前,尽管 GRPO 等强化学习算法在大模型上取得了巨大成功,但在小规模语言模型(SLMs)上却面临严峻挑战。研究团队通过深入分析发现,问题的核心在于「稀疏奖励」困境:

由于 SLMs 自身能力有限,面对复杂推理任务时,它们很难生成高质量的思考链,导致大部分 roll-out 都无法获得正向奖励。如下图所示,Qwen3-1.7B 在代码任务上的奖励分布极其稀疏:



图 2:Qwen3-1.7B 在代码任务上的奖励热力图对比。引入 guidance 后,模型更容易采样到高奖励候选,奖励信号显著变得更密集。

研究团队形象地将其比作「新手司机开手动挡」:无论引擎(模型)如何努力,缺乏正确的引导(指导)依然难以完成复杂的驾驶(推理)操作。

二、G²RPO-A 核心算法架构

为了缓解小模型在 RLVR 中的先天劣势,G²RPO-A 并不是简单地把标准答案喂给模型,而是在 roll-out 的部分轨迹中注入高质量 thinking trajectory,并根据训练状态动态调整 guidance 强度。



图 3:G²RPO-A 的整体框架。每一步训练都会将 roll-out 分成 guided 和 unguided 两组,再根据当前奖励与历史奖励的比值动态调整后续 guidance length。

G²RPO-A 的核心创新包含两个关键组件:

  • 指导机制(Guidance Mechanism):在模型生成 roll-out 的过程中,注入部分高质量的思维轨迹作为引导,使 SLM 朝向生成更高质量候选答案的方向发展。



三、关键发现:

为什么简单指导行不通?

研究团队首先验证了 naive guidance 的效果,发现简单的固定长度指导效果有限。更关键的是,在基于 Math-220K 子集的训练动态分析里,这种「看起来更容易拿到奖励」的做法并没有真正带来更健康的优化信号:



图 4:Naive Guided GRPO 的陷阱。论文在基于 Math-220K 子集的训练动态中发现,naive guidance 虽然能短暂抬高 reward,但其 advantage 标准差极低,严重阻碍了 SLM 的训练效率。

换句话说,naive guidance 的问题不在于「完全没帮助」,而在于它只是让模型更容易采到一些高奖励候选,却没有同步保住足够有区分度的 advantage 信号;结果就是奖励看似变好,训练效率却没有真正提升。

四、主实验结果:

数学和代码上到底涨了多少?

论文做了大量配置实验,首先,最值得展示的其实是主实验结果:在统一训练设置下,直接和 Base、vanilla GRPO、SFT 对比,看看 G²RPO-A 是否真的能把小模型带起来。

配置分析本身给出的核心结论可以先记一句:代码任务通常需要更高 guidance ratio,小模型也通常比大模型更依赖 guidance。这也是作者最后转向「自适应」而不是「固定超参」的直接动机。

先看数学推理主实验。下表来自论文主表,展示了不同 Qwen3 基座在多个数学 benchmark 上的结果:



表 1:论文主实验中的数学 benchmark 结果,单位为准确率(%)。

如果只看最有代表性的几组结果,提升是很直观的:Qwen3-1.7B-Base 在 MATH500 上从 50.96 提升到,在 GPQA 上从 27.45 提升到;Qwen3-8B-Base 在 MATH500 上也从 71.32 提升到。论文还补充了更强数学设置下的 AIME 结果,其中 Qwen3-1.7B 在 AIME24/AIME25 上分别达到,高于对应的 GRPO 结果 56.67 和 50.00。

再看代码主实验。这里的趋势也很有意思:G²RPO-A 并不是「每一个单项都绝对碾压」,但整体上在多数 benchmark 上拿到了最优,尤其对小模型的拉升非常明显。



表 2:论文主实验中的代码 benchmark 结果,单位为准确率(%)。

具体来说,Qwen3-0.6B 在 HumanEval 上从 32.32 提升到,LiveCodeBench 上从 17.07 提升到;Qwen3-1.7B 在 HumanEval 上从 46.08 提升到。需要如实说明的是,Qwen3-1.7B 在 LiveCodeBench 上是 SFT 略高,但论文额外给出的 Code-Avg 对比中,G²RPO-A 仍以高于 GRPO 的 60.40 和 Clip-Higher 的 60.19。

五、自适应策略的核心思想

G²RPO-A 的关键不在于「永远加更多 guidance」,而在于根据最近几个训练 step 的奖励变化自动调 guidance length。论文里的更新规则更接近下面这个形式:

指导长度自适应更新规则:



其中,m=min(T,k),ℓₖ 为第 k 步的 guidance length,rₖ 为当前奖励,T 为历史窗口。奖励走高则缩短 guidance,奖励走弱则拉长 guidance。

直观理解:若最近奖励持续上升,则逐步缩短 guidance,让模型自主完成更多推理;若奖励下降,则适当拉长 guidance,降低训练难度。

直觉上,如果最近奖励持续上升,就逐步缩短 guidance,让模型自己完成更多推理;如果最近奖励下降,就适当拉长 guidance,先把训练难度降下来。这比人为预设一个固定 schedule 更贴近论文真正想表达的「adaptive」。

总结与展望

这项工作的价值,不只是提出了一个新 trick,而是把「小模型为什么在 RLVR 里吃不到有效奖励」这件事分析得更清楚:问题不只是模型小,更在于奖励稀疏、advantage 方差信号不足,而且指导强度还会随训练过程变化。

作者也坦言,当前方法仍有两个明显边界:一是验证主要集中在数学和代码任务,跨模态等场景还有待检验;二是 guidance ratio α 仍依赖经验搜索,离真正完全自适应还有一步。

论文和项目仓库都已经公开,这项工作为小规模语言模型在 RLVR 场景中的训练设计提供了一个很有价值的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方宣布无视美国制裁,美媒称史无前例,鲁比奥:或追加二次制裁

中方宣布无视美国制裁,美媒称史无前例,鲁比奥:或追加二次制裁

书纪文谭
2026-05-07 15:11:53
这5种食物被冤枉好多年,以为伤身不敢吃,其实比外卖健康

这5种食物被冤枉好多年,以为伤身不敢吃,其实比外卖健康

Home范
2026-05-06 11:25:50
2000吨飞絮惹众怒,一斧子全砍了认错?专家:三大代价承受不起

2000吨飞絮惹众怒,一斧子全砍了认错?专家:三大代价承受不起

小兰聊历史
2026-04-26 11:37:23
泰晤士:阿森纳计划5月31日举行庆祝游行;已与阿尔特塔展开续约谈判

泰晤士:阿森纳计划5月31日举行庆祝游行;已与阿尔特塔展开续约谈判

懂球帝
2026-05-07 12:41:41
啊。。。。大帝快哭了啊。。。。

啊。。。。大帝快哭了啊。。。。

左右为篮
2026-05-07 17:12:43
中美会晤在即,印度将目光锁定八国,莫迪要弯道超车?野心藏不住

中美会晤在即,印度将目光锁定八国,莫迪要弯道超车?野心藏不住

丁丁鲤史纪
2026-05-07 16:58:51
7座车为啥越卖越少?车主坦言:多2座,却多了4个闹心缺陷

7座车为啥越卖越少?车主坦言:多2座,却多了4个闹心缺陷

音乐时光的娱乐
2026-05-04 23:51:39
电视剧《主角》定档,由张艺谋监制,张嘉益、刘浩存、秦海璐等主演;王菲献唱同名主题曲,“大秀”秦腔

电视剧《主角》定档,由张艺谋监制,张嘉益、刘浩存、秦海璐等主演;王菲献唱同名主题曲,“大秀”秦腔

极目新闻
2026-05-07 11:58:54
继子照顾病重养母 13年,临终给继子5万亲儿2套房,继子取款愣了

继子照顾病重养母 13年,临终给继子5万亲儿2套房,继子取款愣了

兰姐说故事
2025-04-19 10:00:11
31岁中乙中场停赛7个月罚6万 暴力染红后威胁+推裁判 踹坏广告板

31岁中乙中场停赛7个月罚6万 暴力染红后威胁+推裁判 踹坏广告板

风过乡
2026-05-07 12:12:48
太可怕!猪价跌破5元,背后藏着惊天阴谋,幸亏国家及时出手了!

太可怕!猪价跌破5元,背后藏着惊天阴谋,幸亏国家及时出手了!

丁丁鲤史纪
2026-05-07 11:31:02
闹麻了!华子狂输47分还笑嘻嘻,反观邓肯……

闹麻了!华子狂输47分还笑嘻嘻,反观邓肯……

贵圈真乱
2026-05-07 12:34:16
一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

一旦装上心脏支架,还能活多少年?医生不再隐瞒,说出了实话

医学原创故事会
2026-05-01 23:20:56
钟汉良19-51岁颜值变化,出道时奶萌,40岁巅峰,花期太长了!

钟汉良19-51岁颜值变化,出道时奶萌,40岁巅峰,花期太长了!

情感大头说说
2026-05-06 08:14:38
哪来的自信,一个落选秀,拒绝9000万大合同,季后赛命中率仅三成

哪来的自信,一个落选秀,拒绝9000万大合同,季后赛命中率仅三成

球毛鬼胎
2026-05-07 12:55:53
卡里克转正悬了?罗马诺爆料:曼联暗中锁定世界级名帅

卡里克转正悬了?罗马诺爆料:曼联暗中锁定世界级名帅

澜归序
2026-05-07 06:48:06
民进党官员称鼠患非认知战,蒋万安重炮回击:“南鼠北送”不是吗

民进党官员称鼠患非认知战,蒋万安重炮回击:“南鼠北送”不是吗

海峡导报社
2026-05-06 16:36:06
第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

博览历史
2025-10-07 17:13:05
特斯拉召回21万辆:软件定义汽车的代价

特斯拉召回21万辆:软件定义汽车的代价

野生运营
2026-05-06 15:42:57
中美之争将落幕?现实比想象残酷:美国不是输了,是下不了牌桌了

中美之争将落幕?现实比想象残酷:美国不是输了,是下不了牌桌了

墨君月夜相思
2026-05-07 15:12:04
2026-05-07 18:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12939文章数 142644关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

手机
游戏
亲子
本地
公开课

手机要闻

三星手机中国正常销售背后:去年投放13款机型 销量至少百万

索尼PS5独占新作销量太烂了!前十都进不去 回本堪忧

亲子要闻

宝蓝趁爸爸睡着了,把爸爸的薯片都拿走偷吃,突然被爸爸发现了

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版