网易首页 > 网易号 > 正文 申请入驻

DeepSeek 背后的技术 GRPO基于群组采样的大语言模型强化学习训练

0
分享至

强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果,充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。

这些成果的取得源于一种创新性的强化学习方法——群组相对策略优化(Group Relative Policy Optimization, GRPO)。该方法有效解决了将强化学习应用于语言模型时面临的特殊挑战。本文将深入分析 GRPO 的工作机制及其在语言模型训练领域的重要技术突破,并探讨其在实际应用中的优势与局限性。

PPO 与 GRPO 的对比分析

近邻策略优化(Proximal Policy Optimization, PPO)[1] 一直是语言模型强化学习微调的主流算法。PPO 的核心是一种策略梯度方法,通过裁剪(clipping)机制来限制策略更新的幅度,从而防止策略发生过大的破坏性变化。PPO 的目标函数可表示为:

GRPO 首次在文献 [2] 中提出,它在 PPO 的基础上引入了多项关键创新,使其在语言模型训练中具有更高的效率和适用性:

  1. 无需价值网络,显著降低了内存占用和计算开销
  2. 采用群组采样方法,实现更高效且稳定的优势估计
  3. 通过强化目标函数和奖励的惩罚机制,实现更保守的策略更新

更详细的对比:

具体的PPO 原理和Pytorch代码可以参考我们前几天发布的文章。

GRPO 技术深析

语言模型作为策略网络

在 GRPO 框架中,语言模型充当策略网络(actor),将问题q作为输入观察s,输出一系列词元(tokens)作为动作。策略分布在词元序列上进行分解:

注:原始论文 [2] 使用o_t表示时间步t的输出词元,而本文采用a_t以符合强化学习中动作的标准记号。

序列化词元生成

基于 Transformer 架构和语言模型的自回归特性,生成过程具有严格的序列性:

  1. 每个词元的生成都依赖于之前生成的词元序列
  2. 策略网络(语言模型)维护持续更新的上下文信息
  3. 每个词元生成步骤都可视为强化学习框架中的一个动作a_t

奖励计算与优势估计

GRPO 对每个生成序列中的词元奖励计算如下:

GRPO 摒弃了传统的价值网络,转而通过对参考策略产生的多个输出样本进行群组奖励归一化来估计基线优势值A。这些输出样本都是针对同一输入问题生成的:

优势估计的详细步骤:

  1. 群组采样:对于每个问题,使用旧策略生成多个不同的输出序列。
  2. 奖励计算:计算每个输出序列的累积奖励。
  3. 奖励归一化:对群组内的奖励进行归一化处理,例如减去均值并除以标准差。
  4. 优势估计:使用归一化后的奖励作为优势函数的估计值。

GRPO 目标函数

对于每个问题 ,GRPO 从旧策略 中采样一组输出 {1, 2, · · · , },然后通过最大化 GRPO 目标函数来优化策略模型。完整的 GRPO 目标函数综合了以下要素:

该目标函数的特点:

  1. 同时在群组和序列长度维度上进行平均
  2. 使用裁剪机制确保策略更新的保守性
  3. 引入 KL 散度估计作为惩罚项,防止策略与参考模型产生过大偏离

目标函数的详细解释:

  • 第一项:策略梯度项,鼓励模型生成更高奖励的动作序列。
  • 第二项:裁剪项,限制策略更新的幅度,防止策略崩溃。
  • 第三项:KL 散度惩罚项,防止新策略与旧策略偏离过大,保证训练的稳定性。

GRPO 的优势与局限性

优势:

  • 高效性:无需价值网络,降低了计算和内存开销。
  • 稳定性:群组采样和 KL 散度惩罚提高了训练的稳定性。
  • 适用性:特别适用于大规模语言模型的微调。

局限性:

  • 对参考策略的依赖:GRPO 的性能受到参考策略质量的影响。
  • 超参数敏感:目标函数中的超参数(如裁剪范围和 KL 散度系数)需要仔细调整。
  • 理论分析的缺乏:相比于 PPO,GRPO 的理论分析还不够完善。

实际应用案例

DeepSeek-Math 和 DeepSeek-R1 是 GRPO 在实际应用中的成功案例。这些模型在数学推理和问题解决能力方面取得了显著的提升,证明了 GRPO 在增强语言模型推理能力方面的有效性。

DeepSeek-Math:通过 GRPO 训练,DeepSeek-Math 在数学问题解决能力上超越了许多其他大型语言模型。

DeepSeek-R1:DeepSeek-R1 利用 GRPO 提高了在复杂推理任务中的表现,例如阅读理解和逻辑推理。

总结

GRPO 在将强化学习应用于语言模型方面取得了重要突破。通过取消价值网络依赖并引入群组相对优势估计,该方法实现了更高效和稳定的训练过程。DeepSeek-Math 和 DeepSeek-R1 的成功实践充分验证了这种方法的实际效果。

GRPO 的核心创新——群组采样、相对优势估计以及价值网络的简化——为语言模型训练的未来发展提供了重要的技术参考。随着语言模型能力边界的不断拓展,GRPO 等创新技术将在充分发挥语言模型潜力方面发挥关键作用。未来的研究方向包括:

  • 改进优势估计方法:探索更精确和高效的优势估计方法。
  • 自适应超参数调整:开发自动调整 GRPO 超参数的算法。
  • 理论分析:加强对 GRPO 算法的理论分析,理解其收敛性和泛化能力。

参考

[1] Schulman, John, et al. Proximal Policy Optimization Algorithms. arXiv:1707.06347, arXiv, 28 Aug. 2017.

[2] Shao, Zhihong, et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300,

[3] DeepSeek-AI, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948,
https://avoid.overfit.cn/post/05d4b8fb001b4adeb4e050fb323cd21f

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
17国入和平委员会,4国反悔!普京10亿没花出去,特朗普态度变了

17国入和平委员会,4国反悔!普京10亿没花出去,特朗普态度变了

娱乐圈的笔娱君
2026-01-23 00:21:00
官场奇案:汕头大火烧死中纪委调查员,是天灾还是人祸?

官场奇案:汕头大火烧死中纪委调查员,是天灾还是人祸?

午夜故事会
2024-03-28 11:35:01
-9℃!要下雨了!江苏天气最新预测

-9℃!要下雨了!江苏天气最新预测

微淮安
2026-01-23 19:20:33
天助C罗:1-2,本泽马破门难救主,C罗争冠劲敌2连败,落后胜利队10分

天助C罗:1-2,本泽马破门难救主,C罗争冠劲敌2连败,落后胜利队10分

侧身凌空斩
2026-01-23 03:57:15
江苏昆山一工厂春节提前离岗或延迟到岗的均按自动离职处理

江苏昆山一工厂春节提前离岗或延迟到岗的均按自动离职处理

捣蛋窝
2026-01-23 08:44:18
他们为何急于注销携程?

他们为何急于注销携程?

智识漂流
2025-12-25 20:09:36
爆笑经典糗事冷笑话,那天我在机场碰上一个上海女人,正在和一个北京女人抬杠说!

爆笑经典糗事冷笑话,那天我在机场碰上一个上海女人,正在和一个北京女人抬杠说!

天天明星
2026-01-23 14:15:21
楼市的五大新城时代,彻底结束

楼市的五大新城时代,彻底结束

环线房产咨询
2026-01-23 19:04:20
10万亿度需求也不买!中国摊牌,输电专线全叫停,国产电价教做人

10万亿度需求也不买!中国摊牌,输电专线全叫停,国产电价教做人

大鱼简科
2026-01-23 19:59:24
美军8艘战舰携812枚战斧导弹压境,伊朗:支持美以者必遭打击

美军8艘战舰携812枚战斧导弹压境,伊朗:支持美以者必遭打击

老马拉车莫少装
2026-01-24 00:08:32
斯诺克最新战报!中国德比一边倒:雷佩凡夺赛点,张安达2局0分!

斯诺克最新战报!中国德比一边倒:雷佩凡夺赛点,张安达2局0分!

刘姚尧的文字城堡
2026-01-23 19:33:16
好消息!武汉明确:计划再扩招8000人!

好消息!武汉明确:计划再扩招8000人!

蔡甸在线
2026-01-23 12:07:07
高调炫富只是冰山一角啊!

高调炫富只是冰山一角啊!

BenSir本色说
2026-01-21 22:03:50
人社部部长表态!2026养老金到底怎么涨?企退和事退有无差异?

人社部部长表态!2026养老金到底怎么涨?企退和事退有无差异?

丁丁鲤史纪
2026-01-23 11:10:35
火箭122 - 128负费城,谁是逆转“罪魁”?数据说话!

火箭122 - 128负费城,谁是逆转“罪魁”?数据说话!

魔血獄苼
2026-01-24 00:58:12
流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

流亡一年后,阿萨德已成“透明人”,连约普京吃顿饭都做不到

朔方瞭望
2026-01-06 11:11:51
美航母已战前静默!关键时刻,运-20飞抵伊朗紧急交付红旗-9B?

美航母已战前静默!关键时刻,运-20飞抵伊朗紧急交付红旗-9B?

红岸卫士
2026-01-21 22:24:37
2月财气冲天,3生肖迎贵人旺财运,多吉多利

2月财气冲天,3生肖迎贵人旺财运,多吉多利

人閒情事
2026-01-20 12:58:44
我38岁被裁员,公司补偿了我75万,手续办完后,财务总监追了出来

我38岁被裁员,公司补偿了我75万,手续办完后,财务总监追了出来

五元讲堂
2025-12-23 11:21:19
广东这家餐饮店5500高薪诚聘35岁以下服务员,时薪不到10块!

广东这家餐饮店5500高薪诚聘35岁以下服务员,时薪不到10块!

捣蛋窝
2026-01-18 00:12:55
2026-01-24 02:56:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1899文章数 1443关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

亲子
教育
艺术
旅游
军事航空

亲子要闻

“一个桃就拐走了!”宝妈在水果店频频拒绝女儿,评论区太真实!

教育要闻

AI是在弥合教育差距还是带来新的“不公平”?家长面对“AI寒门论”该怎么办?千问官方回应来了

艺术要闻

人像摄影背后的真相,模特并不是全部!

旅游要闻

北京世园“天宫灯会”正式开幕,持续至3月8日

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版