网易首页 > 网易号 > 正文 申请入驻

以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题

0
分享至

作者介绍:德州农工大学博士生李港,专注于设计和应用高效算法到大规模机器学习和人工智能任务,包括增强大型基础模型的后训练算法、对抗性鲁棒学习算法和分布鲁棒性学习算法。曾发表数篇论文在 NeurIPS、ICML、KDD 等顶会, 并作为主要贡献者之一发布了针对不平衡分类任务的知名软件包 LibAUC。

DeepSeek-R1 的成功吸引了人们对群体相对策略优化(GRPO)作为大型推理模型(LRM)强化学习方法的广泛关注。

在本文中,作者分析了二元奖励(binary reward)设置下的 GRPO 优化目标,发现了由其群体相对优势函数引起的问题难度偏差的固有局限性,并且揭示了 GRPO 与传统判别式监督学习方法之间的联系。

基于这些分析发现,作者提出了一个新颖的判别式约束优化(DisCO)框架来强化大型推理模型。该框架基于判别式学习的基本原则:增加正确答案的得分,同时减少错误答案的得分。

与 GRPO 及其变体相比,DisCO 具有以下优势:

  1. 它通过采用判别式优化目标完全消除了难度偏差
  2. 通过使用非裁剪评分函数和约束优化方法,解决了 GRPO 及其变体的熵不稳定性,得到了长期稳定的训练动态;
  3. 它允许结合先进的判别式学习技术来解决数据不平衡问题,例如在训练过程中一些问题的错误答案远远多于正确答案。

在增强大型模型的数学推理能力方面的实验表明,DisCO 大幅优于 GRPO 及其改进版本(如 DAPO),在 1.5B 模型的六个基准任务中,平均增益比 GRPO 高 7%,比 DAPO 高 6%。值得注意的是,最大响应长度(max response length)为8k 的 DisCO甚至优于最大响应长度为 32k 的 GRPO。

论文以「5,5,5,5」的高分被 NeurIPS 2025 接收。

  • 论文标题:DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization
  • 论文地址:https://arxiv.org/abs/2505.12366
  • 开源模型地址:https://huggingface.co/collections/ganglii/disco-681b705decb9979e65614d65
  • GitHub 地址:https://github.com/Optimization-AI/DisCO

GRPO 的难度偏差问题分析

GRPO 的核心思想在于对输入问题 q 生成多个输出,并定义群体相对优势函数。当采用期望形式而非经验平均时,其优化目标为:

其中:

从上面的变式分析中,作者有两个重要发现:

1. 与判别式监督学习的联系

2. 难度偏差(Difficulty Bias)

提出方法:判别式强化学习

1. 判别式目标函数(类似 AUC 优化)

基于上述与 AUC 最大化联系的分析发现,作者直接从判别式学习的原则重新设计了新的判别式强化学习框架:

为了避免其他研究发现的由裁剪操作引起的熵崩塌现象,作者设计选择非裁剪评分函数, 例如

2. 基于 DRO 的判别式目标函数(类似局部 AUC 优化)

基于判别式学习原则设计目标函数的一个优点是能够利用文献中先进监督学习技术来改进训练。推理模型的强化学习微调的一个关键挑战就是稀疏奖励,这导致答案生成的不平衡。具体来说,对于一些问题,错误答案的输出的数量可能大大超过正确答案的数量,这反映了一个经典的数据不平衡问题。这个问题在判别式学习领域中得到了广泛的研究。

为了解决这个问题,作者利用局部 AUC 优化设计了分布鲁棒性优化(DRO)目标:

3. 约束优化(稳定训练)

为了稳定训练,作者借鉴 TRPO 中的信任域思想,加入 KL 散度约束,形成以下优化问题:

不同于 TRPO 的二阶优化方法,作者采用近期发展的一种非凸不等式约束优化策略,将约束替换为平滑的方形铰链惩罚项 (squred hinge penalty):

实验结果与分析

测试效果对比

作者采用平均 16 次输出的 Pass@1 作为评价指标,在六个数学基准数据集上评估了 DisCO 和其他基线方法。

从下表观察到,作者提出的 DisCO 方法始终显著优于其他基线方法。值得注意的是,训练和推理长度均为 8k 的 DisCO (log-L)比 GRPO 平均提高了 7%,超过了以最大 24k 长度训练并以 32k 长度评估的 DeepScaleR-1.5B-Preview。在 7B 模型实验中,DisCO 也大幅优于所有基线方法,比 GRPO 平均提高了 3.5%

在上面这张表格中,作者展示了多种强化学习方法在 1.5B 模型上的效果对比。作者也加入了 OpenAI 的 o1-preview 模型作为参考基线。 表中的 MRL(Max Response Length)表示训练或测试时使用的最大响应长度,限制模型能生成多长的推理结果。 其中用阴影标注的模型,是其他团队所训练的成果,相应的指标也来自他们的原始论文或 DeepScalaR 项目。除了这些以外,其余结果要么来自现有模型的直接评估,要么是基于不同方法训练后得到的结果。 值得注意的是,表格下半部分的所有方法,都是基于相同的数据集(DeepScaleR),对 DeepSeek-R1-Distill-Qwen-1.5B 模型进行微调的结果。其中,DS 是 DeepSeek-R1 的缩写,DSR 是 DeepScalaR 的缩写。

训练动态对比

随着大规模强化学习训练成为改进推理模型的核心技术,学习算法的稳定性至关重要,因为学习稳定性决定了学习算法是否适用于大规模训练。作者从训练奖励和生成熵的角度比较了不同方法的训练动态。

从下图对 1.5B 和 7B 模型进行微调的实验中,我们可以看到,由于 GRPO、GRPO-ER、Dr. GRPO 的熵崩塌和 DAPO 的熵过度增长,它们都只能获得早熟的确定性策略或高度随机的策略,所有基线都出现了过早饱和。使用 KL 散度正则化的 TRPA 在后面的步骤中也观察到不稳定的生成熵。

相比之下,作者提出的 DisCO 使用两种非裁剪评分函数的方法最为稳定,训练奖励不断增加,生成熵保持相对稳定。

上图展示不同方法在训练过程中的动态表现:左边两张图展示的是在训练 1.5B 模型时的训练情况,右边两张图则对应于训练 7B 模型。图 (a) 和 (c) 展示了训练奖励随训练步数的变化情况,奖励是对每一步中用于训练的问题所生成答案的平均得分。图 (b) 和 (d) 展示的是生成结果的熵值(反映输出的多样性)随训练步数的变化趋势。

消融实验

从下图中可以看到,作者提出的每个组件在 DisCO 的改进中都很重要,其中使用非裁剪评分函数是至关重要的。

总结

在这项工作中,作者提出了一种新的判别式约束优化框架用于强化大型推理模型,避免了难度偏差和熵崩塌问题。数学推理实验表明,与 GRPO 及其最近的变体相比,本文方法具有显著的优越性。

虽然这项工作主要关注的是二元奖励,但是对于非二元奖励,可以考虑利用监督学习中排序目标函数或者其他新颖的评分函数来进行设计。作者将应用判别式约束优化微调更大的模型或其他推理任务留作后续研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

锁死海峡!阿联酋突袭伊朗,埃及阵风战机驰援:伊朗遭遇凶险包围

知法而形
2026-05-08 16:39:04
普京:乌克兰冲突正接近尾声

普京:乌克兰冲突正接近尾声

参考消息
2026-05-10 11:59:10
国家免费电视已开通!不用缴费,动手调好就能看

国家免费电视已开通!不用缴费,动手调好就能看

小柱解说游戏
2026-05-08 16:59:21
梁靖昆让二追三3-2逆转张本,国乒1-0领先

梁靖昆让二追三3-2逆转张本,国乒1-0领先

五姑娘说体育
2026-05-11 00:32:12
今年山茶油为啥卖不动?曾经的“油中黄金”,如今没人买单了?

今年山茶油为啥卖不动?曾经的“油中黄金”,如今没人买单了?

农夫也疯狂
2026-05-09 17:41:51
消失的美嘉生私生子了

消失的美嘉生私生子了

毒舌扒姨太
2026-05-10 22:36:37
国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

国务卿鲁比奥被中国拒之门外,北京宁绕弯传话也不给他开门!

故事终将光明磊落
2026-05-10 15:02:43
今日最佳:没有这个地方。

今日最佳:没有这个地方。

差评XPIN
2026-05-10 00:05:54
“牛散”葛卫东211亿押注科技制造,靠“炒股”常驻全球富豪榜

“牛散”葛卫东211亿押注科技制造,靠“炒股”常驻全球富豪榜

野马财经
2026-05-10 19:41:58
全场破防!袁泉当众拥抱辛柏青,一个拥抱藏尽同门温情与心疼

全场破防!袁泉当众拥抱辛柏青,一个拥抱藏尽同门温情与心疼

一盅情怀
2026-05-09 12:55:01
让二追三!梁靖崑3-2逆转击败张本智和,中国1-0领先日本

让二追三!梁靖崑3-2逆转击败张本智和,中国1-0领先日本

懂球帝
2026-05-11 00:11:52
罕见啊!毁车+恐吓+醉驾+亲子鉴定!这连环计太可怕了!!

罕见啊!毁车+恐吓+醉驾+亲子鉴定!这连环计太可怕了!!

柚子说球
2026-05-09 20:45:00
广东一男子加满640元的油后,拒不付款强行逃离现场,同行人对监控嚣张“比耶”,警方:已将嫌疑人抓获

广东一男子加满640元的油后,拒不付款强行逃离现场,同行人对监控嚣张“比耶”,警方:已将嫌疑人抓获

扬子晚报
2026-05-10 10:28:16
熟客不再光顾都是因为啥?网友:这老板掉钱眼里了

熟客不再光顾都是因为啥?网友:这老板掉钱眼里了

解读热点事件
2026-05-05 00:05:15
澳门荷官:见多了赌场上的大起大落,有人一夜暴富,有人倾家荡产

澳门荷官:见多了赌场上的大起大落,有人一夜暴富,有人倾家荡产

史不语
2026-05-10 10:15:09
今晚2.5亿股民要超级兴奋了

今晚2.5亿股民要超级兴奋了

风风顺
2026-05-10 07:12:13
结不起还是结不动?一季度全国结婚登记再创纪录新低

结不起还是结不动?一季度全国结婚登记再创纪录新低

听心堂
2026-05-10 17:04:06
决赛两场被横扫!早田希娜出席发布会红着眼,直指丢冠而难受!

决赛两场被横扫!早田希娜出席发布会红着眼,直指丢冠而难受!

篮球资讯达人
2026-05-11 00:01:17
撒贝宁一家现身重庆!蹲地上给女儿拍照超宠爱,妻子李白长腿吸睛

撒贝宁一家现身重庆!蹲地上给女儿拍照超宠爱,妻子李白长腿吸睛

青梅侃史啊
2026-05-10 07:41:59
提狗都不提孩子?霖霖14号生日,小S发文惹争议,被张兰狠狠打脸

提狗都不提孩子?霖霖14号生日,小S发文惹争议,被张兰狠狠打脸

一盅情怀
2026-05-10 17:31:15
2026-05-11 01:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

数码
房产
亲子
时尚
艺术

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

亲子要闻

大动脉上长出活胚胎!深圳医生接诊致命妊娠

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

艺术要闻

这些美人体摄影,简直美得让人窒息!

无障碍浏览 进入关怀版