网易首页 > 网易号 > 正文 申请入驻

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

0
分享至



作者彭若天是西湖大学和浙江大学联培博士生,任毅是不列颠哥伦比亚大学博士,郁昼亮是香港中文大学博士生,刘威杨是香港中文大学计算机系助理教授,温研东是西湖大学人工智能系助理教授

随着 Deepseek-R1,Kimi1.5 等模型展示了强化学习在提升大型语言模型复杂推理能力上的巨大潜力,使用可验证强化学习(RLVR)在数学、逻辑与编程等领域进行训练提升模型性能受到了广泛关注。

然而,尽管现有 RLVR 方法在提升模型的 pass@1 性能(单次尝试正确的概率)方面取得了显著成果,但其在 pass@K(K 次尝试中至少一次正确的概率,K>1)上的性能相比基础模型却下降了。

这一现象表明,虽然模型在「利用」(Exploitation)单一正确路径的能力有所增强,但牺牲了对多样化正确解的「探索」(Exploration)能力。

针对这一问题,研究团队从「模型预测下一个词的概率分布」这一新视角出发,深入研究了「探索」能力下降的内在机制。大量实验发现,经过现有 RLVR 算法训练后的模型,多数存在概率集中于单一推理路径的问题。

受该现象启发,研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization),显著优化了 pass@K(K=1 及 K>1)性能。



图 1



  • 论文地址:https://arxiv.org/abs/2510.14807
  • 项目主页:https://spherelab.ai/simko/
  • 代码仓库:https://github.com/CLR-Lab/SimKO

问题分析:导致 RLVR 探索能力下降的原因是什么?

当前主流的大语言模型强化学习算法(如 GRPO、DAPO 等)采用 RLVR 范式,其训练方法可以直观理解为:模型对每个问题生成多个答案,对正确答案给予奖励,对错误答案施加惩罚。在理想的探索状态下,模型能够在多个潜在正确推理路径之间分配相对均匀的概率质量,不应将概率过度集中于某一条正确路径上,如图 2 (a) 和 (b) 所示。

同时,团队认为当前的用熵(Entropy)作为指标衡量多样性存在局限:熵无法具体反映概率分布的形态。如图 2(c)所示,两个具有相同熵值的分布,一个可能包含多个峰值,而另一个则可能高度集中于一个峰值。

因此,熵无法精确描述模型在推理过程中对不同推理路径的真实探索程度。



图 2

因此,团队引入了一种新的分析指标,用于更加精细地观察训练过程中的学习动态:该指标通过测量模型在生成过程中,反映下一 token 后验概率分布的不同排名候选词(rank-k candidate)的平均对数概率(average log-probability),从而实现对概率分布演化动态的直接观测。



通过这一新指标,作者发现RLVR 训练机制存在一个系统性偏差(如图 3 所示):

它会持续强化 rank-1 候选词的概率,同时显著抑制其他较低排名(rank-k, k>1)的候选路径,即使那些路径同样是正确的。

这种机制导致了模型输出分布的「过度集中」。模型的概率质量过度汇聚于单一的推理路径,导致其丧失了生成多样化正确答案的能力。

更重要的是,进一步实验分析明确揭示了概率过度集中问题与 pass@K 性能的下降之间存在强相关性:当模型概率分布越集中于 rank-1 答案,而 rank-2 和 rank-3 的概率越低的时候,其 pass@K 指标也随之降低。



图 3

SimKO:一种非对称的梯度调节策略



图 4

为解决上述的概率过度集中问题,研究团队提出了 SimKO (Simple Pass@K Optimization)。其核心机制在于对探索 token 施加非对称的更新策略(如图 4 所示):即在正确的推理路径上实现概率平滑,而在错误的推理路径上施加精准惩罚。

(A) 关键节点的识别

SimKO 并非对所有 token 进行无差别调节。它首先识别推理路径中具有高熵的 token,这些 token 代表了模型面临多个高概率选项、可能产生不同推理方向的关键节点。因此 SimKO 更新策略只应用于这些关键节点。

(B) 正确路径:实施 top-K Label Smoothing

  • 传统方法 (GRPO):仅提升被采样到的单个正确 token的概率。由于推理路径是由模型自行采样的,因此采样到的的 token 是 rank-1 候选 token 的概率较高高,这是导致概率过度集中于 rank-1 的直接原因。这种机制容易使概率质量集中在单路径,从而抑制了对其他潜在正确路径的探索。
  • SimKO :对正确的 token 使用 top-K label smoothing 策略。当一个采样路径被验证为正确时,SimKO 将奖励均匀分配给路径上的关键节点处概率最高的 top-K 个候选 token。该策略防止概率分布集中在单一的正确路径上,从而在强化正确路径的同时,维持了模型的探索多样性。

(C) 错误路径:对 rank-1 token 精准惩罚

  • 传统方法 (GRPO):对所有被采样到的错误 token 施加统一强度的惩罚。 这种统一惩罚常导致「挤压效应」(Squeezing Effect)。即当一个非 rank-1 的错误候选 token 被惩罚时,这部分概率会被 rank-1 候选 token 吸收,从而提高 rank-1 token 的概率,这会让模型的概率分布更加集中。
  • SimKO :对错误的 token 进行非对称惩罚。当采样的错误 token恰好是 rank-1 候选时,施加显著更强的惩罚;而对其他(rank-k, k>1)错误候选则降低惩罚强度。这种策略缓解了惩罚非 rank-1 token 带来的概率集中问题,同时对 rank-1 token 实施更强的惩罚也防止模型陷入单一的错误推理模式。

实验分析:实现「探索」与「利用」的平衡

团队在多个数学推理基准(MATH500、AIME 2024/25、Minerva Math、OlympiadBench、AMC23)上对 Llama 和 Qwen 模型进行了系统性评估。如表 1 所示,SimKO 策略在显著提升 pass@K 性能的同时,成功保持(或略微提升)了 pass@1 准确率,证明其有效平衡了「探索」与「利用」。



表 1

为了验证 SimKO 是否有效缓解了概率分布过度集中问题,研究团队使用上述新提出的分析指标,追踪了模型使用不同 RLVR 算法训练过程中的学习动态(如图 5 所示):

  • GRPO:随着训练的进行,模型表现出严重的概率过度集中现象。rank-1 的概率迅速收敛至接近 1,而 rank-2 与 rank-3 的概率则降低至 10⁻⁸ 与 10⁻¹⁰以下。这表明,几乎所有的概率质量都集中到了 rank-1 token 上,导致模型训练后丧失了探索能力。
  • SimKO:相比之下,SimKO 展示出了有效的缓解概率集中效果。其 rank-1 的概率显著低于 GRPO,同时为 rank-2 与 rank-3 保留了更高的概率质量。这一结果有力地表明了 SimKO 通过缓解了概率过度集中问题,从而提升了模型的探索能力,进而提升 pass@K 性能。



图 5

SimKO 不仅在数学推理任务上表现优异,在逻辑推理任务中同样具有出卓越的泛化效果(见表 2):

  • Synlogic (分布内任务):SimKO 相比 GRPO 表现出更好的性能,pass@1 提升 31.6%,pass@128 提升 26.3%。相比之下,NSR 和 W-REINFORCE 在此任务上未能有效收敛(pass@1 仅 1.1% 和 0.8%)。
  • BBH (分布外任务):SimKO 在提升 pass@1(+16%)的同时,pass@128 依然有良好的性能(92%)表现。而对照组 GRPO(88.2%) 和 PSR (82.8%)则在 pass@128 相比基础模型出现了显著的性能衰减。



表 2

更多细节详见论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-0到1-4!斯诺克中国德比:斯佳辉兵败如山倒,肖国栋逆转冲4强

1-0到1-4!斯诺克中国德比:斯佳辉兵败如山倒,肖国栋逆转冲4强

刘姚尧的文字城堡
2026-02-06 14:56:26
宗教活动不得扰乱公共秩序:当街礼拜涉嫌违反《宗教事务条例》

宗教活动不得扰乱公共秩序:当街礼拜涉嫌违反《宗教事务条例》

西域都护
2026-02-05 13:01:14
4000场里程碑!文班29+11马刺送独行侠6连败 弗拉格连4场30+

4000场里程碑!文班29+11马刺送独行侠6连败 弗拉格连4场30+

醉卧浮生
2026-02-06 11:55:16
至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

至少14人被拍到!女大学生从广州坐高铁回家,网友:看着看着就哭了

环球网资讯
2026-02-06 14:06:36
国共论坛结束,大陆宣布重要决定,给郑丽文面子,发布一项通行令

国共论坛结束,大陆宣布重要决定,给郑丽文面子,发布一项通行令

大鱼简科
2026-02-05 22:07:25
1962 年朱德视察井冈山,见女团长被安排挑粪,怒责当地地委书记

1962 年朱德视察井冈山,见女团长被安排挑粪,怒责当地地委书记

磊子讲史
2026-02-03 15:52:57
小杨哥拿下无语哥,定40亿美元带货目标!双方公司被67亿收购……

小杨哥拿下无语哥,定40亿美元带货目标!双方公司被67亿收购……

柴狗夫斯基
2026-02-06 11:52:16
南阳市人民政府关于魏新旗等3人任职的通知

南阳市人民政府关于魏新旗等3人任职的通知

大象新闻
2026-02-06 15:25:39
现货白银收跌20.06%,报70.902美元/盎司

现货白银收跌20.06%,报70.902美元/盎司

每日经济新闻
2026-02-06 06:26:13
新血压标准已公布,高血压不再是120/80mmHg,愿你的血压在它之下

新血压标准已公布,高血压不再是120/80mmHg,愿你的血压在它之下

熊猫医学社
2026-02-06 11:35:03
一月份的3.2万辆,让零跑的100万幻想破灭

一月份的3.2万辆,让零跑的100万幻想破灭

DearAuto
2026-02-05 09:33:24
乌克兰:悔到肠子青,当年卖给中国三架“废铁”,今成大国重器?

乌克兰:悔到肠子青,当年卖给中国三架“废铁”,今成大国重器?

素衣读史
2026-01-26 18:51:48
孟子义现身4S店,提7万块新车给员工当年终奖,网友:不如发现金

孟子义现身4S店,提7万块新车给员工当年终奖,网友:不如发现金

疯说时尚
2026-02-06 09:25:31
央视主持人大洗牌:3人晋升2人调岗1人离职,海霞龙洋在列

央视主持人大洗牌:3人晋升2人调岗1人离职,海霞龙洋在列

月下守候
2026-02-04 02:30:57
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
时下我国庞大失业大军都去哪里了?主要有6个去处,你认同吗?

时下我国庞大失业大军都去哪里了?主要有6个去处,你认同吗?

慧翔百科
2026-02-05 10:05:22
春节期间上海地铁3/4号线部分区段因改造停运,其间提供免费接驳

春节期间上海地铁3/4号线部分区段因改造停运,其间提供免费接驳

澎湃新闻
2026-02-06 14:02:15
公积金缴纳等级,你在几级?

公积金缴纳等级,你在几级?

新浪财经
2026-02-04 05:17:52
东风奕派发布情况声明:eπ007事故监控视频在网络平台传播,视频记录的事故发生于2025年,事故是车辆与货车高速碰撞后引发

东风奕派发布情况声明:eπ007事故监控视频在网络平台传播,视频记录的事故发生于2025年,事故是车辆与货车高速碰撞后引发

大风新闻
2026-02-05 17:48:02
“长得好看就行了”,女儿不写作业母亲要打,网友劝人走弯路

“长得好看就行了”,女儿不写作业母亲要打,网友劝人走弯路

六目先生
2026-01-23 08:39:15
2026-02-06 15:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科卷入骗保疑云 公司回应

汽车要闻

这颜值真的可以!方程豹首款轿车叫"镁7"还是"方程"?

态度原创

本地
数码
手机
公开课
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

数码要闻

消息称中国市场服务器CPU供应紧张,部分英特尔型号需等半年

手机要闻

苹果终于开窍!国行5000mAh+2nm A20 Pro,续航直接拉满

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

不惧以军拦截 “全球坚韧船队”将再赴加沙

无障碍浏览 进入关怀版