网易首页 > 网易号 > 正文 申请入驻

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

0
分享至

该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。

研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是,大模型看似在 Pass@1 等短视指标上有提升,实则推理边界从未拓宽,更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务。如何让模型主动「啃硬骨头」,成为大模型后训练的关键瓶颈。

AIME2024 上的学习表现

技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下

为解决传统均值优化的缺陷,北大团队提出 RiskPO,核心突破在于将风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」,从根本上引导模型突破推理短板。

  • 论文链接:https://arxiv.org/abs/2510.00911v1
  • 代码链接:https://github.com/RTkenny/RiskPO

为配合 MVaR 目标,团队提出「多问题捆绑」策略,将多个问题打包成 bundle 计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题—— 比如将 5 个数学题打包后,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈。

算法架构图

实验:三大任务全面碾压,难问题上优势更显著

好的技术方案,终要靠硬指标说话。北大团队在数学推理、代码生成、多模态推理三大领域的 10 余个数据集上,用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上,优势远超 GRPO 及其变体。

在数学推理领域,RiskPO 在 AIME24(美国数学邀请赛)任务上表现惊艳:Pass@32 得分比 GRPO 高出近 7 个百分点,比最强基线 DAPO 提升 6.7 个百分点;即便是相对简单的 MATH500 数据集,其 Pass@1 也达到 81.8%,超出 GRPO 2.6 个百分点。

更关键的是,随着评估指标从 Pass@1 转向 Pass@8、Pass@16,RiskPO 的优势持续扩大 ——这意味着模型不仅能给出更优的单条答案,还能探索更多有效推理路径,真正突破了「采样效率优化」的局限。

数学推理任务

Pass@k 学习曲线

在跨领域任务中,RiskPO 同样稳定领先:代码生成任务 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 个百分点;多模态几何推理任务 Geo3K 上,准确率达到 54.5%,优于 DAPO 的 54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力。

其他任务

理论 + 消融:熵坍缩缓解有依据,参数设计有章法

RiskPO 的性能突破,并非依赖工程调参,而是有扎实的理论支撑和严谨的消融实验验证。

高熵更新定理

从理论层面,团队证明了「风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制,发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。

实验中也能清晰看到:训练 500 步后,GRPO 的熵值已趋近于 0,而 RiskPO 仍能维持 0.2 以上的熵水平,确保对难任务的持续探索。

训练集 DAPOMATH-17k 上的各项指标

值得注意的是,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO 与 RiskPO 的表现几乎难分伯仲,甚至 RiskPO 因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾 RVaR、MVaR 奖励)时,两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先,且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象,再结合最终测试集上 RiskPO 在 Pass@k(尤其是高 k 值)、难任务(如 AIME 竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。

不同风险偏好对比实验

结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩—— 训练 150 步后熵值已降至 0.1 以下,远低于 RiskPO 的 0.2;性能上,风险寻求模型在训练 50 步后便进入平台期,MATH 数据集 Pass@1 仅从 52% 提升至 54%,而 RiskPO 则持续优化至 56%,实现 1.5 倍的提升幅度。

这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新秀王之蔑视?埃奇库姆登全美热搜!30+10+6三分创6纪录超魔术师

新秀王之蔑视?埃奇库姆登全美热搜!30+10+6三分创6纪录超魔术师

颜小白的篮球梦
2026-04-22 09:45:10
马克西29+4+9探花郎狂砍30分,乔治全能锁住塔图姆,76人掀翻绿军

马克西29+4+9探花郎狂砍30分,乔治全能锁住塔图姆,76人掀翻绿军

钉钉陌上花开
2026-04-22 09:30:14
长沙拄拐老兵借个厕所被保安刁难,不服从领导安排,官方回应来了

长沙拄拐老兵借个厕所被保安刁难,不服从领导安排,官方回应来了

奇思妙想草叶君
2026-04-21 16:13:05
恒友汇《报告》:在康波复苏与全球波动中,绘就资产配置导航图

恒友汇《报告》:在康波复苏与全球波动中,绘就资产配置导航图

陆玖商业评论
2026-04-21 10:37:26
雷神山院长落马,最揪心的是无数女医护背后的家庭

雷神山院长落马,最揪心的是无数女医护背后的家庭

社会日日鲜
2026-04-21 08:34:40
B站最无聊的UP主,抛了十万次硬币证明正反面概率不是1比1

B站最无聊的UP主,抛了十万次硬币证明正反面概率不是1比1

17173游戏网
2026-04-21 13:44:24
湖人半场仅领先火箭3分:詹姆斯14+6导15-0 杜兰特20分引14-0追分

湖人半场仅领先火箭3分:詹姆斯14+6导15-0 杜兰特20分引14-0追分

醉卧浮生
2026-04-22 11:51:23
伊朗:将于29日举行展现国家力量的大游行,精锐部队随时准备开火

伊朗:将于29日举行展现国家力量的大游行,精锐部队随时准备开火

上游新闻
2026-04-22 07:08:07
曾经骂李超人的嘴今天究竟怎么了?

曾经骂李超人的嘴今天究竟怎么了?

木虫
2026-04-21 06:02:22
Shams:文班亚马确诊为脑震荡,将于明日接受后续检查

Shams:文班亚马确诊为脑震荡,将于明日接受后续检查

懂球帝
2026-04-22 10:58:07
老兵借厕所被拒后续!残疾原因曝光,老兵发声,官方建议辞退保安

老兵借厕所被拒后续!残疾原因曝光,老兵发声,官方建议辞退保安

离离言几许
2026-04-21 21:41:39
编造“大葱免费拿”谣言造成种植户财产损失,多人被处罚

编造“大葱免费拿”谣言造成种植户财产损失,多人被处罚

界面新闻
2026-04-22 10:01:16
重庆一大叔火车上崩溃大哭,同车男子买盒饭转账500元:他赶回老家见大儿子最后一面

重庆一大叔火车上崩溃大哭,同车男子买盒饭转账500元:他赶回老家见大儿子最后一面

潇湘晨报
2026-04-21 13:00:15
伊朗“蚊子舰队”曝光:藏身洞穴,时速185公里,还可从隐蔽阵地发射导弹与无人机,被美方视为霍尔木兹海峡的主要威胁

伊朗“蚊子舰队”曝光:藏身洞穴,时速185公里,还可从隐蔽阵地发射导弹与无人机,被美方视为霍尔木兹海峡的主要威胁

扬子晚报
2026-04-22 09:54:29
老兵借厕所被拒后续!官方公布处理结果,保安被开除,老兵回应

老兵借厕所被拒后续!官方公布处理结果,保安被开除,老兵回应

180视角
2026-04-22 01:03:20
行业变局下,“播种者”古井贡酒的答案

行业变局下,“播种者”古井贡酒的答案

酒周志
2026-04-21 20:58:45
湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”:已责令涉事学校立即纠正、认真整改

湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”:已责令涉事学校立即纠正、认真整改

环球网资讯
2026-04-21 12:17:57
十五部门:加强青年婚恋观引导,探索住房、出行、消费等多领域联动的生育支持政策

十五部门:加强青年婚恋观引导,探索住房、出行、消费等多领域联动的生育支持政策

界面新闻
2026-04-22 11:51:12
贝森特:美国海军将继续封锁伊朗港口 将继续对伊朗“极限施压”

贝森特:美国海军将继续封锁伊朗港口 将继续对伊朗“极限施压”

财联社
2026-04-22 11:42:03
45岁金·卡戴珊与汉密尔顿海边嬉戏,“如胶似漆”,却引发争议

45岁金·卡戴珊与汉密尔顿海边嬉戏,“如胶似漆”,却引发争议

译言
2026-04-22 07:23:37
2026-04-22 12:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12828文章数 142633关注度
往期回顾 全部

科技要闻

凌晨突发!ChatGPT Images 2.0发布

头条要闻

柬埔寨国王在京手术 洪森携子看望:感谢中方

头条要闻

柬埔寨国王在京手术 洪森携子看望:感谢中方

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

四款全球首秀+AI落地 大众汽车集团在华转型全面提速

态度原创

家居
本地
亲子
房产
公开课

家居要闻

极简绘梦 克制和谐

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

亲子要闻

影响心理健康的两种快乐因素:一旦失衡,孩子将会厌学抑郁

房产要闻

年薪40-50万!海南地产圈还在猛招人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版