网易首页 > 网易号 > 正文 申请入驻

北大彭一杰教授课题组提出RiskPO,风险度量优化重塑大模型后训练

0
分享至



该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。

研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是,大模型看似在 Pass@1 等短视指标上有提升,实则推理边界从未拓宽,更无法应对 AIME 竞赛题、复杂代码生成这类高难度任务。如何让模型主动「啃硬骨头」,成为大模型后训练的关键瓶颈。



AIME2024 上的学习表现

技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下

为解决传统均值优化的缺陷,北大团队提出 RiskPO,核心突破在于将风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」,从根本上引导模型突破推理短板。



  • 论文链接:https://arxiv.org/abs/2510.00911v1
  • 代码链接:https://github.com/RTkenny/RiskPO









为配合 MVaR 目标,团队提出「多问题捆绑」策略,将多个问题打包成 bundle 计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题—— 比如将 5 个数学题打包后,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈。



算法架构图

实验:三大任务全面碾压,难问题上优势更显著

好的技术方案,终要靠硬指标说话。北大团队在数学推理、代码生成、多模态推理三大领域的 10 余个数据集上,用数据证明了 RiskPO 的突破性 —— 尤其在最能体现推理能力的「硬任务」上,优势远超 GRPO 及其变体。

在数学推理领域,RiskPO 在 AIME24(美国数学邀请赛)任务上表现惊艳:Pass@32 得分比 GRPO 高出近 7 个百分点,比最强基线 DAPO 提升 6.7 个百分点;即便是相对简单的 MATH500 数据集,其 Pass@1 也达到 81.8%,超出 GRPO 2.6 个百分点。

更关键的是,随着评估指标从 Pass@1 转向 Pass@8、Pass@16,RiskPO 的优势持续扩大 ——这意味着模型不仅能给出更优的单条答案,还能探索更多有效推理路径,真正突破了「采样效率优化」的局限。



数学推理任务



Pass@k 学习曲线

在跨领域任务中,RiskPO 同样稳定领先:代码生成任务 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 个百分点;多模态几何推理任务 Geo3K 上,准确率达到 54.5%,优于 DAPO 的 54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力。



其他任务

理论 + 消融:熵坍缩缓解有依据,参数设计有章法

RiskPO 的性能突破,并非依赖工程调参,而是有扎实的理论支撑和严谨的消融实验验证。



高熵更新定理

从理论层面,团队证明了「风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制,发现 RiskPO 的 MVaR 目标函数能降低「优势 - 对数概率」的相关性 —— 相比 GRPO,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。

实验中也能清晰看到:训练 500 步后,GRPO 的熵值已趋近于 0,而 RiskPO 仍能维持 0.2 以上的熵水平,确保对难任务的持续探索。



训练集 DAPOMATH-17k 上的各项指标

值得注意的是,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO 与 RiskPO 的表现几乎难分伯仲,甚至 RiskPO 因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾 RVaR、MVaR 奖励)时,两者差距立刻凸显 ——RiskPO 的曲线始终保持显著领先,且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象,再结合最终测试集上 RiskPO 在 Pass@k(尤其是高 k 值)、难任务(如 AIME 竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。



不同风险偏好对比实验



结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩—— 训练 150 步后熵值已降至 0.1 以下,远低于 RiskPO 的 0.2;性能上,风险寻求模型在训练 50 步后便进入平台期,MATH 数据集 Pass@1 仅从 52% 提升至 54%,而 RiskPO 则持续优化至 56%,实现 1.5 倍的提升幅度。

这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长:美以打完后,愿重启谈判

伊朗外长:美以打完后,愿重启谈判

观察者网
2026-03-01 08:39:35
诺基亚N97复刻曝光 2026年底或将登场 情怀旗舰值不值得等?

诺基亚N97复刻曝光 2026年底或将登场 情怀旗舰值不值得等?

小柱解说游戏
2026-03-01 08:08:57
高考语文题,“固若金汤”中“汤”指什么?当年难倒不少学霸

高考语文题,“固若金汤”中“汤”指什么?当年难倒不少学霸

长风文史
2026-03-01 20:40:30
以色列警告中国导弹!以色列说让埃及撤下中国的导弹

以色列警告中国导弹!以色列说让埃及撤下中国的导弹

安安说
2026-03-01 10:09:28
被我国惯坏了!美国游客回国吐槽:连出门都变得不适应,落差太大

被我国惯坏了!美国游客回国吐槽:连出门都变得不适应,落差太大

万物知识圈
2026-03-02 12:40:28
拉屎拉到爽是一种什么体验?网友:直接拉了40厘米

拉屎拉到爽是一种什么体验?网友:直接拉了40厘米

华庭讲美食
2026-03-02 13:25:52
纪实:年轻保姆照顾七旬老汉,俩人养父女相称,私下里越突破底线

纪实:年轻保姆照顾七旬老汉,俩人养父女相称,私下里越突破底线

谈史论天地
2026-02-11 08:45:06
传闻故事:真相揭晓:戴安娜王妃生前改动了遗嘱,哈里威廉终得知

传闻故事:真相揭晓:戴安娜王妃生前改动了遗嘱,哈里威廉终得知

卡西莫多的故事
2026-01-16 10:32:37
亿万国人破防!90岁院士平静宣布,中国导弹从此没有任何死角

亿万国人破防!90岁院士平静宣布,中国导弹从此没有任何死角

小小科普员
2026-03-02 23:38:30
抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

抗美援朝被彭总火线撤职的5位师级将领,后来都授了什么军衔

鹤羽说个事
2026-03-01 18:26:08
椰树太颠了!代言人婚纱照成网红打卡地,“土味营销”天花板!

椰树太颠了!代言人婚纱照成网红打卡地,“土味营销”天花板!

LOGO研究所
2026-03-01 11:19:49
五角大楼怒了!F-35首席教官去中国打工,难怪我军总能逮个正着

五角大楼怒了!F-35首席教官去中国打工,难怪我军总能逮个正着

书纪文谭
2026-02-28 16:48:05
贝弗利:那些说哈登不是联盟前三得分后卫的人简直是亵渎神明

贝弗利:那些说哈登不是联盟前三得分后卫的人简直是亵渎神明

懂球帝
2026-03-03 00:25:10
这条无耻新闻,引起公愤了!

这条无耻新闻,引起公愤了!

胖胖说他不胖
2026-03-02 12:58:07
韩国渔民发现漂浮尸体,竟是此前被报失踪的大学生!

韩国渔民发现漂浮尸体,竟是此前被报失踪的大学生!

奋斗在韩国
2026-03-02 12:07:08
突发,美国国防部出手了!

突发,美国国防部出手了!

君临财富
2026-03-02 11:40:17
美高官披露:获悉哈梅内伊等伊朗高层领导人在德黑兰的一处院落开会,由以色列实施“定点清除”

美高官披露:获悉哈梅内伊等伊朗高层领导人在德黑兰的一处院落开会,由以色列实施“定点清除”

极目新闻
2026-03-01 14:16:44
美伊大战,日本右翼急坏:若中国打日本,理由或跟美打伊一模一样

美伊大战,日本右翼急坏:若中国打日本,理由或跟美打伊一模一样

风干迷茫人
2026-03-03 03:01:51
中东多地遭伊朗报复性打击,迪拜帆船酒店遭袭起火

中东多地遭伊朗报复性打击,迪拜帆船酒店遭袭起火

观察者网
2026-03-01 12:13:04
孙颖莎夺冠后扎心一幕,有人说王曼昱打的都是外协会一姐,太累了才输球!

孙颖莎夺冠后扎心一幕,有人说王曼昱打的都是外协会一姐,太累了才输球!

乒乓乐园
2026-03-03 00:17:12
2026-03-03 04:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12395文章数 142575关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

房产
数码
艺术
健康
教育

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

数码要闻

高通MWC 2026发布多项通信技术,定档2029年开启6G商用

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

转头就晕的耳石症,能开车上班吗?

教育要闻

3月13日截止!山东综评云平台填写教程!有视频!

无障碍浏览 进入关怀版