网易首页 > 网易号 > 正文 申请入驻

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。

从数学解题到代码生成,RLVR本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑——

但现实是,以GRPO为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:

模型训练早期就会出现熵坍缩,过早丧失探索能力;

面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。

最终结果是,大模型看似在Pass@1等短视指标上有提升,实则推理边界从未拓宽,更无法应对AIME竞赛题、复杂代码生成这类高难度任务。

如何让模型主动「啃硬骨头」,成为大模型后训练的关键瓶颈。


AIME2024上的学习表现

用「风险度量」破局,

MVaR+捆绑策略双管齐下

为解决传统均值优化的缺陷,北大团队提出的RiskPO,核心突破在于风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」,从根本上引导模型突破推理短板。


论文链接:https://arxiv.org/abs/2510.00911v1

代码链接:https://github.com/RTkenny/RiskPO

单位:由北京大学彭一杰教授课题组完成

作者:第一作者为任韬,共一作者为江金阳,其他作者包括杨晖等。

这一思路的核心载体是「混合风险价值(MVaR)」目标函数。

团队首先基于区间风险价值(RVaR)构建基础——对于奖励分布,其α/β分位数区间内的RVaR定义为该区间内奖励的条件期望,公式为:


在此基础上,MVaR通过引入权重参数,进一步放大左尾(低奖励、难任务)的梯度信号,形成最终目标:


其中即为对左尾区间的额外关注权重,确保模型优先优化难任务。

为让该目标可落地,团队还严谨推导了MVaR的梯度估计式子——基于策略梯度的似然比求导方法,最终得到(式中为捆绑后的总奖励):


为配合MVaR目标,团队提出「多问题捆绑」策略,将多个问题打包成bundle计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题——比如将5个数学题打包后,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈。


算法架构图

三大任务全面碾压,

难问题上优势更显著

好的技术方案,终要靠硬指标说话。

北大团队在数学推理、代码生成、多模态推理三大领域的10余个数据集上,用数据证明了RiskPO的突破性——

尤其在最能体现推理能力的「硬任务」上,优势远超GRPO及其变体。

在数学推理领域,RiskPO在AIME24(美国数学邀请赛)任务上表现惊艳:

Pass@32得分比GRPO高出近7个百分点,比最强基线DAPO提升6.7个百分点;

即便是相对简单的MATH500数据集,其Pass@1也达到81.8%,超出GRPO2.6个百分点。

更关键的是,随着评估指标从Pass@1转向Pass@8、Pass@16,RiskPO的优势持续扩大——

这意味着模型不仅能给出更优的单条答案,还能探索更多有效推理路径,真正突破了「采样效率优化」的局限。


数学推理任务


Pass@k学习曲线

在跨领域任务中,RiskPO同样稳定领先:代码生成任务LiveCodeBench上,Pass@1比GRPO提升1个百分点;多模态几何推理任务Geo3K上,准确率达到54.5%,优于DAPO的54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力。


其他任务

熵坍缩缓解有依据

参数设计有章法

RiskPO的性能突破,并非依赖工程调参,而是有扎实的理论支撑和严谨的消融实验验证。

高熵更新定理:


从理论层面,团队证明了风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制,发现RiskPO的MVaR目标函数能降低「优势-对数概率」的相关性——相比GRPO,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。实验中也能清晰看到:训练500步后,GRPO的熵值已趋近于0,而RiskPO仍能维持0.2以上的熵水平,确保对难任务的持续探索。


训练集DAPOMATH-17k上的各项指标

值得注意的是,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO与RiskPO的表现几乎难分伯仲,甚至RiskPO因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾RVaR、MVaR奖励)时,两者差距立刻凸显——RiskPO的曲线始终保持显著领先,且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象,再结合最终测试集上RiskPO在Pass@k(尤其是高k值)、难任务(如AIME竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。


不同风险偏好对比实验

为进一步验证风险规避目标的必要性,团队还设计了「风险寻求(risk-seeking)」对比实验:采用与MVaR结构对称的风险寻求目标,即



重点关注奖励分布的右尾(易任务)。结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩——训练150步后熵值已降至0.1以下,远低于RiskPO的0.2;性能上,风险寻求模型在训练50步后便进入平台期,MATH数据集Pass@1仅从52%提升至54%,而RiskPO则持续优化至56%,实现1.5倍的提升幅度。

这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界。

参考资料:

https://arxiv.org/abs/2510.00911v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江西临川三中党总支书记梅军水查看教学楼屋顶漏水时意外坠楼,不幸去世

江西临川三中党总支书记梅军水查看教学楼屋顶漏水时意外坠楼,不幸去世

澎湃新闻
2025-11-11 10:22:30
跳高王子朱建华:退役定居美国,为养家糊口再次回国,后来怎样了

跳高王子朱建华:退役定居美国,为养家糊口再次回国,后来怎样了

混沌录
2025-10-16 21:54:07
持"黑人智商低于白人"观点的“DNA之父”辞世 生前被剥夺所有荣誉

持"黑人智商低于白人"观点的“DNA之父”辞世 生前被剥夺所有荣誉

深度报
2025-11-09 22:53:16
4强诞生!斯诺克冠中冠战报:特鲁姆普6-2雷佩凡,强势冲赛季首冠

4强诞生!斯诺克冠中冠战报:特鲁姆普6-2雷佩凡,强势冲赛季首冠

越岭寻踪
2025-11-11 05:51:55
49岁林心如官宣参加离婚综艺!和霍建华结婚9年,坦言难以挽回

49岁林心如官宣参加离婚综艺!和霍建华结婚9年,坦言难以挽回

查尔菲的笔记
2025-10-16 18:17:52
惊人阳谋!亚洲电诈教父陈志只是小虾米,这才是最狠的杀猪盘?

惊人阳谋!亚洲电诈教父陈志只是小虾米,这才是最狠的杀猪盘?

热风追逐者
2025-10-26 17:14:12
演员童瑶:我这辈子最正确的决定,就是因为一句话嫁给了丈夫王冉

演员童瑶:我这辈子最正确的决定,就是因为一句话嫁给了丈夫王冉

白面书誏
2025-11-10 19:22:46
突然火了!年轻人捡漏倒闭车企“烂尾车”,有人半价买哪吒,有人12万元抄底高合,“开10万公里就回本了”

突然火了!年轻人捡漏倒闭车企“烂尾车”,有人半价买哪吒,有人12万元抄底高合,“开10万公里就回本了”

每日经济新闻
2025-11-08 23:16:08
金发科技与西门子签署战略合作协议

金发科技与西门子签署战略合作协议

每日经济新闻
2025-11-11 09:50:22
泽连斯基委屈破防,红军城彻底封死,乌军损失殆尽各国都看在眼里

泽连斯基委屈破防,红军城彻底封死,乌军损失殆尽各国都看在眼里

boss外传
2025-11-11 17:05:03
中国正在全力追赶!印度将军:目前中国的航母,落后印度10年之久

中国正在全力追赶!印度将军:目前中国的航母,落后印度10年之久

桑启红原
2025-11-11 11:46:57
秦雯通报来了!袭警被人捞出是在开玩笑,间接实锤古二录音为真!

秦雯通报来了!袭警被人捞出是在开玩笑,间接实锤古二录音为真!

萌神木木
2025-11-11 10:25:32
阿莫林痛批爱将:我都不认识你了

阿莫林痛批爱将:我都不认识你了

体坛周报
2025-11-11 17:46:15
一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

一天三四次!56岁大妈患上肛门癌,丈夫痛哭道:根本不知道有害

阿晪美食
2025-09-30 14:45:42
汉人最伟大的巅峰之战,如果这场仗输了,中国将分裂成几十个小国

汉人最伟大的巅峰之战,如果这场仗输了,中国将分裂成几十个小国

珺瑶婉史
2025-11-07 20:05:07
高领白色无袖配粉色瑜伽裤,自带清新滤镜,甜美活力风尽显时尚感

高领白色无袖配粉色瑜伽裤,自带清新滤镜,甜美活力风尽显时尚感

小乔古装汉服
2025-11-10 14:28:19
全面运营调试!广州这段新地铁,离开通更近了

全面运营调试!广州这段新地铁,离开通更近了

书中自有颜如玉
2025-11-11 11:13:19
蔡正元惹众怒,又有一人对蔡正元开火,大陆官媒正式定性蔡正元

蔡正元惹众怒,又有一人对蔡正元开火,大陆官媒正式定性蔡正元

谛听骨语本尊
2025-11-11 16:03:20
加图索:基耶萨拒绝入选国家队

加图索:基耶萨拒绝入选国家队

体坛周报
2025-11-11 08:47:10
年薪5263万美金!联盟第1!老詹下放发展联盟,杨瀚森要看清现实

年薪5263万美金!联盟第1!老詹下放发展联盟,杨瀚森要看清现实

世界体育圈
2025-11-11 10:13:11
2025-11-11 18:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13843文章数 66241关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

12岁女孩手脚遭绑关厕所17天被虐亡 继母二审维持死刑

头条要闻

12岁女孩手脚遭绑关厕所17天被虐亡 继母二审维持死刑

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

教育
亲子
游戏
时尚
旅游

教育要闻

赵冬梅:我儿子初中辍学了,我经历过最深的黑暗,但我们走出来了

亲子要闻

宝蓝洗手忘记关水了,家里变成大水池。

运筹帷幄,决胜千里!5款三国题材手游“真策略”硬核盘点

火遍全网的这件外套太好穿,我总结了几个实用搭配公式

旅游要闻

大湾区商旅&酒店资源集结完毕,精准拓客不用愁!

无障碍浏览 进入关怀版