网易首页 > 网易号 > 正文 申请入驻

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】大模型后训练的痛点:均值优化忽略低概率高信息路径,导致推理能力停滞。RiskPO双管齐下,MVaR目标函数推导梯度估计,多问题捆绑转化反馈,实验中Geo3K准确率54.5%,LiveCodeBench Pass@1提升1%,泛化能力强悍。

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。

从数学解题到代码生成,RLVR本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑——

但现实是,以GRPO为代表的主流方法正陷入「均值优化陷阱」。

这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:

模型训练早期就会出现熵坍缩,过早丧失探索能力;

面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。

最终结果是,大模型看似在Pass@1等短视指标上有提升,实则推理边界从未拓宽,更无法应对AIME竞赛题、复杂代码生成这类高难度任务。

如何让模型主动「啃硬骨头」,成为大模型后训练的关键瓶颈。


AIME2024上的学习表现

用「风险度量」破局,

MVaR+捆绑策略双管齐下

为解决传统均值优化的缺陷,北大团队提出的RiskPO,核心突破在于风险规避(risk-averse)理念融入优化目标,用「关注奖励分布左尾(难任务)」替代「追求整体均值」,从根本上引导模型突破推理短板。


论文链接:https://arxiv.org/abs/2510.00911v1

代码链接:https://github.com/RTkenny/RiskPO

单位:由北京大学彭一杰教授课题组完成

作者:第一作者为任韬,共一作者为江金阳,其他作者包括杨晖等。

这一思路的核心载体是「混合风险价值(MVaR)」目标函数。

团队首先基于区间风险价值(RVaR)构建基础——对于奖励分布,其α/β分位数区间内的RVaR定义为该区间内奖励的条件期望,公式为:


在此基础上,MVaR通过引入权重参数,进一步放大左尾(低奖励、难任务)的梯度信号,形成最终目标:


其中即为对左尾区间的额外关注权重,确保模型优先优化难任务。

为让该目标可落地,团队还严谨推导了MVaR的梯度估计式子——基于策略梯度的似然比求导方法,最终得到(式中为捆绑后的总奖励):


为配合MVaR目标,团队提出「多问题捆绑」策略,将多个问题打包成bundle计算奖励,把稀疏的二进制反馈转化为更丰富的分布信号,彻底解决「难题零梯度」问题——比如将5个数学题打包后,模型能从整体得分中捕捉到「部分正确」的学习信号,而非单个题目非对即错的极端反馈。


算法架构图

三大任务全面碾压,

难问题上优势更显著

好的技术方案,终要靠硬指标说话。

北大团队在数学推理、代码生成、多模态推理三大领域的10余个数据集上,用数据证明了RiskPO的突破性——

尤其在最能体现推理能力的「硬任务」上,优势远超GRPO及其变体。

在数学推理领域,RiskPO在AIME24(美国数学邀请赛)任务上表现惊艳:

Pass@32得分比GRPO高出近7个百分点,比最强基线DAPO提升6.7个百分点;

即便是相对简单的MATH500数据集,其Pass@1也达到81.8%,超出GRPO2.6个百分点。

更关键的是,随着评估指标从Pass@1转向Pass@8、Pass@16,RiskPO的优势持续扩大——

这意味着模型不仅能给出更优的单条答案,还能探索更多有效推理路径,真正突破了「采样效率优化」的局限。


数学推理任务


Pass@k学习曲线

在跨领域任务中,RiskPO同样稳定领先:代码生成任务LiveCodeBench上,Pass@1比GRPO提升1个百分点;多模态几何推理任务Geo3K上,准确率达到54.5%,优于DAPO的54.3%。这种「全场景增益」,证明了风险度量优化的泛化能力。


其他任务

熵坍缩缓解有依据

参数设计有章法

RiskPO的性能突破,并非依赖工程调参,而是有扎实的理论支撑和严谨的消融实验验证。

高熵更新定理:


从理论层面,团队证明了风险规避更新」能有效缓解熵坍缩:通过分析策略熵的变化机制,发现RiskPO的MVaR目标函数能降低「优势-对数概率」的相关性——相比GRPO,模型不会过度强化已掌握的易任务,从而保持更高的熵值和探索能力。实验中也能清晰看到:训练500步后,GRPO的熵值已趋近于0,而RiskPO仍能维持0.2以上的熵水平,确保对难任务的持续探索。


训练集DAPOMATH-17k上的各项指标

值得注意的是,在训练过程中,若仅观察以均值为核心的指标曲线(如平均奖励),GRPO与RiskPO的表现几乎难分伯仲,甚至RiskPO因更高的探索性还伴随轻微波动;但切换到风险敏感指标(如下尾RVaR、MVaR奖励)时,两者差距立刻凸显——RiskPO的曲线始终保持显著领先,且随训练推进持续攀升。

这种「均值相近、风险指标悬殊」的现象,再结合最终测试集上RiskPO在Pass@k(尤其是高k值)、难任务(如AIME竞赛题)上的优势,进一步印证了:均值目标只能让模型在「已知能力范围内优化采样效率」,而风险度量目标才是推动模型突破推理边界、真正提升核心能力的理想方向。


不同风险偏好对比实验

为进一步验证风险规避目标的必要性,团队还设计了「风险寻求(risk-seeking)」对比实验:采用与MVaR结构对称的风险寻求目标,即



重点关注奖励分布的右尾(易任务)。结果显示,风险寻求模型的熵值在训练早期就剧烈坍缩——训练150步后熵值已降至0.1以下,远低于RiskPO的0.2;性能上,风险寻求模型在训练50步后便进入平台期,MATH数据集Pass@1仅从52%提升至54%,而RiskPO则持续优化至56%,实现1.5倍的提升幅度。

这一对比清晰证明,聚焦易任务的风险寻求策略会加速模型「固步自封」,只有风险规避才能驱动模型突破推理边界。

参考资料:

https://arxiv.org/abs/2510.00911v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

凡知
2025-08-16 09:25:44
徐湖平家族:若不事发~

徐湖平家族:若不事发~

瓜哥的动物日记
2026-02-25 11:11:12
乌媒:俄乌冲突爆发4周年,泽连斯基首次展示冲突初期所使用地下掩体

乌媒:俄乌冲突爆发4周年,泽连斯基首次展示冲突初期所使用地下掩体

环球网资讯
2026-02-24 17:12:54
特朗普态度大转弯!美媒直言:想赢中国,只剩下一条路可走

特朗普态度大转弯!美媒直言:想赢中国,只剩下一条路可走

你得漂亮
2026-02-25 11:36:58
2月25日人民币对美元中间价调升93个基点

2月25日人民币对美元中间价调升93个基点

证券时报
2026-02-25 09:31:35
CCTV直播!国乒5人出局 孙颖莎大战萨马拉 何卓佳死磕早田!新加坡大满贯25日赛程

CCTV直播!国乒5人出局 孙颖莎大战萨马拉 何卓佳死磕早田!新加坡大满贯25日赛程

好乒乓
2026-02-25 11:39:58
闫军被撤销国际裁判并非意味着天亮了,在CBA,他依然呼风唤雨

闫军被撤销国际裁判并非意味着天亮了,在CBA,他依然呼风唤雨

姜大叔侃球
2026-02-24 18:12:32
最新发布!大连房价领涨全国

最新发布!大连房价领涨全国

中国房地产报官方号
2026-02-25 09:53:45
郑丽文提统一方案!大陆破格批准,台海局势或迎重大转折

郑丽文提统一方案!大陆破格批准,台海局势或迎重大转折

林子说事
2026-02-25 04:59:54
《纯真年代的爱情》直到方穆扬父母平反,才知,许红旗入狱的真相

《纯真年代的爱情》直到方穆扬父母平反,才知,许红旗入狱的真相

观察鉴娱
2026-02-25 10:42:42
突然涌入上百人!浙江一地因《飞驰人生3》爆火,有人开车几小时来“挖宝”,当地:建议大家等项目完工后再前往体验

突然涌入上百人!浙江一地因《飞驰人生3》爆火,有人开车几小时来“挖宝”,当地:建议大家等项目完工后再前往体验

大象新闻
2026-02-24 23:44:06
小糯米12岁近照!长腿复刻杨幂,刘恺威天天接送,杨幂隐身不负责

小糯米12岁近照!长腿复刻杨幂,刘恺威天天接送,杨幂隐身不负责

八卦王者
2026-02-25 12:45:37
扬州瘦马是什么?糟粕泯灭人性却风靡明清数百年,有钱人才能享用

扬州瘦马是什么?糟粕泯灭人性却风靡明清数百年,有钱人才能享用

匹夫来搞笑
2026-02-21 11:34:59
萨林杰离队?朱芳雨承认引援,刘礼嘉约会广东女球员,林志杰退役

萨林杰离队?朱芳雨承认引援,刘礼嘉约会广东女球员,林志杰退役

体坛大事记
2026-02-25 12:10:52
俄罗斯首父立遗嘱,百亿财富百娃平分,结果他自律到15年不生病

俄罗斯首父立遗嘱,百亿财富百娃平分,结果他自律到15年不生病

时光派健康抗衰
2026-02-24 19:35:03
特朗普白忙活一场,下一任总统热门候选人出炉,对中国态度不一般

特朗普白忙活一场,下一任总统热门候选人出炉,对中国态度不一般

墨兰史书
2026-02-24 23:24:46
上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

大铁猫娱乐
2026-02-08 00:10:03
15战13胜!骑士新五虎逞威:哈登轰20+4,东部争霸更激烈

15战13胜!骑士新五虎逞威:哈登轰20+4,东部争霸更激烈

李喜林篮球绝杀
2026-02-25 12:45:24
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

笑饮孤鸿非
2026-02-24 16:59:29
单节5中5,狂轰27分!库明加首秀一顿乱杀,鹰记:科尔应感到羞愧

单节5中5,狂轰27分!库明加首秀一顿乱杀,鹰记:科尔应感到羞愧

球盲姐
2026-02-25 10:48:23
2026-02-25 14:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14587文章数 66641关注度
往期回顾 全部

科技要闻

台积电市值破2万亿美元,翻倍只用了16个月

头条要闻

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

头条要闻

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

数码
本地
时尚
教育
公开课

数码要闻

特斯拉推出Megapack迷你储能站造型充电宝,709元

本地新闻

津南好·四时总相宜

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

教育要闻

中央民族大学2026年美术类专业复试考场安排

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版