网易首页 > 网易号 > 正文 申请入驻

人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练

0
分享至

当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。

过去几年,行业把大模型推向前所未有的规模,用 RLHF 和各种奖励技术把答案校准得越来越像人类。但一个越来越尖锐的现实问题也随之浮现:模型为什么有时一本正经地胡说八道?为什么在同一训练框架下,它有时异常自信却错误,有时又显得畏首畏尾?在人们不断强化学习信号、追求更高分数的同时,一个关键问题始终没有被真正回答:正样本与负样本到底在模型内部改变了什么。

正是在这样的背景下,来自人大高瓴学院的赵鑫团队把注意力放在了这一核心问题上。他们没有急于再提出一个更大的模型或更复杂的算法,而是刻意退后一步,围绕 RLVR 框架设计了一整套系统实验:如果只用正样本会发生什么,只用负样本又会产生怎样的行为变化。模型是在真正形成推理能力,还是被奖励函数推着走向某些看似合理的套路?进一步地,在一条完整的推理链中,是否存在少数关键 token,像岔路口一样决定模型是走向正确,还是自信地偏离轨道。

围绕这些问题,研究团队完成了论文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,并提出了推理模型训练方法 A3PO。与其说这是一次方法层面的创新,不如说它首先完成了一次机制澄清:正样本主要收缩策略空间,使模型在既有正确路径上更加笃定,负样本则扩张策略空间,推动模型跳出旧有模式持续探索,而真正决定训练走向的,并非整条样本本身,而是推理过程中那些冷门却正确、以及自信但错误的关键 token。

在这一认识基础上形成的 A3PO 方法,将训练重点从整体样本转向关键决策点,使推理模型的学习过程变得更加可解释、也更可控制。这一转变表明,推理大模型的进步不再只是依赖规模和算力,而正在走向对训练机制本身的深入理解。


论文地址:https://arxiv.org/pdf/2512.21625v1

正样本「收缩」vs 负样本「探索」

实验中,研究人员首先对比了正样本和负样本,并发现它们在训练过程中起到的作用完全不同。

具体表现为,当只用正样本训练(PSR)时,模型会变得越来越确定:熵迅速下降,输出分布越来越尖锐,答案长度明显变短,经常直接给出结果而不展开完整推理。这说明正样本更多是在强化已经正确的推理路径,让模型不断重复熟悉的解题套路,同时也会抑制继续探索新路径。


与此相反,只用负样本训练(NSR)时,模型的熵保持在较高水平甚至上升,回答长度变长,推理步骤增多,表现出更强的尝试和探索倾向。这是因为负样本训练主要在削弱错误 token 的概率,使原本集中的概率被分散到其他候选路径上,从而带来更强的探索能力。

不过,实验也表明,两种极端方式其实都不理想:只用正样本容易出现 reward hacking,只报答案不推理,只用负样本训练不稳定,甚至可能生成乱码。整体比较下来,正负样本同时使用(DAPO)时训练曲线更平稳,泛化能力也最好。


在此基础上,研究人员又引入锐化(sharpen)和发现(discovery)两个指标来刻画模型生成内容的变化。锐化指标反映模型是否在重复历史正确答案中已经出现过的 n-gram,而发现指标反映是否产生了新的、从未出现过的 n-gram。雷峰网

结果显示,在锐化指标上,PSR 高于 DAPO,DAPO 又高于 NSR,在发现指标上则相反,NSR 最高,DAPO 居中,PSR 最低。这表明正样本更像在磨刀,使已有正确模式变得更熟练、更稳定,而负样本更像在开路,推动模型寻找新的推理方式,两者结合才能既保证稳定性,又拓展能力上限。


研究团队还从极性级 advantage 的角度分析了正负样本权重的影响。以 Qwen2.5-7B-Math 为例,当增大正样本权重(如 P2N1、P1N0.5)时,训练奖励上升更快,但熵明显下降、输出变短,探索能力减弱,权重过大时甚至会过拟合既有模式,而当增大负样本权重(如 P1N5)时,熵和输出长度都更高,探索更充分,但奖励上升变慢,模型表现得更加谨慎。

实验表明,决定训练动态的关键不在于各自权重的绝对大小,而在于正负样本之间的比例,例如 P2N1 与 P1N0.5 的比例相同,曲线表现也非常相似。总体来看,正负 advantage 比例大约在 1:2 左右时,能够较好地兼顾收敛速度与探索能力。


最后,在 token 级别的实验中,研究人员进一步分析了哪些 token 在训练中最关键。结果发现,并不是所有 token 都同等重要,而是两类最关键:一类是正样本中的低概率 token,即冷门但正确的推理步骤,另一类是负样本中的高概率 token,也就是模型非常自信但实际上是错误的部分。

前者需要重点奖励,以保留多样但正确的推理路径,后者需要重点惩罚,防止模型固执地坚持错误答案。新提出的 A3PO 方法正是围绕这两类关键 token 进行非对称加权设计的,这一点也得到了实验数据的支持。

在 Qwen2.5-7B-Math 上,A3PO 在 AIME24 与 AIME25 上分别从 DAPO 的 27.6 和 21.4 提升到 31.5 和 24.8;在 Qwen3-8B-Base 上,也从 34.2/26.1 提升到 37.8/30.4;在 DeepSeek-R1 蒸馏模型上,则从 60.8/50.8 提升到 65.2/54.1。并且,这些提升不仅出现在单一数据集上,而是在 AIME、MATH500、GPQA 等多个基准上同时出现,其中多项结果还通过了显著性检验。

因此,可以认为 A3PO 在保持较强探索能力的同时,确实在不同模型与不同评测任务上带来了稳定且明确的性能提升。


在机制分析基础上构建 A3PO

为了得到全面的实验结果,研究人员首先围绕 RLVR 框架搭建了一系列对照实验,目的是不急于提出新方法,而是先把正样本和负样本的作用拆开来看,分别考察只用正样本、只用负样本以及正负样本同时使用时模型的具体表现。雷峰网

实验选择了三种类型不同的大语言模型作为基座,包括数学能力增强的 Qwen2.5-7B-Math、通用预训练模型 Qwen3-8B-Base 以及经过推理蒸馏的 DeepSeek-R1-Distill-Qwen-7B,并分别在三种训练范式下进行对比:只使用正样本更新的 PSR,只使用负样本更新的 NSR,以及同时利用正负样本、目前较常用的 DAPO 方法。


整个训练过程中不仅跟踪模型的熵、生成回答长度和奖励值等指标,以反映其确定性与探索性的变化,还在验证集上测试 AIME25 的 Avg@32 和 Pass@32 等指标,来评估真实推理能力。


在确认正负样本都发挥重要且不同作用之后,研究人员进一步进行粗粒度的参数控制实验,从极性层面调整 advantage 权重。在 Qwen2.5-7B-Math 上,将 RLVR 的损失函数拆分为正样本项和负样本项,通过设置不同的权重组合(如正负 1:5 或 2:1 等),系统比较不同权重比例下模型的熵、输出长度、训练奖励以及 AIME24 上的表现,从而分析正负样本整体权重对训练动态的影响。


在此基础上,研究视角被进一步细化到 token 层面。研究人员不再仅讨论“正负样本整体重要与否”,而是考察一条推理序列内部不同 token 的差异作用。具体做法是根据 token 的熵和概率两个维度,挑选出正样本和负样本中高熵与低熵、高概率与低概率的不同 token 类型,然后分别对这些 token 的 advantage 进行大幅放缩,例如乘以 0.2 或 5,观察模型训练曲线与生成行为随之发生的变化,从而找出真正对训练最敏感、最关键的 token 区域。


在完成以上一系列分析之后,研究团队提出了新的 A3PO 方法,其核心思想是在 RLVR 目标中引入自适应且非对称的 token 级 advantage 加权机制:对正样本中低概率的 token 给予更高奖励,以鼓励保留多样但正确的推理路径,对负样本中高概率的 token 给予更强惩罚,以重点纠正模型自信但错误的推理。同时,这些加权系数在训练过程中逐步衰减,使模型能够从前期的更强探索自然过渡到后期的稳定收敛。

实验采用与前述相同的三种模型,在 DAPO-Math 数据集上进行训练,基于 Verl 与 vLLM 的离线强化学习框架,每个提示生成 8 个样本,训练 300 步,并与 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等方法进行对比,测试任务涵盖 AIME24、AIME25、MATH500、GPQA 与 LiveCodeBench 等多个推理基准。


此外,研究团队还系统评估了 A3PO 在不同模型规模和不同训练数据集上的泛化能力,并对其关键超参数(包括 token 选择比例、初始缩放系数 ρ 以及衰减系数 α)进行了敏感性分析,从而形成完整的实验设计框架。

正负样本作用边界的重新界定

整体来看,这项研究的核心意义在于,它把原本相对模糊的 RLVR 训练过程,转化为一个具有清晰结构和内部机制解释的框架。过去在强化学习训练推理模型时,人们大致知道需要正样本,也会使用负样本,但往往难以回答一个根本问题:正负样本各自在训练中究竟起什么作用,它们如何改变模型的学习动力学。

这项工作通过系统实验给出了明确答案:正样本主要收缩策略空间,使模型已经掌握的正确模式更加集中和稳定,负样本则扩张策略空间,迫使模型脱离旧有模式,去探索新的推理路径。更重要的是,研究并未停留在正样本锐化能力、负样本促进探索这样的概括层面,而是进一步指出训练质量真正取决于哪些具体决策点被重点强化。

研究表明,正样本中那些原本选择概率较低但通向正确答案的 token,以及负样本中那些模型高度自信却指向错误答案的 token,对探索与利用平衡具有决定性影响。

A3PO 的设计正是把这一认识具体化为训练原则,在这些关键拐点上进行非对称 advantage 放大,并随训练进程逐步衰减这种偏置。由此,强化学习不再只是简单地增加正确奖励或扣减错误分数,而是转向围绕关键局部决策点有针对性地塑造策略分布。这样的视角,使正负样本从被动的数据来源,转变为可被精细调控的优化工具,也把方法研究从经验性调参提升到机制性设计层面。

从更长远看,这一思路为大模型对齐、多模态推理以及智能体决策中的强化学习提供了共同的方向,即不再平均对待所有行为信号,而是抓住那些对整体策略结构影响最大的关键 token 和关键状态进行重点塑形。

背后的学术力量

这篇论文的通讯作者为赵鑫,现任中国人民大学高瓴人工智能学院教授、长聘副教授,同时他也是国家优青项目获得者。

赵鑫教授于 2014 年 7 月在北京大学取得博士学位,之后就职于中国人民大学,至今一直从事教学与科研工作。他的主要研究领域为信息检索与自然语言处理,目前已发表学术论文 200 余篇,谷歌学术引用量超过 1.8 万次。

他牵头开发了开源推荐系统工具 RecBole(伯乐)和文本生成工具 TextBox(妙笔),并组织撰写了《A Survey of Large Language Models》综述论文及中文专著《大语言模型》。

赵鑫教授先后获得吴文俊人工智能优秀青年奖(2020)、ECIR 2021 时间检验奖、RecSys 2022 最佳学生论文提名、CIKM 2022 最佳资源论文提名等荣誉称号,同时入选中国科协青年人才托举工程、北京智源青年科学家和 CCF–IEEE CS 青年科学家计划,其系列研究成果还荣获教育部自然科学一等奖、北京市自然科学二等奖及中国计算机学会自然科学二等奖。


参考链接:https://gsai.ruc.edu.cn/waynexinzhao

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方一桶石油不买,鲁比奥急了,开口就抹黑中国,却被自己人打断

中方一桶石油不买,鲁比奥急了,开口就抹黑中国,却被自己人打断

有你便是晴天呢
2026-02-01 07:09:10
收评:三大指数均跌超2% 全市场超百股跌停

收评:三大指数均跌超2% 全市场超百股跌停

财联社
2026-02-02 15:02:16
爱泼斯坦案最新文件曝光,西方“吃人”社会大揭秘!

爱泼斯坦案最新文件曝光,西方“吃人”社会大揭秘!

枫冷慕诗
2026-02-02 13:35:20
A股跌到4015,尾盘已表明,不出意外,明天周二,很可能这样走

A股跌到4015,尾盘已表明,不出意外,明天周二,很可能这样走

阿纂看事
2026-02-02 16:22:02
现货黄金跌破4500美元/盎司

现货黄金跌破4500美元/盎司

界面新闻
2026-02-02 13:54:53
郑丽文再发声:大陆是我们的亲人

郑丽文再发声:大陆是我们的亲人

扬子晚报
2026-02-02 16:46:11
全球多名权势人物被曝与爱泼斯坦关系密切,特朗普:我清白,我要起诉

全球多名权势人物被曝与爱泼斯坦关系密切,特朗普:我清白,我要起诉

上观新闻
2026-02-02 14:18:29
震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

震惊!奔驰女追尾后立刻换上"公安"大衣,"亮证姐"后继有人了?

派大星纪录片
2026-02-02 15:53:19
知名音乐人袁惟仁去世,享年57岁

知名音乐人袁惟仁去世,享年57岁

极目新闻
2026-02-02 17:50:41
60岁老人猥亵7岁女童,想赔三万换谅解书

60岁老人猥亵7岁女童,想赔三万换谅解书

中国新闻周刊
2026-02-02 16:52:53
天降横祸!龙门吊倒塌致1死1伤,后方黑车司机:当天是我生日!

天降横祸!龙门吊倒塌致1死1伤,后方黑车司机:当天是我生日!

乌娱子酱
2026-02-02 12:59:08
《名侦探柯南》与辱华漫画联动,紧急声明!

《名侦探柯南》与辱华漫画联动,紧急声明!

极目新闻
2026-02-01 10:34:47
青海省委组织部部长调整

青海省委组织部部长调整

新京报政事儿
2026-02-02 16:11:37
这种朋友圈不能发!广州近期多人被抓,警方提醒

这种朋友圈不能发!广州近期多人被抓,警方提醒

番禺台
2026-02-02 13:57:39
特斯拉中国宣布二月新优惠,上架大量新车现车!

特斯拉中国宣布二月新优惠,上架大量新车现车!

XCiOS俱乐部
2026-02-01 20:33:39
起风了!美通过3大涉台法案,岛内启程赴陆,郑丽文对陆称呼已变

起风了!美通过3大涉台法案,岛内启程赴陆,郑丽文对陆称呼已变

梁讯
2026-02-01 14:42:51
前知名调查记者刘虎失联,与四川稿件有关?

前知名调查记者刘虎失联,与四川稿件有关?

记录刘杰
2026-02-02 13:48:28
炸裂!一女生自曝交过外国男友,回国后因“型号”问题做了修复术

炸裂!一女生自曝交过外国男友,回国后因“型号”问题做了修复术

谈史论天地
2026-02-02 13:55:09
暖心!21岁皇马天才97分钟罚丢绝杀点球 当场泪奔:1万人唱歌鼓励

暖心!21岁皇马天才97分钟罚丢绝杀点球 当场泪奔:1万人唱歌鼓励

风过乡
2026-02-02 08:13:21
“高官” 王文涛

“高官” 王文涛

星辰故事屋
2026-02-02 11:45:44
2026-02-02 18:11:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68467文章数 656066关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

时尚
本地
家居
公开课
军事航空

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

现代几何彩拼 智焕童梦居

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版