网易首页 > 网易号 > 正文 申请入驻

1.5B模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」

0
分享至

来源:市场资讯

(来源:机器之心Pro)

两难:简单任务导致熵坍缩 vs. 难任务减缓学习效率

多年来,RL 训练一直存在一个需要思考的数据平衡问题:简单任务导致模型过度自信,而难任务提高推理能力,但由于样本效率低下,学习速度变慢。

这个权衡一直是 RL 模型的挑战,近日清华大学、上海期智研究院、Amazon 和斯坦福大学等机构提出的QuestA 解决了这个问题。通过在训练困难任务时引入部分解决方案提示,QuestA 帮助模型更快地学习,同时不牺牲在简单任务上的表现。这确保了模型能够从简单任务和难任务中获益,提升其推理能力,同时避免过拟合或学习缓慢。


研究者得出的关键结果是:强化学习可以提升模型能力。具体而言,QuestA 取得了以下显著成果:

X上有人评价称,QuestA 是一种巧妙的数据增强方法,不仅加速了 pass@1 的改进,还保持/增强了pass@k,并且没有多样性损失。这是 1.5B 推理模型的新SOTA。


QuestA 方法:提示即所需

QuestA 通过「数据增强 + 迭代课程学习」的组合设计,实现对 RL 训练的高效改进,核心逻辑如下:


QuestA 通过在数据集中每个原始问题前添加部分解决方案提示,对原始问题进行增强处理。


图 1: QuestA 是一种数据增强方法,通过注入部分解决方案,为强化学习(RL)在复杂推理问题上的训练提供有效支撑。研究者基于 OpenR1 中的高难度样本,构建了 2.6 万个高质量增强提示词(augmented prompts),并采用 32K 上下文长度的强化学习对模型进行微调。将该方法应用于 Nemotron-1.5B 模型后,QuestA 带来了显著的性能提升 —— 在所有数学基准测试中,均为 15 亿参数模型创下了新的当前最优(SOTA)结果。

训练细节

研究者使用AReaLite框架进行 RL 训练。

具体而言,他们应用了 GRPO 算法,并结合了来自 DAPO 的动态过滤技术,以排除训练中显而易见正确或错误的样本。这一优化帮助聚焦于最难的问题,提升了训练效率。

评估

研究者在竞争级数学基准测试上评估了 Pass@1(32 个样本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中达到了最先进水平,并在多个基准测试中匹配或超过了DeepSeek-R1-Distill-32B,同时其模型体积小于20×。


核心差异点:实现真实能力提升,而非熵坍缩

实验结果表明,QuestA 方法在提升模型推理能力的同时,并未损害其多样性。如图 2 所示,即便在问题难度持续增加的情况下,Pass@k曲线仍呈现出稳定的上升趋势。


图 2:研究者比较了使用 RLVR 训练的模型在有和没有 QuestA 的情况下的 pass@k 曲线。作为对照实验,我们使用易难不同的提示进行 RL 训练。标准 RL 在易提示下(红色)随着 k 值增大,pass@k 显著下降,而与基准模型(蓝色)相比,表现较差。在难提示下训练(绿色)能够提高 pass@k,但代价是训练时间显著增加。这激发了他们开发 QuestA 的动机,QuestA 通过为困难问题提供框架,提升了训练效率,并且在所有 k 值下提供了更强的结果:RL+QuestA 模型(橙色)在所有 k 值上都优于标准 RL(红色),同时在较大的 k 值下相较于使用困难提示训练的 RL 模型,性能也保持或有所提升。

消融实验

QuestA 同时也在不同的基础模型和不同的数据集进行了实验,都让模型得到了相应幅度的提升,这证明了 QuestA 这个方法的泛用性。具体细节参考 Arxiv 文章。

结论:QuestA 方法彰显强化学习在推理任务中的更大应用潜力

QuestA 方法的研究结果表明,强化学习确实能够助力模型习得新能力。通过同时提升Pass@1与Pass@k指标的性能表现,该方法证实:强化学习可在不牺牲效率与泛化能力的前提下,持续拓展模型的能力边界。

此外,QuestA 方法有效消除了传统训练中简单任务与复杂任务之间的权衡矛盾,使模型能够在涵盖广泛问题类型的场景下,实现推理能力的极大提升。

这一技术突破对强化学习未来的应用发展具有深远意义。依托 QuestA 方法,我们期待基于强化学习构建的模型如今可处理更多复杂且多样的推理任务,其应用场景已从数学问题求解延伸至逻辑推理及创造性思维等领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川省司法厅党委书记、厅长李丹:四大举措协同共筑金融法治体系根基

四川省司法厅党委书记、厅长李丹:四大举措协同共筑金融法治体系根基

新浪财经
2025-11-06 09:32:45
俞敏洪确认,东方甄选前CEO孙东旭因个人原因离职

俞敏洪确认,东方甄选前CEO孙东旭因个人原因离职

21世纪经济报道
2025-11-06 16:14:44
炸裂!全国70万家药店一半在亏:药还没卖完,人先“吃不消”!

炸裂!全国70万家药店一半在亏:药还没卖完,人先“吃不消”!

云景侃记
2025-11-06 16:17:35
网传康熙是洪承畴的私生子?基因检测惊曝清宫秘闻,专家回应了!

网传康熙是洪承畴的私生子?基因检测惊曝清宫秘闻,专家回应了!

你食不食油饼
2025-11-05 20:06:29
辣眼睛!湖南三甲医院副院长上演17分钟大片,看完没人能平静

辣眼睛!湖南三甲医院副院长上演17分钟大片,看完没人能平静

热点菌本君
2025-11-06 14:04:13
CBA官方:吉伦沃特哈雷尔兴奋剂违规 广东新疆扣6分核减经费60万

CBA官方:吉伦沃特哈雷尔兴奋剂违规 广东新疆扣6分核减经费60万

醉卧浮生
2025-11-06 16:56:12
沉默4天后,中方开了金口,若对委内瑞拉开战,美国结局只有一个

沉默4天后,中方开了金口,若对委内瑞拉开战,美国结局只有一个

时时有聊
2025-11-05 12:01:05
环球小姐墨西哥选手被辱骂愤然离场 获集体声援

环球小姐墨西哥选手被辱骂愤然离场 获集体声援

看看新闻Knews
2025-11-05 23:12:03
34分+11板+8助+3断!3项数据第1!对不起,状元郎,他要抢新人王

34分+11板+8助+3断!3项数据第1!对不起,状元郎,他要抢新人王

世界体育圈
2025-11-06 09:29:25
唯一的主任医师名额给了关系户,我办了离职,结果院长被领导谈话

唯一的主任医师名额给了关系户,我办了离职,结果院长被领导谈话

红豆讲堂
2025-11-04 19:20:03
西贝“闭店潮”爆发,一切都结束了

西贝“闭店潮”爆发,一切都结束了

品牌头版
2025-11-06 17:33:01
手里有多少存款能超过我国98%的家庭?超了这个数,你就是佼佼者

手里有多少存款能超过我国98%的家庭?超了这个数,你就是佼佼者

趣味萌宠的日常
2025-11-04 13:43:48
液压件复苏叠加机器人丝杠推进,恒立液压三季报亮眼,控股股东为何高位减持?

液压件复苏叠加机器人丝杠推进,恒立液压三季报亮眼,控股股东为何高位减持?

时代投研
2025-11-04 18:05:11
武契奇强硬表态,宁可不加入欧盟,也绝不可能答应这两个条件

武契奇强硬表态,宁可不加入欧盟,也绝不可能答应这两个条件

特特农村生活
2025-11-06 14:55:31
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
阿塞拜疆已实锤装备红旗-9B,亚美尼亚防长:不会买印度战机

阿塞拜疆已实锤装备红旗-9B,亚美尼亚防长:不会买印度战机

兵国大事
2025-11-05 17:32:30
实力打脸!49岁翁帆入职清华被嘲,官网查无此人,校方曝关键信息

实力打脸!49岁翁帆入职清华被嘲,官网查无此人,校方曝关键信息

哄动一时啊
2025-11-06 14:56:43
阿里高管配不上山姆?

阿里高管配不上山姆?

快马财媒
2025-11-06 07:31:32
十五运会广州限行首日路面车流大减 有市民提早20分钟到工位

十五运会广州限行首日路面车流大减 有市民提早20分钟到工位

新快报新闻
2025-11-06 13:23:09
快速补充能量,哈兰德晒自己赛后吃烤羊排照片

快速补充能量,哈兰德晒自己赛后吃烤羊排照片

懂球帝
2025-11-06 16:14:25
2025-11-06 18:51:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1299198文章数 4382关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

女子将社保迁到异地 申请退休时被告知无法在当地退休

头条要闻

女子将社保迁到异地 申请退休时被告知无法在当地退休

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

旅游
时尚
教育
手机
房产

旅游要闻

发“消费护照”啦!“北外滩馆”好逛,惊喜福利多!| 跟着小虹逛进博

中国色特别策划 | 故宫技艺与古意新生

教育要闻

数阵图看着挺吓人的,其实就是求两个和

手机要闻

消息称华为目前没有小屏机开案,超大屏机不止一台

房产要闻

中旅·三亚蓝湾,以一座城市会客厅回应世界的滨海想象

无障碍浏览 进入关怀版