网易首页 > 网易号 > 正文 申请入驻

1.5B模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」

0
分享至

来源:市场资讯

(来源:机器之心Pro)

两难:简单任务导致熵坍缩 vs. 难任务减缓学习效率

多年来,RL 训练一直存在一个需要思考的数据平衡问题:简单任务导致模型过度自信,而难任务提高推理能力,但由于样本效率低下,学习速度变慢。

这个权衡一直是 RL 模型的挑战,近日清华大学、上海期智研究院、Amazon 和斯坦福大学等机构提出的QuestA 解决了这个问题。通过在训练困难任务时引入部分解决方案提示,QuestA 帮助模型更快地学习,同时不牺牲在简单任务上的表现。这确保了模型能够从简单任务和难任务中获益,提升其推理能力,同时避免过拟合或学习缓慢。


研究者得出的关键结果是:强化学习可以提升模型能力。具体而言,QuestA 取得了以下显著成果:

X上有人评价称,QuestA 是一种巧妙的数据增强方法,不仅加速了 pass@1 的改进,还保持/增强了pass@k,并且没有多样性损失。这是 1.5B 推理模型的新SOTA。


QuestA 方法:提示即所需

QuestA 通过「数据增强 + 迭代课程学习」的组合设计,实现对 RL 训练的高效改进,核心逻辑如下:


QuestA 通过在数据集中每个原始问题前添加部分解决方案提示,对原始问题进行增强处理。


图 1: QuestA 是一种数据增强方法,通过注入部分解决方案,为强化学习(RL)在复杂推理问题上的训练提供有效支撑。研究者基于 OpenR1 中的高难度样本,构建了 2.6 万个高质量增强提示词(augmented prompts),并采用 32K 上下文长度的强化学习对模型进行微调。将该方法应用于 Nemotron-1.5B 模型后,QuestA 带来了显著的性能提升 —— 在所有数学基准测试中,均为 15 亿参数模型创下了新的当前最优(SOTA)结果。

训练细节

研究者使用AReaLite框架进行 RL 训练。

具体而言,他们应用了 GRPO 算法,并结合了来自 DAPO 的动态过滤技术,以排除训练中显而易见正确或错误的样本。这一优化帮助聚焦于最难的问题,提升了训练效率。

评估

研究者在竞争级数学基准测试上评估了 Pass@1(32 个样本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中达到了最先进水平,并在多个基准测试中匹配或超过了DeepSeek-R1-Distill-32B,同时其模型体积小于20×。


核心差异点:实现真实能力提升,而非熵坍缩

实验结果表明,QuestA 方法在提升模型推理能力的同时,并未损害其多样性。如图 2 所示,即便在问题难度持续增加的情况下,Pass@k曲线仍呈现出稳定的上升趋势。


图 2:研究者比较了使用 RLVR 训练的模型在有和没有 QuestA 的情况下的 pass@k 曲线。作为对照实验,我们使用易难不同的提示进行 RL 训练。标准 RL 在易提示下(红色)随着 k 值增大,pass@k 显著下降,而与基准模型(蓝色)相比,表现较差。在难提示下训练(绿色)能够提高 pass@k,但代价是训练时间显著增加。这激发了他们开发 QuestA 的动机,QuestA 通过为困难问题提供框架,提升了训练效率,并且在所有 k 值下提供了更强的结果:RL+QuestA 模型(橙色)在所有 k 值上都优于标准 RL(红色),同时在较大的 k 值下相较于使用困难提示训练的 RL 模型,性能也保持或有所提升。

消融实验

QuestA 同时也在不同的基础模型和不同的数据集进行了实验,都让模型得到了相应幅度的提升,这证明了 QuestA 这个方法的泛用性。具体细节参考 Arxiv 文章。

结论:QuestA 方法彰显强化学习在推理任务中的更大应用潜力

QuestA 方法的研究结果表明,强化学习确实能够助力模型习得新能力。通过同时提升Pass@1与Pass@k指标的性能表现,该方法证实:强化学习可在不牺牲效率与泛化能力的前提下,持续拓展模型的能力边界。

此外,QuestA 方法有效消除了传统训练中简单任务与复杂任务之间的权衡矛盾,使模型能够在涵盖广泛问题类型的场景下,实现推理能力的极大提升。

这一技术突破对强化学习未来的应用发展具有深远意义。依托 QuestA 方法,我们期待基于强化学习构建的模型如今可处理更多复杂且多样的推理任务,其应用场景已从数学问题求解延伸至逻辑推理及创造性思维等领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比亚迪大汉渲染图曝光!外观霸气“硬抗”宝马5系,或售30万起!

比亚迪大汉渲染图曝光!外观霸气“硬抗”宝马5系,或售30万起!

车矩阵更懂车
2026-02-18 23:36:07
最大的台独分子,再也藏不住尾巴,终于露出来了肮脏的脑袋!

最大的台独分子,再也藏不住尾巴,终于露出来了肮脏的脑袋!

福建平子
2026-01-13 16:57:36
不要和服务人员走得太近,网友:洗剪吹是重灾区!

不要和服务人员走得太近,网友:洗剪吹是重灾区!

夜深爱杂谈
2026-01-31 19:32:35
高人预测:不出意外,2026年中国楼市或迎来3大变化,很现实!

高人预测:不出意外,2026年中国楼市或迎来3大变化,很现实!

说故事的阿袭
2026-02-18 20:10:10
恭喜上榜,3月开始锦鲤附体,好运多到藏不住的3个生肖

恭喜上榜,3月开始锦鲤附体,好运多到藏不住的3个生肖

毅谈生肖
2026-02-18 10:04:45
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
米饭立大功!调查发现:糖尿病患者常吃米饭,或能降低7种并发症

米饭立大功!调查发现:糖尿病患者常吃米饭,或能降低7种并发症

健康之光
2026-01-24 12:15:03
人一过60,永远不要在熟人面前,说以下几句话,谁说谁后悔,切记

人一过60,永远不要在熟人面前,说以下几句话,谁说谁后悔,切记

枫红染山径
2026-01-02 14:59:55
卡纳瓦罗:乌兹深知自己将是世界杯黑马,将毫无保留地去奋斗

卡纳瓦罗:乌兹深知自己将是世界杯黑马,将毫无保留地去奋斗

懂球帝
2026-02-07 07:47:09
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
苏州最牛钉子户:死守12年,拆迁款涨到1000万都不搬,现状如何

苏州最牛钉子户:死守12年,拆迁款涨到1000万都不搬,现状如何

谈史论天地
2026-02-18 13:51:57
珍妮:詹姆斯没给出任何回归湖人信号 球队核心是围绕东契奇建队

珍妮:詹姆斯没给出任何回归湖人信号 球队核心是围绕东契奇建队

罗说NBA
2026-02-18 05:46:42
本菲卡后卫达尔:维尼修斯进球后有些不尊重我们和本菲卡球迷

本菲卡后卫达尔:维尼修斯进球后有些不尊重我们和本菲卡球迷

懂球帝
2026-02-18 07:43:06
态度转变?湖人管理层公开喊话:希望詹姆斯继续留在湖人!

态度转变?湖人管理层公开喊话:希望詹姆斯继续留在湖人!

爱体育
2026-02-18 22:49:26
368次列车无人驾驶冲过车站,106人魂断杨庄,谁难辞其咎?

368次列车无人驾驶冲过车站,106人魂断杨庄,谁难辞其咎?

大运河时空
2026-01-09 18:15:03
1-0!欧冠4强全胜:皇马大巴黎晋级在望,本菲卡+意甲2队基本出局

1-0!欧冠4强全胜:皇马大巴黎晋级在望,本菲卡+意甲2队基本出局

体育知多少
2026-02-18 07:36:18
就没有钱解决不了的事情吗?网友:钱可以解决99%穷人的问题

就没有钱解决不了的事情吗?网友:钱可以解决99%穷人的问题

带你感受人间冷暖
2026-01-26 00:10:10
你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

你无意之中撞见过什么秘密?网友:我婆婆和公公外面各自有人

带你感受人间冷暖
2026-02-12 00:05:09
苏翊鸣夺冠,朱易社媒炸锅了,网友集体逗她:甜蜜的过分了

苏翊鸣夺冠,朱易社媒炸锅了,网友集体逗她:甜蜜的过分了

纵横之策
2026-02-19 00:28:50
一场赚几百万!广东宏远新操作曝光,这才是真正的篮球生意!

一场赚几百万!广东宏远新操作曝光,这才是真正的篮球生意!

林子说事
2026-02-18 17:04:30
2026-02-19 04:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2227366文章数 5495关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

以色列提升全国警戒级别 加紧军事准备

头条要闻

以色列提升全国警戒级别 加紧军事准备

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
艺术
房产
旅游
公开课

数码要闻

盛色推出星舰S009带鱼屏显示器,4199元

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

房产要闻

三亚新机场,又传出新消息!

旅游要闻

“马上”喝咖去!打卡藏在崇明景区里的这些咖啡馆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版