网易首页 > 网易号 > 正文 申请入驻

1.5B模型新SOTA,RL训练新解法打破「简单题过拟合、难题学不动」

0
分享至



QuestA(问题增强)引入了一种方法,用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示,QuestA 实现两项重大成果:

Pass@1 的 SOTA 性能:在 1.5B 模型上实现了最先进的结果,甚至在关键基准测试中超越了早期的 32B 模型。
提升 Pass@k:在提高 Pass@1 的同时,QuestA 不会降低 Pass@k 性能 —— 事实上,它通过让模型在多次尝试中进行更有效的推理,从而提升了模型能力。

这一在强化学习训练中的发现,为开发具有更强推理能力的模型打开了大门。QuestA 使 RL 能够高效处理不同难度的任务,消除了通常在简单与困难问题之间存在的权衡。

两难:简单任务导致熵坍缩 vs. 难任务减缓学习效率

多年来,RL 训练一直存在一个需要思考的数据平衡问题:简单任务导致模型过度自信,而难任务提高推理能力,但由于样本效率低下,学习速度变慢。

  • 简单任务倾向于使模型过拟合,使其在特定、更简单的问题上非常准确。然而,这导致模型变得过度自信,从而妨碍了其泛化能力,难以解决更复杂的任务。
  • 难任务提高了模型的推理能力,但具有低样本效率,这意味着它需要更长的时间来学习和进展。稀疏的奖励和任务的难度使得在困难问题上的训练变得缓慢,限制了整体的学习速度。

这个权衡一直是 RL 模型的挑战,近日清华大学、上海期智研究院、Amazon 和斯坦福大学等机构提出的QuestA 解决了这个问题。通过在训练困难任务时引入部分解决方案提示,QuestA 帮助模型更快地学习,同时不牺牲在简单任务上的表现。这确保了模型能够从简单任务和难任务中获益,提升其推理能力,同时避免过拟合或学习缓慢。



  • 论文标题:QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
  • Arxiv 论文地址:https://www.arxiv.org/abs/2507.13266
  • HF 模型地址:https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
  • GitHub 地址:https://github.com/foreverlasting1202/QuestA

研究者得出的关键结果是:强化学习可以提升模型能力。具体而言,QuestA 取得了以下显著成果:

  1. Pass@1 改进:QuestA 显著提高了Pass@1。研究者在使用 1.5B 参数模型的数学基准测试中达到了新的最先进结果:在 AIME24 上达到 72.50%(+10.73%),在 AIME25 上达到 62.29%(+12.79%),在 HMMT25 上达到 41.67%(+10.11%),甚至超越了DeepSeek-R1-Distill-32B,尽管它是一个更小的模型。这表明 QuestA 显著提高了模型在平时使用中的表现。
  2. Pass@k 改进:与传统的 RL 方法不同,QuestA 还提高了Pass@k,展示了模型的容量随着 RL 训练的进行而增加。这是一个关键的区别,因为它表明 QuestA 使得模型能够持续进行探索和推理,而不像其他方法,在优化Pass@1时Pass@k性能会下降。

X上有人评价称,QuestA 是一种巧妙的数据增强方法,不仅加速了 pass@1 的改进,还保持/增强了pass@k,并且没有多样性损失。这是 1.5B 推理模型的新SOTA。



QuestA 方法:提示即所需

QuestA 通过「数据增强 + 迭代课程学习」的组合设计,实现对 RL 训练的高效改进,核心逻辑如下:

  1. 聚焦高难度问题:采用两阶段过滤流程筛选训练数据 —— 首先以 DeepSeek-R1-Distill-1.5B 为筛选模型,从 OpenR1-Math-220K 数据集中选出仅 0-1 次正确(8 次采样)的 26K 高难度样本;再对增强后的提示词进行二次筛选,保留模型仍难以正确解答(0-4 次正确)的样本,最终聚焦不超过 10K 的核心困难任务,确保训练资源用在能力突破点上。
  2. 动态调整提示比例:为避免模型依赖提示,QuestA 设计迭代式课程学习 —— 先以 50% 比例的部分解决方案作为提示(p=50%)训练至性能饱和,再将提示比例降至 25%(p=25%)继续训练,逐步引导模型从「依赖提示」过渡到 “自主推理”,实现能力的真实迁移。
  3. 轻量化集成 RL:QuestA 无需修改 RL 算法核心或奖励函数,仅通过替换训练数据(用增强提示词替代原始提示词)即可集成至现有 RL pipeline(如 GRPO、DAPO),具备「即插即用」的灵活性。



QuestA 通过在数据集中每个原始问题前添加部分解决方案提示,对原始问题进行增强处理。



图 1: QuestA 是一种数据增强方法,通过注入部分解决方案,为强化学习(RL)在复杂推理问题上的训练提供有效支撑。研究者基于 OpenR1 中的高难度样本,构建了 2.6 万个高质量增强提示词(augmented prompts),并采用 32K 上下文长度的强化学习对模型进行微调。将该方法应用于 Nemotron-1.5B 模型后,QuestA 带来了显著的性能提升 —— 在所有数学基准测试中,均为 15 亿参数模型创下了新的当前最优(SOTA)结果。

训练细节

研究者使用AReaLite框架进行 RL 训练。

具体而言,他们应用了 GRPO 算法,并结合了来自 DAPO 的动态过滤技术,以排除训练中显而易见正确或错误的样本。这一优化帮助聚焦于最难的问题,提升了训练效率。

评估

研究者在竞争级数学基准测试上评估了 Pass@1(32 个样本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中达到了最先进水平,并在多个基准测试中匹配或超过了DeepSeek-R1-Distill-32B,同时其模型体积小于20×。



核心差异点:实现真实能力提升,而非熵坍缩

实验结果表明,QuestA 方法在提升模型推理能力的同时,并未损害其多样性。如图 2 所示,即便在问题难度持续增加的情况下,Pass@k曲线仍呈现出稳定的上升趋势。



图 2:研究者比较了使用 RLVR 训练的模型在有和没有 QuestA 的情况下的 pass@k 曲线。作为对照实验,我们使用易难不同的提示进行 RL 训练。标准 RL 在易提示下(红色)随着 k 值增大,pass@k 显著下降,而与基准模型(蓝色)相比,表现较差。在难提示下训练(绿色)能够提高 pass@k,但代价是训练时间显著增加。这激发了他们开发 QuestA 的动机,QuestA 通过为困难问题提供框架,提升了训练效率,并且在所有 k 值下提供了更强的结果:RL+QuestA 模型(橙色)在所有 k 值上都优于标准 RL(红色),同时在较大的 k 值下相较于使用困难提示训练的 RL 模型,性能也保持或有所提升。

消融实验

QuestA 同时也在不同的基础模型和不同的数据集进行了实验,都让模型得到了相应幅度的提升,这证明了 QuestA 这个方法的泛用性。具体细节参考 Arxiv 文章。

结论:QuestA 方法彰显强化学习在推理任务中的更大应用潜力

QuestA 方法的研究结果表明,强化学习确实能够助力模型习得新能力。通过同时提升Pass@1与Pass@k指标的性能表现,该方法证实:强化学习可在不牺牲效率与泛化能力的前提下,持续拓展模型的能力边界。

此外,QuestA 方法有效消除了传统训练中简单任务与复杂任务之间的权衡矛盾,使模型能够在涵盖广泛问题类型的场景下,实现推理能力的极大提升。


这一技术突破对强化学习未来的应用发展具有深远意义。依托 QuestA 方法,我们期待基于强化学习构建的模型如今可处理更多复杂且多样的推理任务,其应用场景已从数学问题求解延伸至逻辑推理及创造性思维等领域。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

每日经济新闻
2026-03-25 23:58:31
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 14:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12603文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
艺术
亲子
家居
本地

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

艺术要闻

哪一座桥不是风景?

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

家居要闻

傍海而居 静观蝴蝶海

本地新闻

春日吃花第三站——广东

无障碍浏览 进入关怀版