网易首页 > 网易号 > 正文 申请入驻

14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1

0
分享至

机器之心报道

编辑:Panda

现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)

通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。

然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。

因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供的反馈信号中进行推理、验证和学习。

近日,微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。

而他们的探索成果便是rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型rStar2-Agent-14B—— 该模型达到前沿级别的性能,媲美甚至超越了 671B 的 DeepSeek-R1!

这项研究在社交网络上获得了广泛关注。

下面我们就来简单了解一下微软是如何造出了这个能以小搏大的模型。

  • 论文标题:rStar2-Agent: Agentic Reasoning Technical Report
  • 论文地址:https://arxiv.org/pdf/2508.20722
  • 代码地址:https://github.com/microsoft/rStar

环境与问题描述

本研究使用的环境是 Python 编程工具和解释器。

Python 编程工具可拓宽模型的行动空间,使其能够探索替代方案并验证中间步骤,从而在单靠较长的 CoT 不足的情况下补充内部的自我反思。

然而,在该环境中有效地扩展主动式强化学习非常困难。

首先,编程工具和 Python 解释器的固有复杂性会将环境噪声引入推理过程。当模型不可避免地生成语法或逻辑上错误的代码时,由此产生的环境反馈(例如,错误消息)可能会导致模型浪费宝贵的 token 来纠正错误,而不是推进推理。遗憾的是,当前的强化学习方法主要依赖于「仅结果奖励」,而这只会加剧这个问题,因为即使中间工具调用失败的轨迹仍然会获得正奖励,只要最终答案正确即可。如此一来,该模型就会将错误视为可接受的,并生成冗长且低质量的推理轨迹。

其次,大规模主动式强化学习训练对基础设施的要求很高。单个训练批次可以触发数万个并发工具调用,这使得构建可靠且响应迅速的代码执行环境变得极具挑战性。

此外,与环境交互的智能体部署会放大标准强化学习系统中部署效率低下的现象,从而显著减慢整体训练速度。

rStar2-Agent 三大创新

微软提出的 rStar2-Agent 包含三大关键创新。

第一,该团队为大规模主动式强化学习构建了一个高效可靠的基础架构

他们构建了一个高吞吐量、独立的代码环境,能够处理 45K 个并发工具调用,平均执行反馈仅需 0.3 秒即可返回。

为了解决强化学习 rollout 效率低下的问题,他们引入了一个负载均衡的 rollout 调度程序,该调度程序会根据 GPU 上可用的键值缓存容量动态分配 rollout 请求,从而最大限度地提高计算利用率。

即使在 GPU 资源有限的情况下,该基础架构也能实现高效的强化学习训练。使用 64 块 MI300X GPU,该团队仅用一周时间就完成了 rStar2-Agent-14B 的训练。

第二,为了在代码环境中实现有效的主动式强化学习,该团队提出了基于正确重采样的组相对策略优化 (GRPO-RoC),它将 GRPO 与基于正确重采样 (RoC) 的 rollout 策略相结合,以解决稀疏且仅关注结果的奖励条件下环境引起的噪声。

具体而言,RoC 首先对较大的 rollout 组进行过采样,然后下采样至标准批次大小。正向轨迹经过筛选,仅保留质量最高且工具导致错误或格式问题最少的轨迹,而负向轨迹则进行均匀下采样。

这种简单而有效的非对称采样方法将各种故障模式保留为信息丰富的负向信号,同时强调更高质量的成功案例以进行正向监督。

相比于在奖励函数中明确惩罚工具使用错误的方法,GRPO-RoC 可提高训练稳定性,并可避免 reward-hacking 的风险。

通过学习更清洁、更高质量的正向轨迹,该模型不仅能提升 Python 编程工具的使用率,还展现出高级认知能力,能够在真实的代码环境交互下更高效、更简洁地进行推理。

第三,该团队还提出了一套训练方案,能以最少的计算量将一个 14B 预训练基础模型提升到前沿数学推理水平。

不同于先前的研究(在强化学习之前应用推理密集型 SFT ),该团队从非推理 SFT 阶段开始 —— 仅用于灌输一般的指令遵循、编程工具使用和格式,而不增强推理能力。这可避免潜在的 SFT 过拟合,并保持初始平均响应较短,从而使强化学习能够更有效地培养推理能力,同时充分利用模型的预训练能力。

然后,该团队使用 GRPO-RoC 进行多阶段强化学习训练,逐渐增加任务难度和最大训练时长。不同于之前的强化学习方法,这些方法需要将 rollout 规模大幅扩展至 16K→48K 甚至更高,该团队将每个阶段的长度限制在较短的范围内(8K→12K)。这可显著降低强化学习成本,同时鼓励更高效的推理策略。

该模型仅需510个强化学习步骤,即可快速实现前沿水平的数学推理,展现出强大的能力和卓越的训练效率。

结果很惊艳

最终,使用新方法,他们训练得到了一个模型并将其命名为 rStar2-Agent-14B。它只有 14B 大小,但却实现了超越 DeepSeek-R1 和 Kimi k1.5 等领先推理模型的强大数学推理性能。

值得注意的是,在 AIME24 上,它的准确度达到了80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分别高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分别达到了 69.8% 和 52.7%,展现了稳定一致的强大能力。

除了数学之外,尽管这里只使用数学的主动式强化学习进行训练,它仍然能够有效地泛化。

它在 GPQA-Diamond 科学推理基准上的表现优于 DeepSeek-V3,在 BFCL v3 的智能体工具使用任务上也表现不错,并在 IFEval 和 Arena-Hard 等通用基准测试中取得了具有竞争力的结果。

该团队还报告了未成功的尝试和分析,并重点介绍了由 rStar2-Agent 主动式强化学习带来的对更高级认知推理行为的发现,例如驱动更有效推理的环境反馈反思 token。

更多分析和消融研究请见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

白面书誏
2026-04-16 18:04:33
又难开又难停,中年人疯抢的大车里,藏尽了委屈与无奈

又难开又难停,中年人疯抢的大车里,藏尽了委屈与无奈

每日人物
2026-04-12 15:56:21
爆了爆了!极氪8X上市29分钟大定10000台 限时售32.98万起

爆了爆了!极氪8X上市29分钟大定10000台 限时售32.98万起

太平洋汽车
2026-04-17 22:42:26
现场开炮!波兰议员当众嘲讽以色列:看好了,你们国旗长这样才对

现场开炮!波兰议员当众嘲讽以色列:看好了,你们国旗长这样才对

谛听骨语本尊
2026-04-15 18:13:09
一天之内拦截6艘中国油轮,特朗普想给中国一个下马威?

一天之内拦截6艘中国油轮,特朗普想给中国一个下马威?

青烟小先生
2026-04-18 09:35:02
华为Pura X Max横向阔折叠手机真机曝光,展开就像一台小平板

华为Pura X Max横向阔折叠手机真机曝光,展开就像一台小平板

IT之家
2026-04-19 15:31:13
第6艘船出事,美军舰拦截成功,难题已抛给中国,俄政府准备救场

第6艘船出事,美军舰拦截成功,难题已抛给中国,俄政府准备救场

共工之锚
2026-04-16 13:45:22
生涯19次打进季后赛有多难!NBA仅三人做到,41岁老詹比肩2大传奇

生涯19次打进季后赛有多难!NBA仅三人做到,41岁老詹比肩2大传奇

大卫的篮球故事
2026-04-18 12:29:48
闪光灯没关的社死现场

闪光灯没关的社死现场

晚风也遗憾
2026-04-17 08:55:10
我每月8万收入,定期给舅舅8000,周末舅舅表哥来家吃饭时忽然说

我每月8万收入,定期给舅舅8000,周末舅舅表哥来家吃饭时忽然说

小秋情感说
2026-04-19 09:39:52
突发消息:伦敦世乒赛倒计时9天,梁靖崑腿伤又出问题了

突发消息:伦敦世乒赛倒计时9天,梁靖崑腿伤又出问题了

佳佳说奇事故事
2026-04-19 09:43:59
这家AI巨头,在豪赌“去中国化”?

这家AI巨头,在豪赌“去中国化”?

补壹刀
2026-04-17 21:59:26
刘震云:一个妈妈最大的悲哀,就是轻易向别人透露子女这3件隐私,真的很傻!

刘震云:一个妈妈最大的悲哀,就是轻易向别人透露子女这3件隐私,真的很傻!

新浪财经
2026-04-10 12:43:57
贾马尔-穆雷:无论谁来防守我都无所谓,借助掩护我一样能得分

贾马尔-穆雷:无论谁来防守我都无所谓,借助掩护我一样能得分

懂球帝
2026-04-19 15:52:04
中俄态度截然不同,普京“大秘”难掩怒火,拒绝给匈牙利好脸色

中俄态度截然不同,普京“大秘”难掩怒火,拒绝给匈牙利好脸色

小陆搞笑日常
2026-04-19 13:01:48
新一季跑男浙音开录!张雨绮撕名牌好猛,王祖蓝居然跟何洁一样高

新一季跑男浙音开录!张雨绮撕名牌好猛,王祖蓝居然跟何洁一样高

八卦王者
2026-04-18 16:40:31
高血压最怕的早餐!医生劝告:宁可饿着,也不要随意吃这7种早餐

高血压最怕的早餐!医生劝告:宁可饿着,也不要随意吃这7种早餐

健身狂人
2026-04-19 12:03:31
万达38亿债局背后:林宁真实家底曝光,难怪王思聪稳如泰山

万达38亿债局背后:林宁真实家底曝光,难怪王思聪稳如泰山

吃青菜长高
2026-04-18 08:01:53
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
《八千里路》23-24集 孟万福斗菜赢了焦师傅 才看懂田家泰设局用意

《八千里路》23-24集 孟万福斗菜赢了焦师傅 才看懂田家泰设局用意

动物奇奇怪怪
2026-04-19 12:24:23
2026-04-19 16:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12792文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
时尚
教育
数码
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

3组出游穿搭,惊艳你的假期!

教育要闻

陕西某中学家长集体白嫖演出服,给孩子们上了最坏的一课

数码要闻

当贝鱼缸2S Ultra:听见专业的声音,才敢说这是好鱼缸

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版