网易首页 > 网易号 > 正文 申请入驻

14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1

0
分享至



机器之心报道

编辑:Panda

现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)

通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。

然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。

因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供的反馈信号中进行推理、验证和学习。

近日,微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。

而他们的探索成果便是rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型rStar2-Agent-14B—— 该模型达到前沿级别的性能,媲美甚至超越了 671B 的 DeepSeek-R1!



这项研究在社交网络上获得了广泛关注。



下面我们就来简单了解一下微软是如何造出了这个能以小搏大的模型。



  • 论文标题:rStar2-Agent: Agentic Reasoning Technical Report
  • 论文地址:https://arxiv.org/pdf/2508.20722
  • 代码地址:https://github.com/microsoft/rStar

环境与问题描述

本研究使用的环境是 Python 编程工具和解释器。



Python 编程工具可拓宽模型的行动空间,使其能够探索替代方案并验证中间步骤,从而在单靠较长的 CoT 不足的情况下补充内部的自我反思。

然而,在该环境中有效地扩展主动式强化学习非常困难。

首先,编程工具和 Python 解释器的固有复杂性会将环境噪声引入推理过程。当模型不可避免地生成语法或逻辑上错误的代码时,由此产生的环境反馈(例如,错误消息)可能会导致模型浪费宝贵的 token 来纠正错误,而不是推进推理。遗憾的是,当前的强化学习方法主要依赖于「仅结果奖励」,而这只会加剧这个问题,因为即使中间工具调用失败的轨迹仍然会获得正奖励,只要最终答案正确即可。如此一来,该模型就会将错误视为可接受的,并生成冗长且低质量的推理轨迹。

其次,大规模主动式强化学习训练对基础设施的要求很高。单个训练批次可以触发数万个并发工具调用,这使得构建可靠且响应迅速的代码执行环境变得极具挑战性。

此外,与环境交互的智能体部署会放大标准强化学习系统中部署效率低下的现象,从而显著减慢整体训练速度。

rStar2-Agent 三大创新

微软提出的 rStar2-Agent 包含三大关键创新。

第一,该团队为大规模主动式强化学习构建了一个高效可靠的基础架构

他们构建了一个高吞吐量、独立的代码环境,能够处理 45K 个并发工具调用,平均执行反馈仅需 0.3 秒即可返回。



为了解决强化学习 rollout 效率低下的问题,他们引入了一个负载均衡的 rollout 调度程序,该调度程序会根据 GPU 上可用的键值缓存容量动态分配 rollout 请求,从而最大限度地提高计算利用率。

即使在 GPU 资源有限的情况下,该基础架构也能实现高效的强化学习训练。使用 64 块 MI300X GPU,该团队仅用一周时间就完成了 rStar2-Agent-14B 的训练。

第二,为了在代码环境中实现有效的主动式强化学习,该团队提出了基于正确重采样的组相对策略优化 (GRPO-RoC),它将 GRPO 与基于正确重采样 (RoC) 的 rollout 策略相结合,以解决稀疏且仅关注结果的奖励条件下环境引起的噪声。



具体而言,RoC 首先对较大的 rollout 组进行过采样,然后下采样至标准批次大小。正向轨迹经过筛选,仅保留质量最高且工具导致错误或格式问题最少的轨迹,而负向轨迹则进行均匀下采样。



这种简单而有效的非对称采样方法将各种故障模式保留为信息丰富的负向信号,同时强调更高质量的成功案例以进行正向监督。

相比于在奖励函数中明确惩罚工具使用错误的方法,GRPO-RoC 可提高训练稳定性,并可避免 reward-hacking 的风险。

通过学习更清洁、更高质量的正向轨迹,该模型不仅能提升 Python 编程工具的使用率,还展现出高级认知能力,能够在真实的代码环境交互下更高效、更简洁地进行推理。

第三,该团队还提出了一套训练方案,能以最少的计算量将一个 14B 预训练基础模型提升到前沿数学推理水平。

不同于先前的研究(在强化学习之前应用推理密集型 SFT ),该团队从非推理 SFT 阶段开始 —— 仅用于灌输一般的指令遵循、编程工具使用和格式,而不增强推理能力。这可避免潜在的 SFT 过拟合,并保持初始平均响应较短,从而使强化学习能够更有效地培养推理能力,同时充分利用模型的预训练能力。



然后,该团队使用 GRPO-RoC 进行多阶段强化学习训练,逐渐增加任务难度和最大训练时长。不同于之前的强化学习方法,这些方法需要将 rollout 规模大幅扩展至 16K→48K 甚至更高,该团队将每个阶段的长度限制在较短的范围内(8K→12K)。这可显著降低强化学习成本,同时鼓励更高效的推理策略。

该模型仅需510个强化学习步骤,即可快速实现前沿水平的数学推理,展现出强大的能力和卓越的训练效率。



结果很惊艳

最终,使用新方法,他们训练得到了一个模型并将其命名为 rStar2-Agent-14B。它只有 14B 大小,但却实现了超越 DeepSeek-R1 和 Kimi k1.5 等领先推理模型的强大数学推理性能。



值得注意的是,在 AIME24 上,它的准确度达到了80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分别高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分别达到了 69.8% 和 52.7%,展现了稳定一致的强大能力。



除了数学之外,尽管这里只使用数学的主动式强化学习进行训练,它仍然能够有效地泛化。



它在 GPQA-Diamond 科学推理基准上的表现优于 DeepSeek-V3,在 BFCL v3 的智能体工具使用任务上也表现不错,并在 IFEval 和 Arena-Hard 等通用基准测试中取得了具有竞争力的结果。

该团队还报告了未成功的尝试和分析,并重点介绍了由 rStar2-Agent 主动式强化学习带来的对更高级认知推理行为的发现,例如驱动更有效推理的环境反馈反思 token。

更多分析和消融研究请见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京一男房东因联系不上女租客,担心出事,直接开锁进了房间。

北京一男房东因联系不上女租客,担心出事,直接开锁进了房间。

南权先生
2026-01-12 16:44:03
刚刚,黄金白银强势拉升!国内金饰克价跌破1500元!

刚刚,黄金白银强势拉升!国内金饰克价跌破1500元!

次元君情感
2026-02-18 12:31:00
韩媒:中国短道速滑队完了!或28年首次0金收官 林孝埈=最后希望

韩媒:中国短道速滑队完了!或28年首次0金收官 林孝埈=最后希望

念洲
2026-02-17 13:49:27
在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

在日华人直言:如今中国要是再和日本发生冲突,根本撑不过14年!

南权先生
2026-02-12 15:39:07
美专家:中国人不可怕,可怕的是他们买了光刻机,却不用来造芯片

美专家:中国人不可怕,可怕的是他们买了光刻机,却不用来造芯片

世界有奇事
2026-01-13 16:34:40
郑爽近照越来越像妈妈!消费严重降级,首曝居住环境,衣服只要200元

郑爽近照越来越像妈妈!消费严重降级,首曝居住环境,衣服只要200元

八卦王者
2026-02-18 11:15:34
我国六个 “强势” 部门全消失了?

我国六个 “强势” 部门全消失了?

浅深说
2025-11-07 15:39:22
英媒:美国军舰和战斗机在伊朗附近集结

英媒:美国军舰和战斗机在伊朗附近集结

参考消息
2026-02-17 20:14:05
小品之所以被春晚遗弃,是因历年来的小品相声都过于“尖锐”?

小品之所以被春晚遗弃,是因历年来的小品相声都过于“尖锐”?

魔都姐姐杂谈
2026-02-17 10:45:24
世界黄金协会美洲区CEO解读2026年金价新逻辑:地缘风险成首要因素,全球央行连续16年净买入,一场“结构性变化”正在发生

世界黄金协会美洲区CEO解读2026年金价新逻辑:地缘风险成首要因素,全球央行连续16年净买入,一场“结构性变化”正在发生

每日经济新闻
2026-02-18 10:53:21
“91大神”唐哥:拍摄22部视频,非法获利400万,内容不堪入目

“91大神”唐哥:拍摄22部视频,非法获利400万,内容不堪入目

就一点
2025-08-13 17:18:43
爱泼斯坦案,也许再次揭示了,犹太人流浪3000年的原因

爱泼斯坦案,也许再次揭示了,犹太人流浪3000年的原因

牛马搞笑
2026-02-16 08:55:12
全红婵回老家过年曝光!贴春联骑车载老爸,全妈回应婵宝退役计划

全红婵回老家过年曝光!贴春联骑车载老爸,全妈回应婵宝退役计划

李喜林篮球绝杀
2026-02-18 09:41:02
军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

朝子亥
2026-02-15 15:50:03
被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

史海孤雁
2026-02-14 18:06:18
春晚封神节目!十二花神成国风美学天花板,王楚然红衣昭君美出圈

春晚封神节目!十二花神成国风美学天花板,王楚然红衣昭君美出圈

露珠聊影视
2026-02-17 15:32:16
18岁中国选手公开质疑裁判压分!网友指责国际滑联:花滑没周继红

18岁中国选手公开质疑裁判压分!网友指责国际滑联:花滑没周继红

念洲
2026-02-18 09:23:15
中国存在“两大威胁”,一个是台湾,另一个比台海问题更严重。

中国存在“两大威胁”,一个是台湾,另一个比台海问题更严重。

安安说
2026-01-28 09:31:48
东部战区一句话,直接把天聊“死”了!

东部战区一句话,直接把天聊“死”了!

达文西看世界
2026-02-17 11:12:07
高市早苗手舞足蹈公布“天大喜讯”,英媒秒懂:中国的阳谋奏效了

高市早苗手舞足蹈公布“天大喜讯”,英媒秒懂:中国的阳谋奏效了

东极妙严
2026-02-18 12:53:10
2026-02-18 13:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12314文章数 142568关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
健康
数码
教育
家居

房产要闻

三亚新机场,又传出新消息!

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果秘密研发清单流出:第三代HomePod扬声器和紧凑型室内传感器

教育要闻

“新校长”应有的模样

家居要闻

中古雅韵 乐韵伴日常

无障碍浏览 进入关怀版