网易首页 > 网易号 > 正文 申请入驻

7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火

0
分享至

新智元报道

编辑:编辑部 JHY

【新智元导读】小模型也能击败o1?微软全华人团队提出rStar-Math算法,三大革命性技术突破,不仅让SLM在数学推理能力上刷新SOTA,更是挤进了全美20%顶尖高中生榜单。

一夜之间,微软用小模型(SLM),在数学推理上击败o1,冲爆了AI社区热搜。

不仅如此,SLM在美国数学奥林匹克(AIME)上,拿下了53.3%的亮眼成绩,直逼全美20%顶尖高中生!

瞬间,大波Reddit网友在线发出灵魂拷问,「我们将在25年年终前就会有AGI了,不是吗」?

HugginFace CEO发文,rStar-Math成为HF热门论文

这篇论文究竟做出了怎样的技术创新,能让o1甘拜下风?

论文中,来自微软亚研院的全华人团队,提出了全新算法rStar-Math,证明了SLM无需从高级模型蒸馏,就能在数学推理上,媲美甚至一举超越o1。

论文链接:https://arxiv.org/pdf/2501.04519

rStar-Math核心在于,让小模型具备「深度思考」的能力。

团队借鉴了AlphaGo中蒙特卡洛树搜索(MCTS)技术,设计了一个由2个协同工作的SLM组成的系统:

  • 一个数学策略小语言模型(SLM)

  • 一个过程奖励模型(PRM)

此外,rStar-Math具体设计中,引入了三项技术创新:全新代码增强CoT数据合成;全新PRM训练方法;自我进化方案。

通过4轮自我进化,并结合数百万个为747k数学问题合成的解答,rStar-Math让SLM数学推理能力刷新SOTA。

在MATH基准测试中,它将Qwen2.5-Math-7B的成绩从58.8%提升至90.0%,将Phi3-mini-3.8B的成绩从41.4%提升至86.4%,比o1-preview分别高+4.5%和+0.9%。

在美国数学奥林匹克(AIME)上,rStar-Math解决了平均53.3%(8/15)的题目,排名位于高中数学优等生前20%。具体结果如下所示。

Keras之父预言道,2025年将会不断涌现这样的研究,通过结合程序搜索、CoT搜索,在LLM指导下提升推理基准(包括ARC和数学基准)的表现。

MCTS、遗传搜索,你能想到的方法,都会被尝试。

数学推理难在哪儿?

在测试时计算scaling新范式中,关键是训练一个强大的策略模型来生成有前景的解答步骤,以及一个可靠的奖励模型来准确评估这些步骤,这两者都依赖于高质量的训练数据。

众所周知,在数学推理中,正确的最终答案并不能确保整个推理过程的正确性。错误的中间步骤会显著降低数据的质量。

然而,策略模型很难区分出来推理步骤到底正确还是错误的,从而很难去剔除低质量数据。

与此同时,能够对中间步骤提供细粒度反馈的奖励模型,训练数据更加稀缺:准确的逐步反馈需要大量的人力标注,难以大规模扩展,而自动标注由于奖励分数的噪声,取得的效果有限。

由于上述问题,现有的训练策略模型使用基于蒸馏的合成数据,如扩展GPT-4蒸馏的CoT数据,但回报越来越少,无法超越其教师模型的能力;同时,至今为止,训练可靠的PRM来进行数学推理仍然是一个开放问题。

rStar-Math,三大创新

与依赖更强大的LLM合成数据不同,rStar-Math利用小语言模型(SLM)结合蒙特卡洛树搜索(MCTS)建立了自我进化过程,迭代生成更高质量的训练数据。

为了实现自我进化,rStar-Math引入了三项关键创新。

新CoT数据合成方法

首先,全新代码增强型CoT数据合成方法, 将数学问题求解被分解为MCTS中的多步骤生成。在每一步中,作为策略模型的SLM会对候选节点采样,每个节点生成一个单步的CoT推理和相应的Python代码。

为了验证生成质量,只有那些成功执行Python代码的节点会被保留,从而减少中间步骤中的错误。

此外,多步MCTS回合会根据每个步骤的贡献自动分配Q值:那些贡献更多推理轨迹并导向正确答案的步骤会获得更高的Q值,并被认为是更高质量的。这确保了SLM生成的推理轨迹由正确且高质量的中间步骤组成。

过程偏好模型

第二,引入了一种新颖的方法,训练一个作为PPM的SLM,旨在实现所需的PRM,该模型能够可靠地预测每个数学推理步骤的奖励标签。

PPM利用了这样一个事实:尽管使用广泛的MCTS回合,Q值仍然不足以精确评分每个推理步骤,但Q值可以可靠地区分正向(正确)步骤和负向(无关/错误)步骤。

因此,训练方法基于Q值为每个步骤构建偏好对,并使用成对排名损失来优化PPM对每个推理步骤的评分预测,从而实现可靠的标注。

这种方法避免了传统方法直接使用Q值作为奖励标签,因为这些方法在逐步奖励分配中固有地存在噪声和不精确。

自我进化

最后,四轮自我进化的方案逐步从0构建前沿策略模型和PPM。

研究人员从公开可用的来源中,策划了一个包含747,000个数学题的数据集。

在每一轮中,使用最新的策略模型和PPM执行MCTS,利用上述两种方法生成越来越高质量的训练数据,以训练更强的策略模型和PPM用于下一轮。

每一轮都实现了逐步的改进:(1)更强的策略SLM,(2)更可靠的PPM,(3)通过PPM增强的MCTS生成更好的推理轨迹,以及(4)改进训练数据覆盖范围,解决更多高难度的甚至是竞赛级别的数学问题。

四轮自我进化

由于SLM的能力较弱,要进行四轮MCTS深度思考,可以逐步生成更高质量的数据,并通过更多高难度的数学问题来扩展训练集。

每轮都要用MCTS生成逐步验证的推理轨迹,然后用这些轨迹训练新的策略SLM和PPM。新模型随后应用于下一轮,以生成更高质量的训练数据。

第一轮:启动初始强策略SLM-r1

为了使SLM能够自我生成合理的训练数据,要执行一轮引导训练,微调初始的强策略模型,记作SLM-r1。

如表2所示,使用DeepSeek-Coder-V2-Instruct(236B)运行MCTS,收集SFT数据。

在这一轮中,由于没有可用的奖励模型,因此使用终端引导注释来标注Q值,并将MCTS的回合数限制为8,以提高效率。对于正确的解答,选择Q值平均值最高的前两条轨迹作为SFT数据。

第二轮:训练可靠的PPM-r2

在这一轮中,使用更新后的7B策略模型SLM-r1,进行大量的MCTS回合以获取更可靠的Q值标注,并训练了第一个可靠的奖励模型PPM-r2。其中,为每个问题执行16轮MCTS回合。生成的逐步验证推理轨迹在质量和Q值精确度上都有显著提升。

如表3所示,策略SLM-r2如预期般得到改进;类似的,如表4所示,PPM-r2也比引导轮中的表现更为有效。

第三轮:使用PPM增强的MCTS显著提高数据质量

在这一轮中,借助可靠的PPM-r2,要执行PPM增强的MCTS以生成数据,从而生成了明显更高质量的推理轨迹,这些轨迹覆盖了训练集中更多的数学和奥林匹克级问题(表2)。

生成的推理轨迹和自注释的Q值随后被用于训练新的策略SLM-r3和PPM-r3,二者均表现出显著改进。

第四轮:解决高难度的数学问题

在第三轮之后,尽管基础学科和MATH问题已达到较高的成功率,但只有62.16%的奥林匹克级问题被纳入训练集。

为了提高覆盖率,采用了一种简单的策略:对于16轮MCTS回合后仍未解决的问题,增加执行64轮回合,必要时增至128轮。并对不同随机种子进行多次MCTS扩展。成功将奥林匹克级问题的成功率提高至80.58%。

在经过四轮自我进化后,747k数学问题中有90.25%成功被纳入训练集,如表2所示。在剩余的未解决问题中,绝大部分是合成问题。

作者随机检查了20个问题样本,发现其中19个被错误标注为错误答案。因此,得出结论,剩余未解决的问题质量较低,因此在第4轮结束时终止了自我进化过程。

小模型击败o1,攻克奥赛级难题

表5展示了rStar-Math与最先进推理模型的比较结果。有三点需要强调:

(1)rStar-Math显著提升了SLM数学推理能力,达到了与OpenAI o1相当或更佳的性能,同时模型规模大大缩小(1.5B-7B)。

(2)尽管使用了更小的策略模型(1.5B-7B)和奖励模型(7B),rStar-Math仍显著超越了最先进的系统2基准模型。rStar-Math持续提升了所有基础模型的推理准确性,达到最先进的水平。

(3)除了像MATH、GSM8K和AIME这样的知名基准,rStar-Math还在其他高难度的数学基准测试上表现出了强大的泛化能力,包括奥林匹克数学基准、大学数学和国内的高考数学试题。

扩展测试时计算

rStar-Math使用MCTS来增强策略模型,依据PPM引导搜索解决方案。通过增加测试时的计算量,可以探索更多的轨迹,从而间接地提高性能。

在图3中,通过比较在四个高难度的数学基准上,不同数量的采样轨迹下,官方Qwen Best-of-N的准确率,展示了测试时计算扩展的影响。

仅采样一条轨迹时,对应策略LLM的Pass@1准确率,表明模型回退到系统1的推理方式。

(1)仅使用4个轨迹,rStar-Math显著优于Best-of-N基准,超过了o1-preview并接近o1-mini。

(2)扩展测试时计算在所有基准上均提高了推理准确率,但提升趋势有所不同。在Math、AIME和Olympiad Bench上,rStar-Math在64个轨迹时表现出趋于饱和或提升缓慢,而在College Math上,性能持续稳步提升。

关键发现

内在自我反思能力的出现

OpenAI o1的一个关键突破是其内在的自我反思能力。当模型出错时,它能够识别错误并通过正确的答案进行自我修正。然而,在开源的大语言模型中,这一能力通常表现得相当不好。

这次意外地观察到,MCTS驱动深度思考在问题求解过程中表现出自我反思。如图4所示,模型最初使用SymPy在前三步中形成一个方程,但会导致错误的答案(左分支)。

有趣的是,在第四步(右分支),策略模型意识到其早期步骤的质量较差,并避免继续沿着最初的问题求解路径走下去。相反,它回溯并使用一种新的、更简单的方法解决问题,最终得出正确答案。值得注意的是,并未包含任何自我反思训练数据或提示,这表明先进的系统2推理能够促进内在的自我反思。

PPM决定了系统2的推理上限

实验表明,一旦策略模型的能力达到相对较强水平,决定性能上限的关键因素就是过程偏好模型(PPM)。图5总结了不同规模策略模型的准确性以及奖励模型带来的提升。

尽管由于训练策略、数据集和模型规模的差异,Pass@1准确性存在变化,但足以证明奖励模型是系统2推理中的主导因素。

PPM识别定理应用的步骤

在新的实验中,发现在rStar-Math的问题求解过程中,PPM能够有效地识别过程中关键的中间步骤。这些步骤通过高奖励分数进行预测,引导策略模型生成正确的解决方案。

泛化

rStar-Math提供了一种通用的方法,能提升LLM推理能力,适用于各种领域。

首先,rStar-Math可以推广到难度更高的数学任务,如定理证明。rStar-Math已展示了证明数学命题的潜力。

其次,rStar-Math还能够推广到其他领域,如代码推理和常识推理。特别是,生成逐步验证的训练轨迹需要一个机制来提供反馈,判断给定的轨迹是否在MCTS回合结束时达到了预期的输出。

论文也讨论了模型消融并在附录中给出了更多的实验细节或结果。

参考资料:

https://arxiv.org/abs/2501.04519

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许家印认罪10天后,“保护伞”终于被扒出,谁都别想跑!

许家印认罪10天后,“保护伞”终于被扒出,谁都别想跑!

历史伟人录
2026-05-08 17:54:57
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
无人机失控坠落与列车相撞致63趟列车晚点!公安部公布典型案例

无人机失控坠落与列车相撞致63趟列车晚点!公安部公布典型案例

新京报
2026-05-09 10:01:05
3名IS新娘落地澳洲便被逮捕!现场爆发激烈冲突

3名IS新娘落地澳洲便被逮捕!现场爆发激烈冲突

澳洲红领巾
2026-05-08 15:32:35
举报一个查一个!耿同学举报3位大学院长和教授,同济院长被免职还差南开和中山

举报一个查一个!耿同学举报3位大学院长和教授,同济院长被免职还差南开和中山

可达鸭面面观
2026-05-07 13:03:19
邻居闯进家中求助,男子为保护儿子婉拒,双方互留书信道歉,一个说请原谅一个说很愧疚

邻居闯进家中求助,男子为保护儿子婉拒,双方互留书信道歉,一个说请原谅一个说很愧疚

潇湘晨报
2026-05-08 19:19:25
世乒赛四强全出炉:国乒女队将战罗马尼亚,男团对阵法国队

世乒赛四强全出炉:国乒女队将战罗马尼亚,男团对阵法国队

全景体育V
2026-05-09 05:22:42
刚刚,一个卖扫地机的,把整个汽车圈整不会了

刚刚,一个卖扫地机的,把整个汽车圈整不会了

道哥说车
2026-05-08 10:10:00
广东人打广东人!中国最惨烈的汉族民系内战,为什么发生在广东?

广东人打广东人!中国最惨烈的汉族民系内战,为什么发生在广东?

环球情报员
2026-05-08 15:12:22
骑士消息:哈登低迷原因曝光,名宿痛批莫布利,G3出场更新

骑士消息:哈登低迷原因曝光,名宿痛批莫布利,G3出场更新

冷月小风风
2026-05-09 09:50:33
人民日报平安校园发声后也被删帖?海参崴事件正在考验我们的底线

人民日报平安校园发声后也被删帖?海参崴事件正在考验我们的底线

迷世书童H9527
2026-05-09 08:46:58
10万订单:比亚迪大唐捅穿了纯电大七座SUV那层没人敢碰的窗户纸

10万订单:比亚迪大唐捅穿了纯电大七座SUV那层没人敢碰的窗户纸

电科技网
2026-05-08 14:45:22
国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

三十年莱斯特城球迷
2026-05-08 22:57:55
无锡市一游乐场发生一起脚踏风车船侧翻事故,调查报告公布:涉事游船不合格,3人被刑事拘留,4名公职人员被处理

无锡市一游乐场发生一起脚踏风车船侧翻事故,调查报告公布:涉事游船不合格,3人被刑事拘留,4名公职人员被处理

极目新闻
2026-05-09 08:12:25
气象专家回应“史上最热夏天”传言:2026年夏季或“相对偏热、高温天气多、体感阶段性较差”,南方和新疆更明显,但并非“灾难级夏天”

气象专家回应“史上最热夏天”传言:2026年夏季或“相对偏热、高温天气多、体感阶段性较差”,南方和新疆更明显,但并非“灾难级夏天”

极目新闻
2026-05-09 09:22:36
疯狂一夜:利雅得新月逆袭夺冠,多特蒙德3-2险胜,朗斯绝杀南特

疯狂一夜:利雅得新月逆袭夺冠,多特蒙德3-2险胜,朗斯绝杀南特

足球狗说
2026-05-09 05:13:46
香港18岁男子弑父伤母,称“父母是外星奸细必须铲除”,被判终身监禁

香港18岁男子弑父伤母,称“父母是外星奸细必须铲除”,被判终身监禁

南方都市报
2026-05-08 23:18:01
贺子珍的弟弟被枪毙,行刑前大喊被冤枉,毛泽东得知后态度如何?

贺子珍的弟弟被枪毙,行刑前大喊被冤枉,毛泽东得知后态度如何?

历史龙元阁
2026-05-08 08:50:16
衡水中学的清北人数彻底崩了!巅峰期275人,跌至2025年的45人…

衡水中学的清北人数彻底崩了!巅峰期275人,跌至2025年的45人…

火山詩话
2026-05-08 17:44:41
中东局势进入战和转换关键阶段,美国和伊朗相互试探韧性

中东局势进入战和转换关键阶段,美国和伊朗相互试探韧性

澎湃新闻
2026-05-08 17:48:29
2026-05-09 10:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15163文章数 66851关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

媒体:沙特被美国激怒 海湾国家或将深化与中国关系

头条要闻

媒体:沙特被美国激怒 海湾国家或将深化与中国关系

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

白宫:特朗普计划5月14日至15日访问中国

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

本地
旅游
时尚
公开课
军事航空

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

花香漫冰城

卢昱晓真的要被审判到这种程度吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版