网易首页 > 网易号 > 正文 申请入驻

微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨

0
分享至

今天凌晨,微软在官网分享了自研的三大创新算法,以帮助大模型增强其推理能力。

无论你是小参数或者是大参数模型玩家,都能从rStar-Math、LIPS 、CPL这三大算法获益,突破推理瓶颈,极大增强模型的数学推理和思考链的能力。

rStar-Math

rStar-Math算法主要通过蒙特卡洛树搜索(MCTS)实现深度思考。MCTS 是一种用于决策过程的搜索算法,通过模拟多个可能的路径来评估每个步骤的价值。在rStar-Math算法中,MCTS 被用来生成高质量的推理轨迹,并通过一个基于SLM的奖励模型进行评估。

在传统的推理方法中,语言模型生成的自然语言推理轨迹往往存在错误或不相关的内容,尤其是在复杂的数学问题中。为了解决这一问题,rStar-Math 引入了代码增强的CoT方法。大模型在生成每个推理步骤时,会同时生成对应的 Python 代码。

这些代码不仅用于验证推理步骤的正确性,还能够通过执行结果来筛选出高质量的生成内容。只有那些 Python 代码能够成功执行的生成内容才会被保留,从而确保中间步骤的正确性。

此外,传统的奖励模型训练中,直接使用 Q 值作为奖励标签是一种常见的方法,但这种方法存在明显的局限性。Q 值虽然能够反映步骤的整体质量,但它们带有噪声,无法精确地评估每个步骤的优劣。

为了解决这一难题,rStar-Math 提出了一种新的训练方法,通过构建基于 Q 值的正负偏好对来训练PPM。对于每个推理步骤,模型会选择 Q 值最高的两个步骤作为正样本,选择 Q 值最低的两个步骤作为负样本。

通过这种方式,PPM 能够学习到如何区分高质量和低质量的推理步骤,从而提供更准确的奖励信号。这种方法避免了直接使用 Q 值作为奖励标签的噪声问题,显著提高了奖励模型的精度和可靠性。

论文地址:https://arxiv.org/pdf/2501.04519

rStar-Math的自我进化方法也是其核心优势之一。通过四轮自我进化,策略模型和PPM 从头开始逐步构建,生成的训练数据质量不断提高,覆盖的问题难度也逐渐增加。

在每一轮中,使用最新的策略模型和 PPM进行MCTS,生成高质量的推理轨迹,并用这些轨迹训练更强的策略模型和PPM。

LIPS

LIPS算法主要用于增强数学推理,其核心思想是将数学证明过程中的策略分为缩放和重写两大类。缩放策略通过符号工具实现,利用有限的不等式引理库对当前目标进行细化,而重写策略则由大模型负责生成,通过等价变换将问题转化为更易于解决的形式。

在缩放策略方面,LIPS算法通过符号工具实现,利用有限的不等式引理库对当前目标进行细化。例如,通过AM-GM不等式,算术平均数大于等于几何平均数对目标中的某些项进行缩放。但缩放策略可能会引入无效的子目标,所以需要通过符号工具如SMT求解器检查反例,从而过滤掉无效的缩放策略。

在重写策略方面,LIPS算法由大模型负责生成,通过设计一系列提示引导大模型对当前目标进行等价变换。例如,通过简化、重新排列或消去分母等操作将目标转化为更易于处理的形式。由于重写策略的空间是无限的,大模型的数学直觉在这里发挥了关键作用,能够从大量可能的变换中筛选出最有希望的策略。

在目标过滤与排序方面,LIPS算法采用了两个阶段:符号过滤和神经排序。缩放和重写策略生成的新目标集合需要进一步筛选和排序,以确定最有希望的证明路径。首先,通过符号过滤阶段,利用不等式的齐次性和解耦性来评估每个目标的潜力。

论文地址:https://arxiv.org/pdf/2502.13834

齐次性表示不等式两边的次数相同,而解耦性则衡量不等式中混合变量项的数量。通过这些指标,可以快速排除那些不太可能被证明的目标。其次,在神经排序阶段,对于经过符号过滤后的前k个目标,利用大模型进行最终排序。

CPL

传统的强化学习方法虽然在特定任务上取得了进展,但在跨任务泛化方面存在不足。此外,大模型的推理空间是无限的,这使得在其中寻找有效的推理路径变得极为困难。

例如,在数学问题解决中,模型需要在众多可能的解题步骤中找到最优路径,而在代码生成任务中,模型需要在复杂的逻辑结构中进行有效的探索。

为了解决这些难题,微软提出了CPL算法,一种基于关键计划步骤学习的方法,旨在通过在高层次抽象计划空间中进行搜索,提升模型的泛化能力和推理性能。

在CPL算法中,计划空间搜索是第一步,也是至关重要的一步。与传统的解决方案搜索不同,计划空间搜索关注的是高层次的抽象计划,而不是具体的解决方案。

例如,在解决一个数学问题时,模型首先会生成一个逐步解决问题的计划,而不是直接生成具体的数学公式。这种计划可以包括确定需要应用哪些知识、如何分解问题等抽象思维步骤。通过这种方式,模型能够学习到更通用的、与任务无关的技能,从而提高其在不同任务中的泛化能力。

在生成了多样化的计划步骤后,CPL的第二步是通过Step-APO学习关键计划步骤。Step-APO是基于Direct Preference Optimization(DPO)的一种改进方法,它通过引入优势估计来优化步骤偏好。

Step-APO利用MCTS过程中获得的优势估计,为每一对步骤偏好赋予不同的权重,从而让模型能够更有效地识别出哪些步骤对推理能力的提升更为关键。

论文地址:https://arxiv.org/pdf/2409.08642

例如,在一个复杂的推理任务中,模型可能会发现某些步骤虽然在表面上看起来合理,但实际上对最终结果的贡献较小,而Step-APO能够帮助模型识别并强化那些真正重要的步骤。

本文素材来源微软,如有侵权请联系删除

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |


| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

纪实文录
2025-06-21 14:47:10
美记:哈登合同原本只1330万受保障,但新合同可能也较低

美记:哈登合同原本只1330万受保障,但新合同可能也较低

林子说事
2026-06-30 18:19:51
日本今年大学生就业率98%,月薪30万,历史第二高

日本今年大学生就业率98%,月薪30万,历史第二高

难得君
2026-06-29 12:03:48
2026年生效!人社部56号令,退休人员务必看清

2026年生效!人社部56号令,退休人员务必看清

苗苗情感说
2026-06-30 13:51:44
战术洁癖真无语!平庸执教拖垮全队,他亲手葬送德国足球一个周期

战术洁癖真无语!平庸执教拖垮全队,他亲手葬送德国足球一个周期

体坛老球迷
2026-06-30 09:15:54
停更5年,明天回归!曾红极一时又被1元转让,网友沸腾:青春回来了

停更5年,明天回归!曾红极一时又被1元转让,网友沸腾:青春回来了

封面新闻
2026-06-30 19:14:05
世界杯“点球之王”爆冷出局!德国曾在12码罚球点“打遍群雄无敌手”

世界杯“点球之王”爆冷出局!德国曾在12码罚球点“打遍群雄无敌手”

上游新闻
2026-06-30 13:32:37
德媒:格雷茨卡拒绝主罚点球,踢丢关键点球的塔此前从未罚过点

德媒:格雷茨卡拒绝主罚点球,踢丢关键点球的塔此前从未罚过点

懂球帝
2026-06-30 21:10:30
927页“史上最长”财务文件:特朗普去年炒币大赚12亿美元,重仓科技巨头!

927页“史上最长”财务文件:特朗普去年炒币大赚12亿美元,重仓科技巨头!

科创板日报
2026-07-01 08:48:11
2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷...

2026高考成绩公布后,张桂梅式教育被批,再次证明:父母放任不管的代价,远比想象中更残酷...

犀利辣椒
2026-07-01 06:21:57
姚明父母近况:住上海老小区,偶尔回苏州探亲,儿子大姚很孝顺

姚明父母近况:住上海老小区,偶尔回苏州探亲,儿子大姚很孝顺

大鱼简科
2026-06-30 22:10:58
高市突然强硬!日本宣布攻克稀土磁铁,外媒:稀土牌恐将失效?

高市突然强硬!日本宣布攻克稀土磁铁,外媒:稀土牌恐将失效?

疯狂小菠萝
2026-06-30 14:04:50
法拉利被孩子当滑梯玩后续,车主:维修费14360元必须照价赔偿

法拉利被孩子当滑梯玩后续,车主:维修费14360元必须照价赔偿

映射生活的身影
2026-06-29 16:14:33
700万人卷铺盖跑了!保险这碗饭,怎么就“馊”到没人吃了?

700万人卷铺盖跑了!保险这碗饭,怎么就“馊”到没人吃了?

掉了颗大白兔糖
2026-06-30 21:02:24
内马尔为何在巴西踢日本时!一分钟都没上,主帅赛后首次给出答案

内马尔为何在巴西踢日本时!一分钟都没上,主帅赛后首次给出答案

余憁搞笑段子
2026-06-30 19:21:22
男性“最耗阳”行为,不是喝酒而是这些,排第一的,看看你在做吗

男性“最耗阳”行为,不是喝酒而是这些,排第一的,看看你在做吗

熊猫医学社
2026-06-30 11:30:03
特务头子康泽特赦后,在报纸上看到毛主席的文章,激动到不省人事

特务头子康泽特赦后,在报纸上看到毛主席的文章,激动到不省人事

水木史记
2026-07-01 03:53:47
法国队若想世界杯夺冠,需要连过这几关

法国队若想世界杯夺冠,需要连过这几关

甜度百分百21
2026-07-01 00:26:43
不打垮中国不罢休?内鬼身份曝光让人意想不到!好在结局大快人心

不打垮中国不罢休?内鬼身份曝光让人意想不到!好在结局大快人心

飘逸语人
2026-07-01 02:11:14
毕业即失业!这10个理工类烂专业,分数再高也别乱报

毕业即失业!这10个理工类烂专业,分数再高也别乱报

户外阿毽
2026-06-30 00:25:16
2026-07-01 11:07:00
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2803文章数 1268关注度
往期回顾 全部

科技要闻

美国放行,Anthropic两款顶级模型将恢复

头条要闻

美伊双方代表前往多哈 谈判方式出现“重大倒退”

头条要闻

美伊双方代表前往多哈 谈判方式出现“重大倒退”

体育要闻

德国足球,脸都不要了

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
本地
艺术
公开课
军事航空

Meiinpsn的穿衣风格,清新又叛逆

本地新闻

贵州小城的新目标:举办“村超”世界杯!

艺术要闻

见过毛主席写魏碑么?世上仅此一幅!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版