网易首页 > 网易号 > 正文 申请入驻

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

0
分享至

FOT团队 投稿

量子位 | 公众号 QbitAI

大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。

为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。

该方法借鉴人类“多角度思考、反复验证”的认知方式,打破传统LLM的线性推理范式,通过构建多棵并行推理树,引入动态自我修正机制与多视角共识决策策略。

论文将在7月份召开的ICML 2025大会上发表和开源。

在此基础上,FoT在多个数学推理任务中表现突出,进一步展现了FoT相较于ToT(Tree-of-Thought)更优的推理能力。

具体而言,在GSM8K数据集上,结合FoT的QwQ-32B模型准确率高达97.33%,超过了GPT-4o和rStar-Math等先进模型;在更具挑战性的AIME 2024测试中,更是将准确率提升至53.33%,较对比方法rStar-Math高出6.66%。

思维森林:让大模型像人一样“思维分叉+自我反省”

尽管LLM在语言理解、问答等任务中表现出色,但在数学和逻辑等需要多步严谨推理的场景中,仍然存在明显短板:

  • 常陷入“单路径”惯性,缺乏反思与尝试其他思路的能力;

  • 中间步骤易出错,且错误难以自我纠正;

  • 无法有效整合多种解法来做集体判断,缺乏“共识感知”。

思维森林FoT框架的核心灵感来自人类解决复杂问题的过程:头脑风暴 → 多路径探索 → 错误回溯 → 决策投票。

FoT模型在推理时并行构建多棵推理树,每棵树探索一种潜在思路,并引入三个关键机制:

稀疏激活(Sparse Activation)

在传统的多路径推理中,虽然激活所有可能路径可以提升覆盖率,但也带来了指数级的计算开销。

FoT引入了稀疏激活策略,其核心思想是在每一层推理过程中,依据节点输出的置信度进行评分,仅保留得分最高的少量节点用于后续扩展。

该机制显著减少了每层的推理分支数量,提升了每棵推理树的逻辑集中度和计算效率。

动态自校正(Dynamic Self-Correction)

FoT中每棵推理树在成长过程中,具备对自身推理状态的“反省”与“重构”能力。

该模块检测推理路径中可能出现的偏差(回答不断重复等)时自动触发自我反思,提高模型在复杂任务(如数学推导、科学多跳问答)中的鲁棒性。

共识引导决策(Consensus-Guided Evaluation and Decision)

FoT的最终输出不仅依赖于某一条推理路径,而是融合多棵推理树的候选答案,通过集体投票与专家评分机制共同完成决策。具体流程如下:

每棵推理树在独立推理后都会生成一个候选答案。

CGED首先尝试从中识别出多数一致性结果(如超过半数树提出相同答案)。若存在明确的多数共识,则直接采用该答案作为最终输出。

若不存在明显的一致性(如每棵树的结论差异较大),则系统将调用一个预先训练好的LLM专家模型对所有候选答案进行质量评估,从中选择最优解。

该评分模型可基于答案的逻辑连贯性、对问题的契合度、生成路径的可靠性等多维指标综合判断,确保最终输出具备较高的可信度与可解释性。

这一机制有效结合了“集体智慧”与“专家审阅”,提升了模型在不确定场景下的决策稳定性,特别适用于开放式问答、科学推理与法律场景等对输出可靠性要求较高的任务。

实验亮点:比思维树更强、更稳、更聪明

在GSM8K、MATH等经典推理任务中,FoT显示出超越ToT的表现:

在24点游戏任务中,FoT增加树数即可提升14%准确率,明显优于ToT通过叶子节点数量扩展的方式。

在GSM8K数学问答上,FoT与LLaMA3、Mistral、GLM等多个主流开源模型兼容,树数越多,性能提升越明显,呈现全新的推理scaling law曲线。

在MATH数据集全等级上,FoT推理准确率稳定提升,即使面对最复杂的问题也能保持优势。

总结:从更聪明,到更可信

FOT是一种面向大语言模型的推理增强框架,通过引入多路径探索、动态自我校正和共识决策机制,提升模型在复杂任务中的推理准确性、容错性和泛化能力。

不仅如此,该方法旨在缓解传统大模型在高阶推理场景中的局限,为结构化、可解释的推理提供支持,具有在金融风控、法律分析、科研辅助、医疗诊断等领域的应用潜力。

论文链接:https://arxiv.org/abs/2412.09078

项目地址:https://github.com/iamhankai/Forest-of-Thought

转自:量子位

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸裂!高校教授136页PDF丑闻:玩弄女学生,出轨已婚女,细节曝光

炸裂!高校教授136页PDF丑闻:玩弄女学生,出轨已婚女,细节曝光

李晚书
2026-04-30 13:36:16
美媒:霍尔木兹海峡部分被困船员已遇难,联合国呼吁紧急营救,目前仍有数百艘船舶、约两万名海员滞留波斯湾

美媒:霍尔木兹海峡部分被困船员已遇难,联合国呼吁紧急营救,目前仍有数百艘船舶、约两万名海员滞留波斯湾

鲁中晨报
2026-04-29 21:59:02
“开除韩国瑜”风暴升级,季麟连被逼道歉辞职,郑丽文被围攻逼宫

“开除韩国瑜”风暴升级,季麟连被逼道歉辞职,郑丽文被围攻逼宫

共工之锚
2026-04-30 13:27:18
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
活久见!800元讨薪聊天登上热搜,以“抹一脸屎”施压,老板转账

活久见!800元讨薪聊天登上热搜,以“抹一脸屎”施压,老板转账

火山詩话
2026-04-30 06:45:15
广东莫氏鸡煲老板回应欠债180万:近期鸡煲爆火已还清大部分,还剩三四十万

广东莫氏鸡煲老板回应欠债180万:近期鸡煲爆火已还清大部分,还剩三四十万

大象新闻
2026-04-30 11:42:08
特斯拉中国再推促销方案:5月31日前,购买Model 3、Model Y、Model Y L车型5年0息

特斯拉中国再推促销方案:5月31日前,购买Model 3、Model Y、Model Y L车型5年0息

鲁中晨报
2026-04-29 10:48:05
太讽刺!国安部点名“躺平网红”,揪出境外势力,评论区笑中带泪

太讽刺!国安部点名“躺平网红”,揪出境外势力,评论区笑中带泪

谭谈社会
2026-04-30 00:02:18
蒋中正日记手稿被揭露,字迹竟被称作书法界的奇迹!

蒋中正日记手稿被揭露,字迹竟被称作书法界的奇迹!

书画相约
2026-04-30 11:14:19
特朗普压力山大,白宫要求情报部门评估单方面宣布“战胜伊朗”的后果

特朗普压力山大,白宫要求情报部门评估单方面宣布“战胜伊朗”的后果

澎湃新闻
2026-04-29 15:28:26
涨停!7000亿元巨头爆发!

涨停!7000亿元巨头爆发!

环球网资讯
2026-04-30 15:28:31
突发!闻泰科技 ST !

突发!闻泰科技 ST !

EETOP半导体社区
2026-04-30 11:56:07
日本海关疯狂开箱越南游客?!行李箱一打开,网友:这辈子没这么无语过...

日本海关疯狂开箱越南游客?!行李箱一打开,网友:这辈子没这么无语过...

今日日本
2026-04-30 12:10:51
3.695米高大巴被卡“限高4米”涵洞引网友质疑,陕西兴平多部门回应

3.695米高大巴被卡“限高4米”涵洞引网友质疑,陕西兴平多部门回应

极目新闻
2026-04-30 15:44:38
宇树发布只有上半身的人形机器人,高管否认熊猫机器人抄袭魔法原子

宇树发布只有上半身的人形机器人,高管否认熊猫机器人抄袭魔法原子

界面新闻
2026-04-30 13:49:20
常住人口220多万的马鞍山市,一季度只有914名新生儿,同比暴跌67.4%

常住人口220多万的马鞍山市,一季度只有914名新生儿,同比暴跌67.4%

小萝卜丝
2026-04-29 17:08:19
一半中国人蛋白质没吃够!医生:50岁以上人群,每天这样吃才达标

一半中国人蛋白质没吃够!医生:50岁以上人群,每天这样吃才达标

岐黄传人孙大夫
2026-04-29 06:45:06
重磅:乌克兰摧毁克里米亚的“伊斯坎德尔”导弹基地!

重磅:乌克兰摧毁克里米亚的“伊斯坎德尔”导弹基地!

项鹏飞
2026-04-29 19:14:55
歼15霸气喊话日本军机:你在我导弹射程内

歼15霸气喊话日本军机:你在我导弹射程内

闪电新闻
2026-04-30 15:08:43
上海地铁互殴乘客彻底社死!处罚结果公布,拘留只是“开胃菜”

上海地铁互殴乘客彻底社死!处罚结果公布,拘留只是“开胃菜”

奇思妙想草叶君
2026-04-29 23:46:29
2026-04-30 17:03:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3084014文章数 7023关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

中国船员滞留霍尔木兹60天:奖发到位 大部分愿继续干

头条要闻

中国船员滞留霍尔木兹60天:奖发到位 大部分愿继续干

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

艺术
家居
房产
数码
公开课

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

家居要闻

灵动实用 生活艺术场

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

数码要闻

英雄联盟/DOTA2 2026HyperX 暗影精灵 PRO 16 Intel MOBA 解析

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版