网易首页 > 网易号 > 正文 申请入驻

推理token减少46%!Meta新方法缩短思维链,告别重复推导

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

大模型老走重复步骤,导致思维链越来越长怎么办?

Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出元认知复用(Metacognitive Reuse) 机制



简单来说,就是让模型自己回顾、总结解题思路,将常用的推理套路提炼成更为简洁的“行为”,并将其存储于 “行为手册(Behavior Handbook)” 中。

当再遇到类似问题时,模型便可直接从手册中调用相应的行为,无需重新推导。

实验结果显示,该机制通过行为条件推理、行为引导自我改进、行为条件监督微调三种应用场景,在MATH、AIME等数学基准测试中实现了显著优化,在保持准确率不变的前提下,最多可减少46%的推理token使用量



下面具体来看。

将重复出现的片段化繁为简

如今,大型语言模型在解决数学、编程等复杂任务时,广泛采用思维链进行推理,所以每次遇到新问题时,都需要重复推导通用子步骤。

这不仅会导致token用量膨胀、推理延迟增加,还会占用上下文窗口空间,降低模型探索新路径的能力。

与此同时,现有LLM的记忆系统(如RAG)仅存储 “是什么” 的陈述性知识,缺乏 “如何思考” 的程序性知识复用机制,无法解决重复推理的低效问题。



针对上述问题,研究团队提出了元认知复用(Metacognitive Reuse) 机制

让模型面对问题时,先尝试解决它,随后回顾整个推理过程,从中识别出可复用的推理步骤,最终将其转化为一组标准化“行为”——带有规范名称的简短可执行指令。

这些“行为”会被收录进一本可检索的“行为手册”,既能在测试阶段通过上下文提示直接调用,也可通过监督微调内化为模型的固有能力。



首先,研究人员描绘了“行为”构建的整个流程,该框架让模型在推理过程中扮演3种不同的角色。

  • 元认知策略器(LLM A):负责从自身的推理轨迹中提取行为;
  • 教师(LLM B):负责生成监督微调(SFT)训练的数据;
  • 学生(LLM C):其推理过程可通过行为加以辅助,包括行为条件推理或行为条件SFT。



为了提取“行为”,元认知策略器首先会针对给定问题生成一个解决方案,包含推理轨迹+最终答案。

然后,将该问题–解答对再次输入元认知策略器,用以生成反思,主要是评估推理是否逻辑严密、答案是否正确,以及是否能提炼出新的可复用行为以简化未来的解题过程。

最后,通过另一次查询,元认知策略器将问题、解答和反思转化为一组“行为条目(包含名称和指令)”,并将添加到“行为手册”中。

用更少的token实现更高的准确率

研究团队在三种不同场景下测试了该模型的推理性能。

行为条件推理(BCI)

在首个场景中,BCI被用于MATH和AIME–24/25两个数据集,DeepSeek-R1-Distill-Llama-70B (R1-Llama-70B)和Qwen3-32B被用作候选学生模型。R1-Llama-70B被用作元认知策略生成器。



由上图可以看出,BCI可以在使用更少token的情况下,就能达到与基线相当或更优的性能。

此外,随着token的增加,该方法性能仍在提升,表明其不会对模型原有能力产生不良影响。

行为引导的自我改进

在此实验中,R1-Llama-70B同时担任元认知策略器和学生两个角色,具体做法是直接让模型对自身的推理轨迹进行批判并修正,以实现自我改进。

这个方法就像让大模型自己“改作业”。给模型一个问题Q,它先写出一条初步推理轨迹R1。然后,把问题Q和R1 一起交回给模型,让它检查并改进,生成新的推理轨迹R2,以修正错误或补充遗漏的步骤。

从下图可以看出,即使不更新参数,模型也能借助从过往解题过程中提取的行为模式,优化后续推理效果。相比朴素的“批判-修正”基线方法,该策略可将准确率最多提升10%。



行为条件监督微调(BC-SFT)

BC-SFT旨在将高质量的行为直接融入模型参数中,其中R1-Llama-70B同时担任元认知策略器和教师模型,Qwen2.5-14B、Qwen2.5-32B-Instruct、Qwen3-14B和Llama-3.1-8B被用作需要微调的学生模型。

与常规SFT相比,新方法可以更有效地将不具备推理能力的模型转化为具备推理能力的模型。

值得一提的是,BC-SFT不仅在token上使用更高效,而且几乎在所有情况下,其准确率都高于两个基线模型。



参考链接:
[1]https://x.com/connordavis_ai/status/1971937767975498160
[2]https://arxiv.org/abs/2509.13237

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

浩舞纆画
2026-03-05 18:41:23
粟裕全歼张灵甫74师,毛主席听完战报沉默半晌:连我都没料到他敢这么打

粟裕全歼张灵甫74师,毛主席听完战报沉默半晌:连我都没料到他敢这么打

史海孤雁
2026-03-18 18:18:12
高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

安安说
2026-03-25 11:00:02
马杜罗今天再次“出庭” 此前拒绝美方一切所谓“犯罪指控”

马杜罗今天再次“出庭” 此前拒绝美方一切所谓“犯罪指控”

闪电新闻
2026-03-26 10:21:04
江青作品惊艳!字写得灵动,秘诀竟在用笔!

江青作品惊艳!字写得灵动,秘诀竟在用笔!

书画相约
2026-03-19 09:15:49
美国隐瞒战死人数!美军炸了锅:不想为以色列而死

美国隐瞒战死人数!美军炸了锅:不想为以色列而死

涵豆说娱
2026-03-25 10:17:17
大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

小秋情感说
2026-03-26 09:21:52
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

毅谈生肖
2026-03-26 11:47:20
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
文班亚马惊天隔扣,马刺替补席惊呆了:这是外星人!

文班亚马惊天隔扣,马刺替补席惊呆了:这是外星人!

仰卧撑FTUer
2026-03-26 11:00:12
伊朗实力惊人,以方多个军事中心被炸,美以反应再次印证中国猜想

伊朗实力惊人,以方多个军事中心被炸,美以反应再次印证中国猜想

嘻嘻笑
2026-03-26 09:54:20
当医生看病遇到同行,网友:基本一句劝都听不到了!

当医生看病遇到同行,网友:基本一句劝都听不到了!

夜深爱杂谈
2026-03-25 21:05:25
台胞迎来好消息,统一后可自驾直达北京,郑丽文获大陆诚挚邀请

台胞迎来好消息,统一后可自驾直达北京,郑丽文获大陆诚挚邀请

肖兹探秘说
2026-03-25 19:08:23
麦克阿瑟回忆朝鲜战争:一开始我是日夜祈祷,希望中国能早日参战

麦克阿瑟回忆朝鲜战争:一开始我是日夜祈祷,希望中国能早日参战

我不是沃神
2026-03-23 09:25:03
一场战争掀开了一个政治乞丐

一场战争掀开了一个政治乞丐

维美丽心甜
2025-11-12 07:20:03
岛国女老师不科学身材大赏:巨灯细腰 TOP10,美到极致

岛国女老师不科学身材大赏:巨灯细腰 TOP10,美到极致

碧波万览
2026-03-26 01:20:03
“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁
2026-03-26 11:35:13
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

洲洲影视娱评
2026-01-28 12:23:18
2026-03-26 13:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
游戏
家居
数码
公开课

艺术要闻

哪一座桥不是风景?

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

家居要闻

傍海而居 静观蝴蝶海

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版