网易首页 > 网易号 > 正文 申请入驻

推理token减少46%!Meta新方法缩短思维链,告别重复推导

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

大模型老走重复步骤,导致思维链越来越长怎么办?

Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出元认知复用(Metacognitive Reuse) 机制



简单来说,就是让模型自己回顾、总结解题思路,将常用的推理套路提炼成更为简洁的“行为”,并将其存储于 “行为手册(Behavior Handbook)” 中。

当再遇到类似问题时,模型便可直接从手册中调用相应的行为,无需重新推导。

实验结果显示,该机制通过行为条件推理、行为引导自我改进、行为条件监督微调三种应用场景,在MATH、AIME等数学基准测试中实现了显著优化,在保持准确率不变的前提下,最多可减少46%的推理token使用量



下面具体来看。

将重复出现的片段化繁为简

如今,大型语言模型在解决数学、编程等复杂任务时,广泛采用思维链进行推理,所以每次遇到新问题时,都需要重复推导通用子步骤。

这不仅会导致token用量膨胀、推理延迟增加,还会占用上下文窗口空间,降低模型探索新路径的能力。

与此同时,现有LLM的记忆系统(如RAG)仅存储 “是什么” 的陈述性知识,缺乏 “如何思考” 的程序性知识复用机制,无法解决重复推理的低效问题。



针对上述问题,研究团队提出了元认知复用(Metacognitive Reuse) 机制

让模型面对问题时,先尝试解决它,随后回顾整个推理过程,从中识别出可复用的推理步骤,最终将其转化为一组标准化“行为”——带有规范名称的简短可执行指令。

这些“行为”会被收录进一本可检索的“行为手册”,既能在测试阶段通过上下文提示直接调用,也可通过监督微调内化为模型的固有能力。



首先,研究人员描绘了“行为”构建的整个流程,该框架让模型在推理过程中扮演3种不同的角色。

  • 元认知策略器(LLM A):负责从自身的推理轨迹中提取行为;
  • 教师(LLM B):负责生成监督微调(SFT)训练的数据;
  • 学生(LLM C):其推理过程可通过行为加以辅助,包括行为条件推理或行为条件SFT。



为了提取“行为”,元认知策略器首先会针对给定问题生成一个解决方案,包含推理轨迹+最终答案。

然后,将该问题–解答对再次输入元认知策略器,用以生成反思,主要是评估推理是否逻辑严密、答案是否正确,以及是否能提炼出新的可复用行为以简化未来的解题过程。

最后,通过另一次查询,元认知策略器将问题、解答和反思转化为一组“行为条目(包含名称和指令)”,并将添加到“行为手册”中。

用更少的token实现更高的准确率

研究团队在三种不同场景下测试了该模型的推理性能。

行为条件推理(BCI)

在首个场景中,BCI被用于MATH和AIME–24/25两个数据集,DeepSeek-R1-Distill-Llama-70B (R1-Llama-70B)和Qwen3-32B被用作候选学生模型。R1-Llama-70B被用作元认知策略生成器。



由上图可以看出,BCI可以在使用更少token的情况下,就能达到与基线相当或更优的性能。

此外,随着token的增加,该方法性能仍在提升,表明其不会对模型原有能力产生不良影响。

行为引导的自我改进

在此实验中,R1-Llama-70B同时担任元认知策略器和学生两个角色,具体做法是直接让模型对自身的推理轨迹进行批判并修正,以实现自我改进。

这个方法就像让大模型自己“改作业”。给模型一个问题Q,它先写出一条初步推理轨迹R1。然后,把问题Q和R1 一起交回给模型,让它检查并改进,生成新的推理轨迹R2,以修正错误或补充遗漏的步骤。

从下图可以看出,即使不更新参数,模型也能借助从过往解题过程中提取的行为模式,优化后续推理效果。相比朴素的“批判-修正”基线方法,该策略可将准确率最多提升10%。



行为条件监督微调(BC-SFT)

BC-SFT旨在将高质量的行为直接融入模型参数中,其中R1-Llama-70B同时担任元认知策略器和教师模型,Qwen2.5-14B、Qwen2.5-32B-Instruct、Qwen3-14B和Llama-3.1-8B被用作需要微调的学生模型。

与常规SFT相比,新方法可以更有效地将不具备推理能力的模型转化为具备推理能力的模型。

值得一提的是,BC-SFT不仅在token上使用更高效,而且几乎在所有情况下,其准确率都高于两个基线模型。



参考链接:
[1]https://x.com/connordavis_ai/status/1971937767975498160
[2]https://arxiv.org/abs/2509.13237

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

记者:转会失败让罗马尼奥利错失600万年薪,球员对此很愤怒

懂球帝
2026-02-01 07:44:07
指点蒋介石退守台湾的高人是谁?建议毛主席先夺台湾的人又是谁?

指点蒋介石退守台湾的高人是谁?建议毛主席先夺台湾的人又是谁?

云霄纪史观
2026-01-31 11:24:39
放过观众吧!这5位春晚“混子”演啥都不好看,难怪遭到观众抵制

放过观众吧!这5位春晚“混子”演啥都不好看,难怪遭到观众抵制

徐徐道史
2025-12-19 20:01:39
随着利物浦4-1,切尔西3-2,阿森纳4-0,英超最新积分榜出炉

随着利物浦4-1,切尔西3-2,阿森纳4-0,英超最新积分榜出炉

侧身凌空斩
2026-02-01 06:15:06
小杨阿姨已回老家过年,玥儿箖箖姐弟没被邀请参加亲妈周年祭

小杨阿姨已回老家过年,玥儿箖箖姐弟没被邀请参加亲妈周年祭

萧佉影视解说
2026-02-01 20:01:51
李昊即将转会上海申花?女友评论区泄露机密,球迷直呼真没想到!

李昊即将转会上海申花?女友评论区泄露机密,球迷直呼真没想到!

罗掌柜体育
2026-02-01 13:26:01
惯子如杀子,溺子吃火锅害全家灭门,自己被呛死,父母被杀

惯子如杀子,溺子吃火锅害全家灭门,自己被呛死,父母被杀

墨染尘香
2024-07-13 16:32:19
1988年,邓小平主张物价闯关,陈云反对:不拿工资的农民怎么办?

1988年,邓小平主张物价闯关,陈云反对:不拿工资的农民怎么办?

帝哥说史
2026-02-01 06:30:03
30岁女子洗澡时摸到颈部肿大淋巴结确诊肺癌后选择轻生,丈夫无奈:我们本来要二胎!

30岁女子洗澡时摸到颈部肿大淋巴结确诊肺癌后选择轻生,丈夫无奈:我们本来要二胎!

消化石医生
2025-11-29 11:38:20
不看一场男性擦边秀,你永远不懂什么是富婆的快乐!

不看一场男性擦边秀,你永远不懂什么是富婆的快乐!

每日一见
2026-02-01 11:38:37
我54岁鳏夫,她33岁瑶族姑娘,洞房夜那晚我傻愣了

我54岁鳏夫,她33岁瑶族姑娘,洞房夜那晚我傻愣了

小月文史
2024-05-27 18:48:10
CBA最新消息!杨鸣或重返辽宁,南京同曦两人被禁赛

CBA最新消息!杨鸣或重返辽宁,南京同曦两人被禁赛

体坛瞎白话
2026-02-01 11:18:25
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
单赛季拿3000分有多难?科比0次,詹姆斯0次,唯独他3次

单赛季拿3000分有多难?科比0次,詹姆斯0次,唯独他3次

无月可归辛
2026-01-27 18:21:38
驻日武官王庆简:为日本潜伏20年出卖军事机密,因一动作暴露身份

驻日武官王庆简:为日本潜伏20年出卖军事机密,因一动作暴露身份

古书记史
2026-01-27 00:30:48
暴力催收的“硬规矩”来了!私人手机催收、深夜骚扰全叫停

暴力催收的“硬规矩”来了!私人手机催收、深夜骚扰全叫停

南方都市报
2026-01-31 16:02:09
如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

混沌录
2026-02-01 15:14:10
国内捞钱国外花?美国买豪宅,4个孩子入美籍,千亿身家也有内幕

国内捞钱国外花?美国买豪宅,4个孩子入美籍,千亿身家也有内幕

芳芳历史烩
2026-01-20 14:38:28
委内瑞拉代总统:计划对政治犯实行大赦!委军方表态:对她绝对忠诚与服从

委内瑞拉代总统:计划对政治犯实行大赦!委军方表态:对她绝对忠诚与服从

每日经济新闻
2026-01-31 23:17:09
皇马内讧爆发!姆巴佩公开不满,抱怨没帮手,皇马高层被耍了

皇马内讧爆发!姆巴佩公开不满,抱怨没帮手,皇马高层被耍了

阿泰希特
2026-02-01 12:43:12
2026-02-01 23:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
手机
亲子
健康
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

亲子要闻

萌娃和弟弟吃醋,让妈妈把弟弟放回肚子里

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版