网易首页 > 网易号 > 正文 申请入驻

又一推理新范式:将LLM自身视作改进操作符,突破长思维链极限

0
分享至



机器之心报道

机器之心编辑部

推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性,但也增加了上下文长度、token / 计算成本和答案延迟。

因此,问题来了:当前的模型能否利用其元认知能力,在这一帕累托前沿上提供其他组合策略,例如在降低上下文长度和 / 或延迟的情况下提高准确性?

带着这一问题,Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作符,实现一系列可能的策略。



  • 论文标题:Rethinking Thinking Tokens: LLMs as Improvement Operators
  • 论文地址:https://arxiv.org/pdf/2510.01123

研究者探究了一种推理方法家族 ——并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR),该方法包含以下步骤:(i) 并行生成多样化草稿;(ii) 将其蒸馏成一个有限的文本工作区;(iii) 在此工作区的基础上进行精炼,生成的输出将作为下一轮的种子。重要的是,通过调整并行度,PDR 能够控制上下文长度(从而控制计算成本),并且上下文长度不再与生成 token 的总数混淆。

根据当前模型在 PDR 实例中的应用,它们在准确性上优于长思维链,同时延迟更低。当将并行度设置为 1 时,得到一个特例 ——顺序精炼(Sequential Refinement, SR)(即迭代改进单一候选答案),其表现优于长思维链(代价是更高的延迟)。

这种模型组织的成功引申了一个问题:进一步的训练是否能够改变帕累托前沿?为此,研究者训练了一个 8B 规模的思考模型,使用强化学习(RL)使其与 PDR 推理方法保持一致。

在具有可验证答案的数学任务中,迭代 pipeline 在匹配的顺序预算下超越了单次推理基准,并且 PDR 方法带来了最大的提升,在 AIME 2024 和 AIME 2025 数学任务中,准确率分别提高了 11% 和 9%。

LLM 作为改进操作符

研究者考虑任务 x(例如数学问题),目标是在给定的 token 预算下生成高质量的最终成果 s_final(解答、证明或程序)。设 M_θ 为一个(可以冻结或训练的)大语言模型(LLM),并作为改进操作符。给定当前的成果 s_t(单次生成或一组生成结果)和紧凑的文本工作区 C_t,模型会提出一个改进方案:



读写压缩循环。每个步骤:(i) 读取当前工作区 C_t,(ii) 通过 M_θ 写出改进后的成果 s_t+1,(iii) 使用综合操作符 D 将成果压缩回一个有限的工作区,为下一个步骤做准备。



token 预算。研究者在以下两个预算下评估每种方法:



操作符实例化

研究者探究了以下两种短上下文的迭代精炼流程。

一是顺序精炼(SR,单一候选的深度改进)。

对于所有 t,设置 C_t ≡ ∅ ,并且迭代改进单一成果进行 R 轮:



顺序精炼与紧凑工作区。在 SR 中,不提供显式的工作区。研究者还评估了一种变体,在每一轮之间插入错误分析步骤:模型不会直接改进之前的答案,而是首先识别并解释当前解答中的缺陷,然后生成修订后的解答。这些笔记在每一轮中充当一个暂时的、局部的工作区。

二是并行 - 蒸馏 - 精炼(PDR,每轮工作区)。

研究者不保持持久的记忆。相反,对于每一轮 r = 1, . . . , R,基于当前的有限摘要采样 M_r 个草稿(并行),然后重新综合(蒸馏)出一个新的有限摘要供下一轮使用:



在最后一轮强制执行单次生成 M_R = 1,此生成结果作为最终解答 s_final 返回。摘要是按轮次生成且非持久的,早期文本不会被重播,防止了每次调用时上下文的增长。

另外,研究者考虑了蒸馏操作符 D 的几种实际实例化方式:

  • 全局摘要
  • 提取性 top-k 证据(共享)
  • random-k / 自举工作区

最后是操作符一致性训练。前文将 M_θ 视为冻结,并纯粹依赖于提示 / 调度。现在,研究者通过在与测试时相同的短上下文迭代接口下优化模型,确保训练与部署 / 推理的一致性。

基础算法。对于基准强化学习(RL),研究者使用来自 Minimax-M1 的 CISPO 目标。对于给定的提示 x,生成器 π(・| θ_old) 使用旧策略 θ_old 生成 G 个回合 {o^G_i=1}。像 sympy 或 math-verify 这样的自动化检查器被用来为每个回合分配标量奖励 r_i(±1)。CISPO 将 GRPO 的组归一化优势与 REINFORCE 结合起来,达到以下目标。



为什么 PDR 训练时只进行一轮?研究者表示,进行单一的 PDR 回合(包括 M 个早期草稿,蒸馏为 C,以及单次精炼)可以捕捉到关键的接口,同时控制 B_total 并稳定强化学习。在推理时,则可以使用相同的操作符运行多个回合(R > 1)。

本文的数据混合方法在保留长轨迹能力的同时,教会模型在短迭代中进行推理。PDR 被模拟为一次并行→蒸馏→精炼回合,在该过程中,模型观察 (x, C),并对最终解答轨迹进行可验证奖励优化。

实验结果

在预算感知协议下,研究者将顺序精炼(SR)和并行 - 蒸馏 - 精炼(PDR)操作符与长思维链(CoT)基准进行了比较。他们使用符号验证器(如 sympy 和 math-verify) 来测量准确性,还将结果报告为顺序预算 B_seq(沿着接受路径的延迟代理)和总预算 B_total(所有调用的 token 数)的函数。

研究者对 SR 和 PDR 作为推理时操作符应用于数学问题进行了评估。给定一个提示 x,模型生成一个思维轨迹和最终解答。思维跨度由 「...」限定,去除后仅使用自包含的解答作为后续回合输入的构建。他们在 AIME 2024 和 AIME 2025(AoPS,2025)上进行评估,并报告在 16 次独立生成中的准确率 - mean@16。

通过实验,研究者试图回答以下四个研究问题:

  • RQ1:短上下文迭代是否能通过比较 {SR, PDR} 与长轨迹 CoT,在匹配的 B_seq 和 B_total 下超越长轨迹?
  • RQ2:通过比较三种 D 变体:全局摘要、提取性 top-k 和 random-k 自举,找出生成 C^(r) 的最佳蒸馏策略。
  • RQ3:识别给定模型的验证能力对最终性能的影响。
  • RQ4:操作符一致性训练是否能够改变帕累托前沿?他们比较了操作符一致性 + 标准强化学习与标准单轨迹强化学习。

RQ1:短上下文迭代是否在匹配延迟的情况下超越长轨迹?

图 3 和图 9 报告了在相同有效 token 预算 Bseq 下,AIME 2024 和 AIME 2025 上的准确性。研究者观察到,从长思维链(Long CoT)转到顺序精炼(SR)时,准确性稳定提升;从 SR 到并行 - 蒸馏 - 精炼(PDR)时,这一提升继续。

对于 o3-mini,在有效预算为 49k token、每次调用思维预算为 16k token 时,准确性从 76.9(长链推理)提升至 81.5(SR)和 86.7(PDR),相较长思维链,绝对值提升了 +9.8 个百分比。gemini-2.5-flash 从 SR 到 PDR 的变化小于 o3-mini,表明 gemini-2.5-flash 在自我验证方面更强。





RQ2:哪种蒸馏(即摘要)策略效果最佳?

表 2 研究了在固定轮次(每轮生成次数为 g = [16, 8, 4])和每轮 k = 2 个候选的设置下,PDR 中的蒸馏操作符 D。

在不同数据集和基础模型上,样本级的 top-k 和全局摘要选择一致性优于共享 top-k 和 random-k,并且随着思维预算 B 的增加,差距逐渐扩大。

主要的例外是 AIME 2025 与 o3-mini 的情况,其中全局摘要优于其他方法。研究者推测,o3-mini 的摘要特别擅长从正确和错误的草稿中捕捉线索,而这些线索在蒸馏后会促使更强的后续精炼。



RQ3:验证能力如何影响推理时间性能?

从图 6 和图 8 中,研究者观察到注入错误候选(Oracle (Incorrect))会导致所有模型的性能大幅下降。对于 o3-mini,性能下降显著大于 gemini-2.5-flash,这表明后者具有更强的自我验证和恢复能力。这一趋势在 AIME 2024 和 AIME 2025 中都得到了体现。





RQ4:操作符一致性训练是否推动了帕累托前沿的移动?

表 3 总结了主要结果。从每个强化学习(RL)目标得到的模型分别在长思维链(Long CoT)生成和 PDR 上进行了评估。PDR 强化学习相比基准方法在 AIME 2024 上提升了 +3.34 个百分点,在 AIME 2025 上提升了 +1.67 个百分点。

从基准 RL 检查点开始的持续更新,使得额外的 PDR 强化学习带来了更大的提升,分别在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 个百分点。此外,研究者还观察到,在 PDR RL 训练下,长思维链生成也有一定的增益。

这些结果表明,使用操作符一致性的强化学习目标进行训练减少了训练与部署之间的不匹配,将额外的计算转化为准确性,而不会增加每次调用的顺序预算。



更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近一年5.1万家咖啡店倒闭!刚入冬就有大批门店“阵亡”

近一年5.1万家咖啡店倒闭!刚入冬就有大批门店“阵亡”

赢商网新媒体
2025-11-18 21:19:09
黄晓明和杨颖的结婚照,当时真是挺大胆的

黄晓明和杨颖的结婚照,当时真是挺大胆的

可乐谈情感
2025-11-20 01:26:37
全运会最新金牌榜!山东单日狂揽7金拉大差距,浙江41金逼近广东

全运会最新金牌榜!山东单日狂揽7金拉大差距,浙江41金逼近广东

老吴说体育
2025-11-20 00:12:04
广东模特冠军的事,后续更加劲爆!

广东模特冠军的事,后续更加劲爆!

麦杰逊
2025-11-19 15:31:05
赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

翻开历史和现实
2025-11-19 12:51:46
中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

博览历史
2025-11-19 18:36:57
深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

深圳一模特大赛冠军因突破大众审美认知引发争议,有评委发文称“连评分表都没看到”,一联合主办单位回应只赞助了几千块

极目新闻
2025-11-19 10:38:42
天啊!看到林凤娇和10岁房祖名合影,才明白成龙为啥说一见钟情

天啊!看到林凤娇和10岁房祖名合影,才明白成龙为啥说一见钟情

温柔娱公子
2025-11-19 16:50:03
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

我爱英超
2025-11-19 07:10:18
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

火山诗话
2025-11-18 09:14:18
俄罗斯警告高市早苗

俄罗斯警告高市早苗

极目新闻
2025-11-19 17:31:43
销量下滑22%!小米汽车卖不动了,雷军急坏了

销量下滑22%!小米汽车卖不动了,雷军急坏了

明月光
2025-11-19 11:04:17
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

中国公民赴俄将免签,飞莫斯科、圣彼得堡搜索量激增3倍以上

纵相新闻
2025-11-19 15:05:03
“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

“穷就别硬装了!”一家三口吃火锅花了217元,父亲心疼钱被群嘲

妍妍教育日记
2025-11-18 19:53:15
汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

汪峰没想到,女友森林北一张体检结果,让53岁的他里子面子都没了

冷紫葉
2025-11-18 22:35:54
喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

叶公子
2025-11-19 19:04:02
2025-11-20 03:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

艺术
亲子
本地
健康
时尚

艺术要闻

惊呆了!外国画家如何颠覆水浒108将的形象?

亲子要闻

3岁女娃坑爹日常,吸粉超500w:东北人的家庭氛围,究竟有多搞笑?

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

警惕超声报告这六大"坑"

辛芷蕾的炸裂10分钟,让人大受震撼

无障碍浏览 进入关怀版