网易首页 > 网易号 > 正文 申请入驻

又一推理新范式:将LLM自身视作改进操作符,突破长思维链极限

0
分享至



机器之心报道

机器之心编辑部

推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性,但也增加了上下文长度、token / 计算成本和答案延迟。

因此,问题来了:当前的模型能否利用其元认知能力,在这一帕累托前沿上提供其他组合策略,例如在降低上下文长度和 / 或延迟的情况下提高准确性?

带着这一问题,Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作符,实现一系列可能的策略。



  • 论文标题:Rethinking Thinking Tokens: LLMs as Improvement Operators
  • 论文地址:https://arxiv.org/pdf/2510.01123

研究者探究了一种推理方法家族 ——并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR),该方法包含以下步骤:(i) 并行生成多样化草稿;(ii) 将其蒸馏成一个有限的文本工作区;(iii) 在此工作区的基础上进行精炼,生成的输出将作为下一轮的种子。重要的是,通过调整并行度,PDR 能够控制上下文长度(从而控制计算成本),并且上下文长度不再与生成 token 的总数混淆。

根据当前模型在 PDR 实例中的应用,它们在准确性上优于长思维链,同时延迟更低。当将并行度设置为 1 时,得到一个特例 ——顺序精炼(Sequential Refinement, SR)(即迭代改进单一候选答案),其表现优于长思维链(代价是更高的延迟)。

这种模型组织的成功引申了一个问题:进一步的训练是否能够改变帕累托前沿?为此,研究者训练了一个 8B 规模的思考模型,使用强化学习(RL)使其与 PDR 推理方法保持一致。

在具有可验证答案的数学任务中,迭代 pipeline 在匹配的顺序预算下超越了单次推理基准,并且 PDR 方法带来了最大的提升,在 AIME 2024 和 AIME 2025 数学任务中,准确率分别提高了 11% 和 9%。

LLM 作为改进操作符

研究者考虑任务 x(例如数学问题),目标是在给定的 token 预算下生成高质量的最终成果 s_final(解答、证明或程序)。设 M_θ 为一个(可以冻结或训练的)大语言模型(LLM),并作为改进操作符。给定当前的成果 s_t(单次生成或一组生成结果)和紧凑的文本工作区 C_t,模型会提出一个改进方案:



读写压缩循环。每个步骤:(i) 读取当前工作区 C_t,(ii) 通过 M_θ 写出改进后的成果 s_t+1,(iii) 使用综合操作符 D 将成果压缩回一个有限的工作区,为下一个步骤做准备。



token 预算。研究者在以下两个预算下评估每种方法:



操作符实例化

研究者探究了以下两种短上下文的迭代精炼流程。

一是顺序精炼(SR,单一候选的深度改进)。

对于所有 t,设置 C_t ≡ ∅ ,并且迭代改进单一成果进行 R 轮:



顺序精炼与紧凑工作区。在 SR 中,不提供显式的工作区。研究者还评估了一种变体,在每一轮之间插入错误分析步骤:模型不会直接改进之前的答案,而是首先识别并解释当前解答中的缺陷,然后生成修订后的解答。这些笔记在每一轮中充当一个暂时的、局部的工作区。

二是并行 - 蒸馏 - 精炼(PDR,每轮工作区)。

研究者不保持持久的记忆。相反,对于每一轮 r = 1, . . . , R,基于当前的有限摘要采样 M_r 个草稿(并行),然后重新综合(蒸馏)出一个新的有限摘要供下一轮使用:



在最后一轮强制执行单次生成 M_R = 1,此生成结果作为最终解答 s_final 返回。摘要是按轮次生成且非持久的,早期文本不会被重播,防止了每次调用时上下文的增长。

另外,研究者考虑了蒸馏操作符 D 的几种实际实例化方式:

  • 全局摘要
  • 提取性 top-k 证据(共享)
  • random-k / 自举工作区

最后是操作符一致性训练。前文将 M_θ 视为冻结,并纯粹依赖于提示 / 调度。现在,研究者通过在与测试时相同的短上下文迭代接口下优化模型,确保训练与部署 / 推理的一致性。

基础算法。对于基准强化学习(RL),研究者使用来自 Minimax-M1 的 CISPO 目标。对于给定的提示 x,生成器 π(・| θ_old) 使用旧策略 θ_old 生成 G 个回合 {o^G_i=1}。像 sympy 或 math-verify 这样的自动化检查器被用来为每个回合分配标量奖励 r_i(±1)。CISPO 将 GRPO 的组归一化优势与 REINFORCE 结合起来,达到以下目标。



为什么 PDR 训练时只进行一轮?研究者表示,进行单一的 PDR 回合(包括 M 个早期草稿,蒸馏为 C,以及单次精炼)可以捕捉到关键的接口,同时控制 B_total 并稳定强化学习。在推理时,则可以使用相同的操作符运行多个回合(R > 1)。

本文的数据混合方法在保留长轨迹能力的同时,教会模型在短迭代中进行推理。PDR 被模拟为一次并行→蒸馏→精炼回合,在该过程中,模型观察 (x, C),并对最终解答轨迹进行可验证奖励优化。

实验结果

在预算感知协议下,研究者将顺序精炼(SR)和并行 - 蒸馏 - 精炼(PDR)操作符与长思维链(CoT)基准进行了比较。他们使用符号验证器(如 sympy 和 math-verify) 来测量准确性,还将结果报告为顺序预算 B_seq(沿着接受路径的延迟代理)和总预算 B_total(所有调用的 token 数)的函数。

研究者对 SR 和 PDR 作为推理时操作符应用于数学问题进行了评估。给定一个提示 x,模型生成一个思维轨迹和最终解答。思维跨度由 「...」限定,去除后仅使用自包含的解答作为后续回合输入的构建。他们在 AIME 2024 和 AIME 2025(AoPS,2025)上进行评估,并报告在 16 次独立生成中的准确率 - mean@16。

通过实验,研究者试图回答以下四个研究问题:

  • RQ1:短上下文迭代是否能通过比较 {SR, PDR} 与长轨迹 CoT,在匹配的 B_seq 和 B_total 下超越长轨迹?
  • RQ2:通过比较三种 D 变体:全局摘要、提取性 top-k 和 random-k 自举,找出生成 C^(r) 的最佳蒸馏策略。
  • RQ3:识别给定模型的验证能力对最终性能的影响。
  • RQ4:操作符一致性训练是否能够改变帕累托前沿?他们比较了操作符一致性 + 标准强化学习与标准单轨迹强化学习。

RQ1:短上下文迭代是否在匹配延迟的情况下超越长轨迹?

图 3 和图 9 报告了在相同有效 token 预算 Bseq 下,AIME 2024 和 AIME 2025 上的准确性。研究者观察到,从长思维链(Long CoT)转到顺序精炼(SR)时,准确性稳定提升;从 SR 到并行 - 蒸馏 - 精炼(PDR)时,这一提升继续。

对于 o3-mini,在有效预算为 49k token、每次调用思维预算为 16k token 时,准确性从 76.9(长链推理)提升至 81.5(SR)和 86.7(PDR),相较长思维链,绝对值提升了 +9.8 个百分比。gemini-2.5-flash 从 SR 到 PDR 的变化小于 o3-mini,表明 gemini-2.5-flash 在自我验证方面更强。





RQ2:哪种蒸馏(即摘要)策略效果最佳?

表 2 研究了在固定轮次(每轮生成次数为 g = [16, 8, 4])和每轮 k = 2 个候选的设置下,PDR 中的蒸馏操作符 D。

在不同数据集和基础模型上,样本级的 top-k 和全局摘要选择一致性优于共享 top-k 和 random-k,并且随着思维预算 B 的增加,差距逐渐扩大。

主要的例外是 AIME 2025 与 o3-mini 的情况,其中全局摘要优于其他方法。研究者推测,o3-mini 的摘要特别擅长从正确和错误的草稿中捕捉线索,而这些线索在蒸馏后会促使更强的后续精炼。



RQ3:验证能力如何影响推理时间性能?

从图 6 和图 8 中,研究者观察到注入错误候选(Oracle (Incorrect))会导致所有模型的性能大幅下降。对于 o3-mini,性能下降显著大于 gemini-2.5-flash,这表明后者具有更强的自我验证和恢复能力。这一趋势在 AIME 2024 和 AIME 2025 中都得到了体现。





RQ4:操作符一致性训练是否推动了帕累托前沿的移动?

表 3 总结了主要结果。从每个强化学习(RL)目标得到的模型分别在长思维链(Long CoT)生成和 PDR 上进行了评估。PDR 强化学习相比基准方法在 AIME 2024 上提升了 +3.34 个百分点,在 AIME 2025 上提升了 +1.67 个百分点。

从基准 RL 检查点开始的持续更新,使得额外的 PDR 强化学习带来了更大的提升,分别在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 个百分点。此外,研究者还观察到,在 PDR RL 训练下,长思维链生成也有一定的增益。

这些结果表明,使用操作符一致性的强化学习目标进行训练减少了训练与部署之间的不匹配,将额外的计算转化为准确性,而不会增加每次调用的顺序预算。



更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

他是CBA现役最老球员,打了20年拿5冠,身家过亿,已为退役铺路

以茶带书
2026-03-25 16:35:52
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

五种香烟已被列入“黑名单”,或许有你喜欢的,不妨对照自查

健康之光
2026-03-25 21:20:05
马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

马斯克放话:比MPV更酷的新车要来了,特斯拉却只剩3款车在卖

我是一个养虾人
2026-03-25 23:32:20
课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

课本为何没讲“田忌赛马”后续?愚蠢的胜利,让他几年后自食其果

谈史论天地
2026-03-24 15:45:06
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
3月26日俄乌最新:靴子终于落地了

3月26日俄乌最新:靴子终于落地了

西楼饮月
2026-03-26 19:48:54
天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

天妒英才!西北工业大学严红教授离世,同门发声,透露患病情况

凯旋学长
2026-03-26 14:50:48
樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

樊振东复出迎关键机遇!王励勤已无退路,传闻回归条件已正式生效

阅微札记
2026-03-26 20:24:44
克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

克罗斯“吐槽”皇马:刚拿欧冠老佛爷就催明年?这豪门真不好混!

仰卧撑FTUer
2026-03-26 22:58:07
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
近半年来,多家工厂密集发布停工放假通知!

近半年来,多家工厂密集发布停工放假通知!

黯泉
2026-03-26 18:48:20
中东突发!刚刚,直线拉升

中东突发!刚刚,直线拉升

中国基金报
2026-03-26 12:35:21
稀土贸易战:WTO判中国输,美西方终成输家

稀土贸易战:WTO判中国输,美西方终成输家

遁走的两轮
2026-03-15 03:13:32
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

精致男孩!戴昊谈做美甲:我主动给教练看 他也挺喜欢表达了尊重

狼叔评论
2026-03-26 17:50:05
2026-03-26 23:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
教育
旅游
艺术
军事航空

50万销量达成!这款IGN 9分独游走红 官方发推庆贺

教育要闻

骂人没有杀伤力?那不是白忙活吗?

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

艺术要闻

哪一座桥不是风景?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版