网易首页 > 网易号 > 正文 申请入驻

又一推理新范式:将LLM自身视作改进操作符,突破长思维链极限

0
分享至



机器之心报道

机器之心编辑部

推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性,但也增加了上下文长度、token / 计算成本和答案延迟。

因此,问题来了:当前的模型能否利用其元认知能力,在这一帕累托前沿上提供其他组合策略,例如在降低上下文长度和 / 或延迟的情况下提高准确性?

带着这一问题,Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作符,实现一系列可能的策略。



  • 论文标题:Rethinking Thinking Tokens: LLMs as Improvement Operators
  • 论文地址:https://arxiv.org/pdf/2510.01123

研究者探究了一种推理方法家族 ——并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR),该方法包含以下步骤:(i) 并行生成多样化草稿;(ii) 将其蒸馏成一个有限的文本工作区;(iii) 在此工作区的基础上进行精炼,生成的输出将作为下一轮的种子。重要的是,通过调整并行度,PDR 能够控制上下文长度(从而控制计算成本),并且上下文长度不再与生成 token 的总数混淆。

根据当前模型在 PDR 实例中的应用,它们在准确性上优于长思维链,同时延迟更低。当将并行度设置为 1 时,得到一个特例 ——顺序精炼(Sequential Refinement, SR)(即迭代改进单一候选答案),其表现优于长思维链(代价是更高的延迟)。

这种模型组织的成功引申了一个问题:进一步的训练是否能够改变帕累托前沿?为此,研究者训练了一个 8B 规模的思考模型,使用强化学习(RL)使其与 PDR 推理方法保持一致。

在具有可验证答案的数学任务中,迭代 pipeline 在匹配的顺序预算下超越了单次推理基准,并且 PDR 方法带来了最大的提升,在 AIME 2024 和 AIME 2025 数学任务中,准确率分别提高了 11% 和 9%。

LLM 作为改进操作符

研究者考虑任务 x(例如数学问题),目标是在给定的 token 预算下生成高质量的最终成果 s_final(解答、证明或程序)。设 M_θ 为一个(可以冻结或训练的)大语言模型(LLM),并作为改进操作符。给定当前的成果 s_t(单次生成或一组生成结果)和紧凑的文本工作区 C_t,模型会提出一个改进方案:



读写压缩循环。每个步骤:(i) 读取当前工作区 C_t,(ii) 通过 M_θ 写出改进后的成果 s_t+1,(iii) 使用综合操作符 D 将成果压缩回一个有限的工作区,为下一个步骤做准备。



token 预算。研究者在以下两个预算下评估每种方法:



操作符实例化

研究者探究了以下两种短上下文的迭代精炼流程。

一是顺序精炼(SR,单一候选的深度改进)。

对于所有 t,设置 C_t ≡ ∅ ,并且迭代改进单一成果进行 R 轮:



顺序精炼与紧凑工作区。在 SR 中,不提供显式的工作区。研究者还评估了一种变体,在每一轮之间插入错误分析步骤:模型不会直接改进之前的答案,而是首先识别并解释当前解答中的缺陷,然后生成修订后的解答。这些笔记在每一轮中充当一个暂时的、局部的工作区。

二是并行 - 蒸馏 - 精炼(PDR,每轮工作区)。

研究者不保持持久的记忆。相反,对于每一轮 r = 1, . . . , R,基于当前的有限摘要采样 M_r 个草稿(并行),然后重新综合(蒸馏)出一个新的有限摘要供下一轮使用:



在最后一轮强制执行单次生成 M_R = 1,此生成结果作为最终解答 s_final 返回。摘要是按轮次生成且非持久的,早期文本不会被重播,防止了每次调用时上下文的增长。

另外,研究者考虑了蒸馏操作符 D 的几种实际实例化方式:

  • 全局摘要
  • 提取性 top-k 证据(共享)
  • random-k / 自举工作区

最后是操作符一致性训练。前文将 M_θ 视为冻结,并纯粹依赖于提示 / 调度。现在,研究者通过在与测试时相同的短上下文迭代接口下优化模型,确保训练与部署 / 推理的一致性。

基础算法。对于基准强化学习(RL),研究者使用来自 Minimax-M1 的 CISPO 目标。对于给定的提示 x,生成器 π(・| θ_old) 使用旧策略 θ_old 生成 G 个回合 {o^G_i=1}。像 sympy 或 math-verify 这样的自动化检查器被用来为每个回合分配标量奖励 r_i(±1)。CISPO 将 GRPO 的组归一化优势与 REINFORCE 结合起来,达到以下目标。



为什么 PDR 训练时只进行一轮?研究者表示,进行单一的 PDR 回合(包括 M 个早期草稿,蒸馏为 C,以及单次精炼)可以捕捉到关键的接口,同时控制 B_total 并稳定强化学习。在推理时,则可以使用相同的操作符运行多个回合(R > 1)。

本文的数据混合方法在保留长轨迹能力的同时,教会模型在短迭代中进行推理。PDR 被模拟为一次并行→蒸馏→精炼回合,在该过程中,模型观察 (x, C),并对最终解答轨迹进行可验证奖励优化。

实验结果

在预算感知协议下,研究者将顺序精炼(SR)和并行 - 蒸馏 - 精炼(PDR)操作符与长思维链(CoT)基准进行了比较。他们使用符号验证器(如 sympy 和 math-verify) 来测量准确性,还将结果报告为顺序预算 B_seq(沿着接受路径的延迟代理)和总预算 B_total(所有调用的 token 数)的函数。

研究者对 SR 和 PDR 作为推理时操作符应用于数学问题进行了评估。给定一个提示 x,模型生成一个思维轨迹和最终解答。思维跨度由 「...」限定,去除后仅使用自包含的解答作为后续回合输入的构建。他们在 AIME 2024 和 AIME 2025(AoPS,2025)上进行评估,并报告在 16 次独立生成中的准确率 - mean@16。

通过实验,研究者试图回答以下四个研究问题:

  • RQ1:短上下文迭代是否能通过比较 {SR, PDR} 与长轨迹 CoT,在匹配的 B_seq 和 B_total 下超越长轨迹?
  • RQ2:通过比较三种 D 变体:全局摘要、提取性 top-k 和 random-k 自举,找出生成 C^(r) 的最佳蒸馏策略。
  • RQ3:识别给定模型的验证能力对最终性能的影响。
  • RQ4:操作符一致性训练是否能够改变帕累托前沿?他们比较了操作符一致性 + 标准强化学习与标准单轨迹强化学习。

RQ1:短上下文迭代是否在匹配延迟的情况下超越长轨迹?

图 3 和图 9 报告了在相同有效 token 预算 Bseq 下,AIME 2024 和 AIME 2025 上的准确性。研究者观察到,从长思维链(Long CoT)转到顺序精炼(SR)时,准确性稳定提升;从 SR 到并行 - 蒸馏 - 精炼(PDR)时,这一提升继续。

对于 o3-mini,在有效预算为 49k token、每次调用思维预算为 16k token 时,准确性从 76.9(长链推理)提升至 81.5(SR)和 86.7(PDR),相较长思维链,绝对值提升了 +9.8 个百分比。gemini-2.5-flash 从 SR 到 PDR 的变化小于 o3-mini,表明 gemini-2.5-flash 在自我验证方面更强。





RQ2:哪种蒸馏(即摘要)策略效果最佳?

表 2 研究了在固定轮次(每轮生成次数为 g = [16, 8, 4])和每轮 k = 2 个候选的设置下,PDR 中的蒸馏操作符 D。

在不同数据集和基础模型上,样本级的 top-k 和全局摘要选择一致性优于共享 top-k 和 random-k,并且随着思维预算 B 的增加,差距逐渐扩大。

主要的例外是 AIME 2025 与 o3-mini 的情况,其中全局摘要优于其他方法。研究者推测,o3-mini 的摘要特别擅长从正确和错误的草稿中捕捉线索,而这些线索在蒸馏后会促使更强的后续精炼。



RQ3:验证能力如何影响推理时间性能?

从图 6 和图 8 中,研究者观察到注入错误候选(Oracle (Incorrect))会导致所有模型的性能大幅下降。对于 o3-mini,性能下降显著大于 gemini-2.5-flash,这表明后者具有更强的自我验证和恢复能力。这一趋势在 AIME 2024 和 AIME 2025 中都得到了体现。





RQ4:操作符一致性训练是否推动了帕累托前沿的移动?

表 3 总结了主要结果。从每个强化学习(RL)目标得到的模型分别在长思维链(Long CoT)生成和 PDR 上进行了评估。PDR 强化学习相比基准方法在 AIME 2024 上提升了 +3.34 个百分点,在 AIME 2025 上提升了 +1.67 个百分点。

从基准 RL 检查点开始的持续更新,使得额外的 PDR 强化学习带来了更大的提升,分别在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 个百分点。此外,研究者还观察到,在 PDR RL 训练下,长思维链生成也有一定的增益。

这些结果表明,使用操作符一致性的强化学习目标进行训练减少了训练与部署之间的不匹配,将额外的计算转化为准确性,而不会增加每次调用的顺序预算。



更多技术细节和实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国政坛惊现“窝里反”:共和党大佬集体护驾,力保鲍威尔!

美国政坛惊现“窝里反”:共和党大佬集体护驾,力保鲍威尔!

兴史兴谈
2026-01-15 10:21:17
离婚才3个月,高调谈论再婚的李亚鹏,没给海哈金喜留一丝体面

离婚才3个月,高调谈论再婚的李亚鹏,没给海哈金喜留一丝体面

人间无味啊
2026-01-14 00:15:59
佐香园硬刚!代言费吐出来,还得赔千万

佐香园硬刚!代言费吐出来,还得赔千万

TVB的四小花
2026-01-15 01:41:35
成龙砸4000万认回女儿,房祖名悄悄帮忙,女儿吴卓林的话最清醒

成龙砸4000万认回女儿,房祖名悄悄帮忙,女儿吴卓林的话最清醒

广西阿妹香香
2026-01-13 18:53:48
江苏多地党政“一把手”调整就位

江苏多地党政“一把手”调整就位

新浪财经
2026-01-14 14:37:40
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
5人滚蛋!4人稳进!1人悬了!男篮世预赛名单大洗牌,郭士强这次躲不开

5人滚蛋!4人稳进!1人悬了!男篮世预赛名单大洗牌,郭士强这次躲不开

舟望停云
2026-01-15 09:26:50
韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

干史人
2024-11-25 19:30:03
《康熙来了》完结10年! 蔡康永自爆:大部分集数都没看过

《康熙来了》完结10年! 蔡康永自爆:大部分集数都没看过

ETtoday星光云
2026-01-15 10:18:08
科技巨头沦为内存乞丐 跪求三星SK海力士卖点内存

科技巨头沦为内存乞丐 跪求三星SK海力士卖点内存

3DM游戏
2026-01-12 17:59:44
胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

胰腺癌去世的人越来越多!专家:牢记饭后4不做,饭前3不吃

岐黄传人孙大夫
2025-12-20 11:45:03
他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

他从朝鲜载誉归却无职务,授衔获任海南军区司令,当场怀疑听错任命

磊子讲史
2026-01-14 14:24:39
为什么不能去干涉别人的因果?网友:我30多了才明白这个道理

为什么不能去干涉别人的因果?网友:我30多了才明白这个道理

带你感受人间冷暖
2026-01-11 00:05:11
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
老婆被外派非洲6年,直到偶遇她上司,我才得知:她4年前就离职了

老婆被外派非洲6年,直到偶遇她上司,我才得知:她4年前就离职了

清茶浅谈
2026-01-13 16:52:36
民进党当局妄称大陆对台湾无管辖权,国台办回应

民进党当局妄称大陆对台湾无管辖权,国台办回应

澎湃新闻
2026-01-14 10:40:26
林良锋:卡里克看守进欧冠?曼联春秋大梦还不醒!

林良锋:卡里克看守进欧冠?曼联春秋大梦还不醒!

体坛周报
2026-01-14 21:49:13
慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

慈禧人生最后一天:上午处理光绪的后事,下午删改遗诏穿上了寿衣

铭记历史呀
2026-01-12 15:12:59
医生建议:过了70的老人,宁可牙齿缺失,也别在这几种状态去镶牙

医生建议:过了70的老人,宁可牙齿缺失,也别在这几种状态去镶牙

岐黄传人孙大夫
2026-01-04 09:54:44
“棋圣”聂卫平去世:大战日本棋手,暴打领导儿子,一顿酒喝丢上千万!

“棋圣”聂卫平去世:大战日本棋手,暴打领导儿子,一顿酒喝丢上千万!

年代回忆
2026-01-15 09:43:16
2026-01-15 11:52:50
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12118文章数 142536关注度
往期回顾 全部

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

头条要闻

美国开售委内瑞拉石油 首笔交易价值5亿美元

头条要闻

美国开售委内瑞拉石油 首笔交易价值5亿美元

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

时尚
亲子
房产
艺术
军事航空

最时髦的单品,难道不是背肌吗?

亲子要闻

2026热门液体钙,液体钙哪个牌子效果好?D3+K2引钙入骨更科学

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

艺术要闻

历代书家集字春联大集合

军事要闻

中东气氛愈发紧张 伊朗处于最高战备状态

无障碍浏览 进入关怀版