网易首页 > 网易号 > 正文 申请入驻

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

0
分享至



大语言模型通过 CoT 已具备强大的数学推理能力,而 Beam Search、DVTS 等测试时扩展(Test-Time Scaling, TTS)方法可通过分配额外计算资源进一步提升准确性。然而,现有方法存在两大关键缺陷:路径同质化(推理路径趋同)和中间结果利用不足(大量高质量推理分支被丢弃)。

为解决这些问题,华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析(SRCA)框架 —— 在推理步骤间引入 “检查点”,并集成两大核心策略:(1)答案聚类搜索(Answer-Clustered Search):根据中间检查点答案对推理路径进行分组,在保证质量的同时维持路径多样性;(2)检查点候选增强(Checkpoint Candidate Augmentation):利用所有中间答案辅助最终决策。

实验结果表明,在多个数学数据集上,如 MATH500 和 OlympiadBench,SRCA 相较于现有 TTS 方法,推理准确性均有提升。该论文已被 EMNLP 2025 接收。



  • 论文题目:Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning
  • 论文链接:https://arxiv.org/abs/2505.17829

Test Time Scaling(TTS)技术简单来说就是在模型测试阶段 "砸资源":不改变模型本身,而是通过增加推理时的计算开销,让 LLM 在解题时 "多想一会儿",从而显著提升推理准确性。除了常见的长思维链,比如 DeepSeek R1 典型的 think 模式,多次采样并有策略的搜索正确解题路径也是一种常见的 TTS 策略。

我们常用的多数投票 / 自我一致性(Self-Consistency)可以视为是最朴素的 TTS 技术。比如让模型对一道数学题生成 10 个推理过程,最后选出现次数最多的答案。这种看似简单的方法,却能显著提升模型推理的准确率 —— 代价是多花几倍计算时间。

随着任务难度提升,这种暴力提升采样次数的做法效率越来越低。于是研究者们引入了额外的打分模型,比如一个过程奖励模型(PRM),从而开发了更先进的 TTS 算法。



  • Beam Search:(左图)每次采样得到的路径由 PRM 打分,保留得分最高的 k 条推理路径继续深入,避免在错误方向浪费资源;
  • DVTS(Diverse Verifier Tree Search):(右图)同时维护多个独立的推理树,每棵树向下探索 PRM 打分最高的路径。强迫模型探索不同解题思路,减少 "一条道走到黑" 的风险。

不过这类方法仍然存在两个问题。

两大痛点

  • 思路太单一:明明生成了多条推理路径,最终却都往一个方向扎堆(路径同质化)。这是由 PRM 的局限性带来的:并不完美的 PRM 打分具有隐式的偏好,选出的路径往往具有一定的共性。这有时会导致一些思路不同但并未出错的解题路径打分略低未能被继续探索。
  • 中间结果浪费:推理过程中产生的大量中间过程被直接丢弃。以 Beam Search 为例,假设采样次数为 16,束宽为 4,则采样中 75% 的步骤将被直接丢弃。这其中不乏一些优质的正确的解题思路,但是这些中间过程并未有效贡献到最终答案的决策中。

我们的解法:给推理过程 "设检查点"

针对这些问题,我们提出了 SRCA(Stepwise Reasoning Checkpoint Analysis) 框架,该框架包含三个关键组件:

  • 检查点注入:强制模型在每一步推理后暂停并输出阶段性答案。
  • 答案聚类搜索:把检查点答案一样的推理路径归为一组,并从每组内选择路径继续推理。
  • 检查点候选增强:收集所有检查点答案加入到最终答案的选择。

下面是每个组件的具体介绍。

检查点注入(Checkpoint Injection):打断推理并预测答案



检查点注入是 SRCA 的基础技术,后续的 ACS 和 CCA 算法全部依赖于检查点注入收集到的中间答案,核心思路是强制模型在每一步推理后暂停并输出阶段性答案。早期的工作中亦有类似的探索,chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同样是利用暂停推理收集答案的思路观测模型推理时置信度 (confidence) 的变化以判断模型推理是否准确。而检查点注入则更关注模型阶段性推理的答案本身,具体流程如下:

  1. 检测步骤结束符(如 "### Step"):当检测到此类字段时,说明 LLM 的上一步推理已经结束,可以进行答案检查。
  2. 插入提示 "So the answer is":我们通过插入后缀强行改变上下文,模型沿着新的上下文继续解码,输出它所认为的答案。
  3. 记录检查点答案:该答案是我们后续改进搜索策略和投票的重要依据。

通过这样的方式,我们可以收集到模型基于当前推理步骤得出的答案。这种 “中间答案” 尽管并不完整和精确,但它们在一定程度上可以代表模型在当前的思考过程,比如两条推理路径得出的中间答案是一样的,我们则可以认为这两条推理路径目前解题的思路和进度是类似的。收集到中间答案后,通过合理的 KV Cache 管理,我们可以将推理状态回滚到上一步推理结束的时刻,从而避免反复推理降低计算开销。

答案聚类搜索(ACS):防止 “思路扎堆”,鼓励不同解法



基于检查点答案,我们重新设计了路径搜索策略,提出了 Answer Clustering Search 算法。传统方法(如 Beam Search)虽然让模型尝试多条路,但 PRM 打高分的路径往往类似,这就容易提前扼杀搜索路径的多样性,导致最终错过可能的正确答案。

针对路径同质化问题,ACS 在检查点执行双层筛选机制:

  • 组内择优:将同中间答案的路径归组,按组内 PRM 总分排序
  • 组间竞争:采用轮询调度(Round-Robin),按总分顺序从每组抽取最优路径

这样保证了不同解题方向(不同组)都有机会保留至少一条 “种子选手” 继续发展。即使某一种方法(组)目前分数不是最高,只要它整体有潜力,它最好的那条路也有机会被选上。这就大大增加了解题思路的多样性,避免大家一窝蜂挤到一条(可能错的)思路上。

检查点候选增强(CCA):抢救 “半成品好答案”,变废为宝



在传统树搜索(如 Beam Search / DVTS)中,只有那些最终走完全程的路径才有资格参与最终答案的评选。大量未完成的中间推理步骤被直接丢弃。CCA 通过收集复用这些未完成路径的检查点答案提升模型推理的准确性:

  1. 在每一步推理之后,记录收集所有的检查点答案。
  2. 即使一条路没走完,它在某个步骤得出的那个中间答案,也可能是最终答案。所以 CCA 会把每个中间答案连同它走到这一步的推理过程,都打包成一个独立的候选答案。这就像把那些半成品抢救出来。
  3. 当所有路径都推理结束后(无论是走完还是被淘汰),最终的答案评选不再是只看那几条 “完整” 路径的最终答案。CCA 会把所有收集到的这些 “半成品答案” 和完整路径的最终答案,全部放在一起,根据 PRM 的打分选择最高者。

这样极大减少了 “好答案被中途埋没” 的情况。即使模型后面推理跑偏了,只要它在某个步骤 “灵光一现” 得出了正确结果,CCA 就能把它捞回来,给模型一个 “后悔药”。这大大提高了计算资源的利用率。下面是一个具体的示例:



如图所示,模型推理完成得到的答案是 9,而正确答案是 27。但回顾推理过程中的检查点答案可以发现,模型在第 4 和第 5 步已经得出了 27 这个答案,而错误出在第 6 步 ——9 是一个完全平方数而不是平方立方数。而 CCA 记录收集了所有检查点答案,并综合考虑所有候选答案选出最终结果。可以看到第 5 步的检查点答案得到了最高分 0.7192,该答案被 CCA 恢复并修正了错误答案。

实验结果

TL;DR:

  • SRCA 框架加持的 1B 小模型在 MATH500 数据集上达到 65.2% 准确率,首次超越参量 70 倍的 70B 大模型(65.0%)
  • 通过答案聚类搜索(ACS)优化路径多样性,SRCA 仅需 16 次采样即可达到其他 TTS 方法 128 次采样的精度。在同等硬件条件下,推理效率提升达 8 倍,从而降低计算成本。
  • 检查点候选增强(CCA)策略成功从中间步骤拯救 19.07% 的正确答案。这些答案诞生于推理中途,却因后续路径偏差被丢弃。CCA 通过复用高质量中间结果,构建了强大的错误容忍机制。
  • 设置合理阈值,当候选池中出现超过阈值的检查点答案即停止推理输出答案,平均可节省 27% 的推理步骤,推理准确率轻微下降 0.58%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
恭喜!中国美女高尔夫球手官宣订婚,未婚夫为泰国著名F1车手

恭喜!中国美女高尔夫球手官宣订婚,未婚夫为泰国著名F1车手

全景体育V
2026-01-17 07:48:47
中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

中方反制开始!2号公告将断日本光刻胶后路,日媒慌了:我们愿意卖

白梦日记
2026-01-17 19:08:33
韩媒:曹薰铉将参加聂卫平葬礼 首届应氏杯成中韩围棋发展分水岭

韩媒:曹薰铉将参加聂卫平葬礼 首届应氏杯成中韩围棋发展分水岭

劲爆体坛
2026-01-17 09:42:44
南部战区发声:完全正当合法!

南部战区发声:完全正当合法!

占豪
2026-01-17 23:42:23
王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

百态人间
2026-01-16 16:02:25
超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

午夜故事会
2024-07-08 10:57:49
不要再为贺红梅感到惋惜了,55岁升任高官的她,早已走上另一条路

不要再为贺红梅感到惋惜了,55岁升任高官的她,早已走上另一条路

银河史记
2026-01-17 12:45:21
毛泽东认为新中国成立后犯下“最大历史错误”,是没一举解放台湾

毛泽东认为新中国成立后犯下“最大历史错误”,是没一举解放台湾

百态人间
2026-01-18 05:30:04
一男子相信要打仗,42万买俄罗斯坦克,被骗后评论区彻底炸锅!

一男子相信要打仗,42万买俄罗斯坦克,被骗后评论区彻底炸锅!

你食不食油饼
2026-01-18 00:03:16
中国男性和非洲男性有什么区别?非洲女生真敢说,听完你就知道了

中国男性和非洲男性有什么区别?非洲女生真敢说,听完你就知道了

千秋文化
2026-01-17 21:18:25
韩国体操女神孙妍在炫富遭批 住3800万豪宅开豪车逛街喝94元沙冰

韩国体操女神孙妍在炫富遭批 住3800万豪宅开豪车逛街喝94元沙冰

劲爆体坛
2026-01-17 17:03:37
马年春晚首次联排场外细节!张小婉侧身躲镜头,丁禹兮匆匆插兜走

马年春晚首次联排场外细节!张小婉侧身躲镜头,丁禹兮匆匆插兜走

萌神木木
2026-01-17 18:21:29
国防部终于说出了全国人民最想听的那句硬气话!

国防部终于说出了全国人民最想听的那句硬气话!

达文西看世界
2026-01-17 19:12:48
李湘多个平台账号被禁止关注

李湘多个平台账号被禁止关注

界面新闻
2026-01-16 10:56:48
多地“刨猪宴”临时取消!年味狂欢要热情更要理性

多地“刨猪宴”临时取消!年味狂欢要热情更要理性

极目新闻
2026-01-17 11:17:02
中国将迎人口死亡高峰!22年1041万,23年1100万,去年死亡多少?

中国将迎人口死亡高峰!22年1041万,23年1100万,去年死亡多少?

长歌侃娱
2026-01-16 07:55:03
李昊:扑出点球前我告诉对方我知道他要往哪踢,他不信

李昊:扑出点球前我告诉对方我知道他要往哪踢,他不信

懂球帝
2026-01-18 00:00:43
查了贺娇龙的背景有大发现,人民日报下场证实,她走了父母的老路

查了贺娇龙的背景有大发现,人民日报下场证实,她走了父母的老路

阿纂看事
2026-01-16 13:50:01
多款儿童面霜被曝检出激素、兽药成分

多款儿童面霜被曝检出激素、兽药成分

新快报新闻
2026-01-17 15:27:05
豪门悲喜夜:曼联2-0曼城,皇马2-0,国米1-0,切尔西2-0,利物浦1-1

豪门悲喜夜:曼联2-0曼城,皇马2-0,国米1-0,切尔西2-0,利物浦1-1

侧身凌空斩
2026-01-18 02:29:13
2026-01-18 08:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

头条要闻

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

房产
教育
游戏
亲子
公开课

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

教育要闻

函数建模解几何难题,不容易想到!

这下好了,英伦侦探风也给老钟玩懂了"/> 主站 商城 论坛 自运营 登录 注册 这下好了,英伦侦探风也给老钟玩懂了 廉颇 2026-01-17 返回专栏...

亲子要闻

都不容易啊,有的人在生孩子的前一刻还在干工作,这也太厉害了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版