网易首页 > 网易号 > 正文 申请入驻

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

0
分享至

大语言模型通过 CoT 已具备强大的数学推理能力,而 Beam Search、DVTS 等测试时扩展(Test-Time Scaling, TTS)方法可通过分配额外计算资源进一步提升准确性。然而,现有方法存在两大关键缺陷:路径同质化(推理路径趋同)和中间结果利用不足(大量高质量推理分支被丢弃)。

为解决这些问题,华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析(SRCA)框架 —— 在推理步骤间引入 “检查点”,并集成两大核心策略:(1)答案聚类搜索(Answer-Clustered Search):根据中间检查点答案对推理路径进行分组,在保证质量的同时维持路径多样性;(2)检查点候选增强(Checkpoint Candidate Augmentation):利用所有中间答案辅助最终决策。

实验结果表明,在多个数学数据集上,如 MATH500 和 OlympiadBench,SRCA 相较于现有 TTS 方法,推理准确性均有提升。该论文已被 EMNLP 2025 接收。

  • 论文题目:Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning
  • 论文链接:https://arxiv.org/abs/2505.17829

Test Time Scaling(TTS)技术简单来说就是在模型测试阶段 "砸资源":不改变模型本身,而是通过增加推理时的计算开销,让 LLM 在解题时 "多想一会儿",从而显著提升推理准确性。除了常见的长思维链,比如 DeepSeek R1 典型的 think 模式,多次采样并有策略的搜索正确解题路径也是一种常见的 TTS 策略。

我们常用的多数投票 / 自我一致性(Self-Consistency)可以视为是最朴素的 TTS 技术。比如让模型对一道数学题生成 10 个推理过程,最后选出现次数最多的答案。这种看似简单的方法,却能显著提升模型推理的准确率 —— 代价是多花几倍计算时间。

随着任务难度提升,这种暴力提升采样次数的做法效率越来越低。于是研究者们引入了额外的打分模型,比如一个过程奖励模型(PRM),从而开发了更先进的 TTS 算法。

  • Beam Search:(左图)每次采样得到的路径由 PRM 打分,保留得分最高的 k 条推理路径继续深入,避免在错误方向浪费资源;
  • DVTS(Diverse Verifier Tree Search):(右图)同时维护多个独立的推理树,每棵树向下探索 PRM 打分最高的路径。强迫模型探索不同解题思路,减少 "一条道走到黑" 的风险。

不过这类方法仍然存在两个问题。

两大痛点

  • 思路太单一:明明生成了多条推理路径,最终却都往一个方向扎堆(路径同质化)。这是由 PRM 的局限性带来的:并不完美的 PRM 打分具有隐式的偏好,选出的路径往往具有一定的共性。这有时会导致一些思路不同但并未出错的解题路径打分略低未能被继续探索。
  • 中间结果浪费:推理过程中产生的大量中间过程被直接丢弃。以 Beam Search 为例,假设采样次数为 16,束宽为 4,则采样中 75% 的步骤将被直接丢弃。这其中不乏一些优质的正确的解题思路,但是这些中间过程并未有效贡献到最终答案的决策中。

我们的解法:给推理过程 "设检查点"

针对这些问题,我们提出了 SRCA(Stepwise Reasoning Checkpoint Analysis) 框架,该框架包含三个关键组件:

  • 检查点注入:强制模型在每一步推理后暂停并输出阶段性答案。
  • 答案聚类搜索:把检查点答案一样的推理路径归为一组,并从每组内选择路径继续推理。
  • 检查点候选增强:收集所有检查点答案加入到最终答案的选择。

下面是每个组件的具体介绍。

检查点注入(Checkpoint Injection):打断推理并预测答案

检查点注入是 SRCA 的基础技术,后续的 ACS 和 CCA 算法全部依赖于检查点注入收集到的中间答案,核心思路是强制模型在每一步推理后暂停并输出阶段性答案。早期的工作中亦有类似的探索,chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同样是利用暂停推理收集答案的思路观测模型推理时置信度 (confidence) 的变化以判断模型推理是否准确。而检查点注入则更关注模型阶段性推理的答案本身,具体流程如下:

  1. 检测步骤结束符(如 "### Step"):当检测到此类字段时,说明 LLM 的上一步推理已经结束,可以进行答案检查。
  2. 插入提示 "So the answer is":我们通过插入后缀强行改变上下文,模型沿着新的上下文继续解码,输出它所认为的答案。
  3. 记录检查点答案:该答案是我们后续改进搜索策略和投票的重要依据。

通过这样的方式,我们可以收集到模型基于当前推理步骤得出的答案。这种 “中间答案” 尽管并不完整和精确,但它们在一定程度上可以代表模型在当前的思考过程,比如两条推理路径得出的中间答案是一样的,我们则可以认为这两条推理路径目前解题的思路和进度是类似的。收集到中间答案后,通过合理的 KV Cache 管理,我们可以将推理状态回滚到上一步推理结束的时刻,从而避免反复推理降低计算开销。

答案聚类搜索(ACS):防止 “思路扎堆”,鼓励不同解法

基于检查点答案,我们重新设计了路径搜索策略,提出了 Answer Clustering Search 算法。传统方法(如 Beam Search)虽然让模型尝试多条路,但 PRM 打高分的路径往往类似,这就容易提前扼杀搜索路径的多样性,导致最终错过可能的正确答案。

针对路径同质化问题,ACS 在检查点执行双层筛选机制:

  • 组内择优:将同中间答案的路径归组,按组内 PRM 总分排序
  • 组间竞争:采用轮询调度(Round-Robin),按总分顺序从每组抽取最优路径

这样保证了不同解题方向(不同组)都有机会保留至少一条 “种子选手” 继续发展。即使某一种方法(组)目前分数不是最高,只要它整体有潜力,它最好的那条路也有机会被选上。这就大大增加了解题思路的多样性,避免大家一窝蜂挤到一条(可能错的)思路上。

检查点候选增强(CCA):抢救 “半成品好答案”,变废为宝

在传统树搜索(如 Beam Search / DVTS)中,只有那些最终走完全程的路径才有资格参与最终答案的评选。大量未完成的中间推理步骤被直接丢弃。CCA 通过收集复用这些未完成路径的检查点答案提升模型推理的准确性:

  1. 在每一步推理之后,记录收集所有的检查点答案。
  2. 即使一条路没走完,它在某个步骤得出的那个中间答案,也可能是最终答案。所以 CCA 会把每个中间答案连同它走到这一步的推理过程,都打包成一个独立的候选答案。这就像把那些半成品抢救出来。
  3. 当所有路径都推理结束后(无论是走完还是被淘汰),最终的答案评选不再是只看那几条 “完整” 路径的最终答案。CCA 会把所有收集到的这些 “半成品答案” 和完整路径的最终答案,全部放在一起,根据 PRM 的打分选择最高者。

这样极大减少了 “好答案被中途埋没” 的情况。即使模型后面推理跑偏了,只要它在某个步骤 “灵光一现” 得出了正确结果,CCA 就能把它捞回来,给模型一个 “后悔药”。这大大提高了计算资源的利用率。下面是一个具体的示例:

如图所示,模型推理完成得到的答案是 9,而正确答案是 27。但回顾推理过程中的检查点答案可以发现,模型在第 4 和第 5 步已经得出了 27 这个答案,而错误出在第 6 步 ——9 是一个完全平方数而不是平方立方数。而 CCA 记录收集了所有检查点答案,并综合考虑所有候选答案选出最终结果。可以看到第 5 步的检查点答案得到了最高分 0.7192,该答案被 CCA 恢复并修正了错误答案。

实验结果

TL;DR:

  • SRCA 框架加持的 1B 小模型在 MATH500 数据集上达到 65.2% 准确率,首次超越参量 70 倍的 70B 大模型(65.0%)
  • 通过答案聚类搜索(ACS)优化路径多样性,SRCA 仅需 16 次采样即可达到其他 TTS 方法 128 次采样的精度。在同等硬件条件下,推理效率提升达 8 倍,从而降低计算成本。
  • 检查点候选增强(CCA)策略成功从中间步骤拯救 19.07% 的正确答案。这些答案诞生于推理中途,却因后续路径偏差被丢弃。CCA 通过复用高质量中间结果,构建了强大的错误容忍机制。
  • 设置合理阈值,当候选池中出现超过阈值的检查点答案即停止推理输出答案,平均可节省 27% 的推理步骤,推理准确率轻微下降 0.58%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当年害得游戏厅倒闭的罪魁祸首,麻将BUG的使用者早已不在人世

当年害得游戏厅倒闭的罪魁祸首,麻将BUG的使用者早已不在人世

小怪吃美食
2026-04-11 00:12:11
44岁前国脚遭妻子实名举报:骗婚骗财家暴出轨 海外4千万非法财产

44岁前国脚遭妻子实名举报:骗婚骗财家暴出轨 海外4千万非法财产

念洲
2026-04-22 13:50:29
业主坚持145万才卖,如今挂八年降价到89万都没卖掉

业主坚持145万才卖,如今挂八年降价到89万都没卖掉

映射生活的身影
2026-04-22 17:59:39
iPhone 17突然降价,这应该是目前最香的iPhone了

iPhone 17突然降价,这应该是目前最香的iPhone了

刘奔跑
2026-04-19 23:10:21
悲情KD难救伪强队!火箭天赋堆砌成笑话,三大硬伤暴露无遗!

悲情KD难救伪强队!火箭天赋堆砌成笑话,三大硬伤暴露无遗!

田先生篮球
2026-04-22 15:04:49
联合国秘书长发言人在记者会上用中文问好 并表示希望联合国的多语种服务越来越好

联合国秘书长发言人在记者会上用中文问好 并表示希望联合国的多语种服务越来越好

每日经济新闻
2026-04-21 14:32:56
Shams:东契奇预计无缘出战首轮 里夫斯进度更快有望首轮末复出

Shams:东契奇预计无缘出战首轮 里夫斯进度更快有望首轮末复出

罗说NBA
2026-04-22 05:03:31
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
法媒:大巴黎6300万买入扎巴尔尼,就是被伯恩茅斯“诈骗”了

法媒:大巴黎6300万买入扎巴尔尼,就是被伯恩茅斯“诈骗”了

懂球帝
2026-04-22 16:50:16
巴基斯坦中械师进驻沙特,朝鲜喊话日本迎头痛击,乱世生态位就绪

巴基斯坦中械师进驻沙特,朝鲜喊话日本迎头痛击,乱世生态位就绪

大又元
2026-04-22 18:26:46
施明丧礼出闹剧!小儿媳被拦不让进灵堂,署名花圈被扔到了楼梯间

施明丧礼出闹剧!小儿媳被拦不让进灵堂,署名花圈被扔到了楼梯间

叨唠
2026-04-22 17:22:38
算力“卖铲人”:光通信龙头15强,谁值得长期关注?

算力“卖铲人”:光通信龙头15强,谁值得长期关注?

Thurman在昆明
2026-04-22 10:02:45
东风本田思域中国20年限定版车型上市,11.39万元

东风本田思域中国20年限定版车型上市,11.39万元

IT之家
2026-04-22 16:07:34
广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

广东珠海一女神好漂亮, 身高179cm,体重50kg 美的让人移不开眼

今日搞笑分享
2026-04-06 17:55:16
天网2026亮剑!清查"半裸官":妻儿海外拿绿卡?关键岗位一个不留

天网2026亮剑!清查"半裸官":妻儿海外拿绿卡?关键岗位一个不留

轩逸阿II
2026-04-22 18:13:54
“领导,你以为我职务不涨,年龄也不涨?”

“领导,你以为我职务不涨,年龄也不涨?”

槽逻辑
2026-04-22 12:10:39
初中的几个潜规则:初一成绩就中下,甚至倒数的,基本跟高中无缘

初中的几个潜规则:初一成绩就中下,甚至倒数的,基本跟高中无缘

好爸育儿
2026-04-20 15:00:49
纽约时报:伊朗给美国上了一课,一个时代终结了

纽约时报:伊朗给美国上了一课,一个时代终结了

王誙自驾
2026-04-20 17:21:43
爆料疯传,中南医院“王护士长”被扒,她到底有没有问题啊!

爆料疯传,中南医院“王护士长”被扒,她到底有没有问题啊!

观星赏月
2026-04-22 13:10:32
长津湖打赢了后,斯大林态度急转弯:火速交给志愿军36个师的装备

长津湖打赢了后,斯大林态度急转弯:火速交给志愿军36个师的装备

历史龙元阁
2026-04-21 17:15:11
2026-04-22 19:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12831文章数 142633关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

头条要闻

三甲医院科主任被举报"巨额财产来源不明" 举报人发声

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

数码
教育
艺术
健康
公开课

数码要闻

Beats发布3米USB-C数据线:售229元 最高240W快充

教育要闻

重磅!中招自主招生政策发布

艺术要闻

无花不风景

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版