网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 | 越推越快! 首个面向「Test-Time Scaling」的投机解码基准

0
分享至


SpecTTS-Bench:首个面向「Test-Time Scaling」的投机解码基准,收割冗余红利,越推越快!

本文由来自香港城市大学、华为的多位研究者共同完成。第一作者为来自香港城市大学的博士生孙圣印和来自华为的研究员李一鸣,通信作者为来自香港城市大学的助理教授马辰。

在推理大模型的应用里,一个朴素但有效的策略正在成为共识:推理阶段扩展(Test-Time Scaling, TTS)—— 在推理阶段额外分配计算(例如反复思考,多轮推理),往往能显著提升推理大模型解决复杂问题的正确率与稳健性。但TTS应用于推理大模型的代价也同样明显:大量冗余、重复的推理轨迹被生成出来,吞噬了推理时延与算力预算,让模型的“更聪明”变得“不够划算”。

基于此,本文提出了首个面向TTS的投机解码(Speculative Decoding)加速综合基准。评测结果显示,在结构化且重复密集的 TTS 场景里,朴素的N-gram方法更能精准“吃到”重复带来的红利,释放出不容忽视的加速潜力。

论文标题:Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling


论文地址:
https://arxiv.org/abs/2509.04474

论文代码:
https://github.com/sunshy-1/SpecTTS-Bench


图1 TTS的过程中大量冗余和重复的推理轨迹示例。

1. 「叠床架屋」为什么 TTS 会“慢得不划算”?

随着大模型能力的持续提升,业界逐渐意识到一个重要现象——即所谓的 Scaling Law 在推理阶段同样成立。简单来说,只要在推理阶段投入更多的计算资源,就能够在一定程度上换取更强的复杂推理能力。换句话说,即便模型参数规模固定,通过扩大推理时的“思考深度”或“思考广度”,同样可能获得更高质量的输出。典型方式包括:

▪ Best-of-N:针对同一个问题,模型生成多条不同的推理路径或候选答案,然后再通过评分机制或后验判断,选出最优方案;

▪ Multi-round Thinking:让模型以多轮“想—写—再想—再写”的形式进行自我复审和反思,不断修正先前的推理错误或补充遗漏的逻辑。

然而,这种范式并非没有代价。它的核心问题在于推理效率极低,往往会出现所谓的“叠床架屋式冗余计算”。在多轮或多样采样的过程中,模型往往会反复生成类似的分析开头、重复的中间结论、固定化的检查步骤,甚至对前文内容进行机械式重述。这些内容虽然表面上增加了推理“长度”,但实际信息增益有限。结果就是,TTS的推理过程不可避免地充斥着大量重复和无效的计算轨迹——算力在自说自话的过程里被浪费掉了。这也带来了一个颇为尴尬的现实:我们确实找到了提升大模型上限、激发其潜在推理能力的有效路径,但同时必须付出极高的计算代价与延迟成本。换言之,TTS 在质量与效率之间形成了难以调和的矛盾——它能让模型“更聪明”,却让推理过程“慢得不划算”。

2. 「以小博大」:投机解码如何破解“慢思考”困局?

面对TTS带来的巨大算力消耗,投机解码提供了一种高效的计算范式,旨在缓解大模型推理过程中的访存瓶颈。其核心机制在于解耦了“生成”与“验证”两个过程:系统首先利用一个参数量较小、推理速度极快的“草稿模型”(Draft Model)预先生成一系列候选 Token,随后由参数量庞大的“目标模型”(Target Model)以并行计算的方式对这些候选序列进行批量验证。由于大模型在处理单个 Token 和并行处理多个 Token 时的延迟差异较小,这种“预测-验证”机制能够显著减少目标模型昂贵的串行前向传播次数,从而在保证输出分布与目标模型完全一致(即无损加速)的前提下,大幅提升整体推理吞吐量。

在TTS的具体实践中,无论是通过Best-of-N寻找最优解,还是通过多轮迭代进行自我修正,其计算过程本质上都伴随着大量的文本重复。例如,在生成多个推理路径时,不同样本间往往共享着长段的公共前缀或标准化的思维模板;而在迭代修正过程中,模型又不可避免地需要复述上下文或对既有文本进行微调。这种由采样策略和迭代机制直接导致的重复性,恰恰是投机解码能够利用的最大红利。内容的高频重复显著降低了预测难度,使得草稿模型能够以极高的命中率通过验证。因此,TTS 场景下算力扩张所带来的文本冗余,反而在投机解码的机制下转化为加速推理的关键杠杆。


图2 针对高效TTS的投机解码方法框架。

3. 「SpecTTS-Bench」首个面向 TTS 的投机解码评测基准

为了系统性地量化投机解码在TTS推理场景下的效能,本文构建了首个面向 TTS 的投机解码评测基准。该基准不仅制定了统一且严格的实验协议,更全面覆盖了当前最具代表性的两大 TTS 范式:旨在通过广度搜索寻找最优解的 Best-of-N 采样,以及通过深度迭代提升推理质量的多轮思考。在投机解码方法论的维度上,本文涵盖了多样化的技术路径,包含如下四大类:

▪ 基于模型(Model-based)的方法,即经典的利用同源小模型生成候选序列、再由目标模型验证的范式;

▪ 基于训练(Training-based)的方法,侧重于通过特定训练优化推测器或策略,使其更紧密地贴合目标模型的分布特征;

▪ 基于 N-gram(N-gram-based)的方法,直接利用文本统计规律中的重复模式进行极低成本的快速预测。

4. 「群雄逐鹿」九种投机解码方法在两类主流TTS框架中的统一评测

本基准对九种投机解码方法在两类主流 TTS框架中进行了统一评测,涵盖 Best-of-N(图3)与多轮思考(图4)两大典型场景。实验选取了DeepSeek-R1-Distill-Llama-8B(DSL-8B)和 Qwen3-8B(QW3-8B)模型,在 AIME24/25、MATH500 及GPQA 等高难度推理基准上对比了各方法的平均接受Token数(MAT)与端到端加速比(Speed)。

评测结果揭示了一个关键发现:在结构化且重复密集的 TTS 场景中,能够利用历史信息的非训练N-gram方法展现出惊人的适应性。如图3所示,在 DSL-8B (T=0) 的贪婪解码设定下,SAM方法表现尤为亮眼,其在 GPQA 任务上取得了3.57的MAT和3.20×的加速比,整体评测中也保持了平均2.66×的稳健加速。这表明,TTS 推理过程中产生的思维链包含大量重复的推理步骤和格式化表达,朴素的N-gram或基于历史匹配的机制(如SAM)能够精准利用这些重复模式带来的红利。

基于这一洞察,我们进一步验证了将N-gram机制与基于训练的投机解码方法相结合的混合策略。实验数据显示,SAM[EAGLE-3]这种混合策略集两者之长,在各类设定下均实现了性能突破。特别是在图3的DSL-8B (T=0) 贪婪解码场景中,SAM[EAGLE-3]在GPQA任务上的MAT达到了惊人的7.00,并在整体评测中实现了最高3.97×的加速比。同样,在QW3-8B 的多轮思考场景(图4)中,该混合策略依然保持领先,稳定提供约2.7×至3.5×的加速收益。


图3 不同投机解码方法在Best-of-N场景中的性能。


图4 不同投机解码方法在多轮思考场景中的性能。

5. 「以简驭繁」:重塑大模型推理的效率边界


图5 Scaling Up, Speeding Up!N-gram投机解码方法(SAM,PIA,SAM[EAGLE-3])在TTS中越推越快。(a) Best-of-N(T=0)。(b) Best-of-N(T=0.6)。(c) 多轮思考(T=0.6)。

本基准不仅为TTS场景中的大模型推理提供了标准化的度量衡,更揭示了“重复即红利”这一关键洞察。在追求模型“深思熟虑”的道路上,简单的 N-gram 机制与混合策略展现出了“四两拨千斤”的潜力,有效缓解了长思维链带来的推理时延。我们期待这一基准能推动社区进一步挖掘推理结构中的加速潜力,让“越推越快”成为TTS的新常态。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别再瞎买!2026年A股真正的核心赛道,只有这3条

别再瞎买!2026年A股真正的核心赛道,只有这3条

小白鸽财经
2026-03-07 20:30:03
暴跌88.6%!收割中产的万元手表卖不动了?网友:不如华为

暴跌88.6%!收割中产的万元手表卖不动了?网友:不如华为

有范又有料
2026-03-04 17:39:10
1270万毕业生抢岗,内卷学历贬值,家长投几十万培养破防了,为啥

1270万毕业生抢岗,内卷学历贬值,家长投几十万培养破防了,为啥

眼光很亮
2026-03-08 01:08:15
国家敲定2026年养老金上涨,涨多少?一个没想到,还有一个好消息

国家敲定2026年养老金上涨,涨多少?一个没想到,还有一个好消息

大鱼简科
2026-03-07 17:00:52
中俄边境传来了好消息,俄罗斯终于是想通了,废弃25年的铁路重新开通

中俄边境传来了好消息,俄罗斯终于是想通了,废弃25年的铁路重新开通

王姐懒人家常菜
2026-03-08 01:53:07
雷军说未来每周或仅需工作3天,每天工作2小时,建议大家要用开放的心态,迎接更先进的时代

雷军说未来每周或仅需工作3天,每天工作2小时,建议大家要用开放的心态,迎接更先进的时代

潇湘晨报
2026-03-07 14:13:09
内蒙古一女童被继父搂抱亲吻,女童母亲“只是一家人拍着玩”?

内蒙古一女童被继父搂抱亲吻,女童母亲“只是一家人拍着玩”?

新民周刊
2026-02-25 19:18:14
卷疯了!全球仅1人!C9副教授,获奖!

卷疯了!全球仅1人!C9副教授,获奖!

超级数学建模
2026-03-07 22:35:00
“3姐妹共侍1夫”:神奇的深圳湾1号业主

“3姐妹共侍1夫”:神奇的深圳湾1号业主

新浪财经
2026-03-05 23:40:08
她一舞封神后,被400亿东莞首富收入囊中,如今已活成了人生赢家

她一舞封神后,被400亿东莞首富收入囊中,如今已活成了人生赢家

小椰的奶奶
2026-03-08 01:37:55
家里有多少钱,才算有钱人?银行行长:3个条件,达到其一就是!

家里有多少钱,才算有钱人?银行行长:3个条件,达到其一就是!

生活新鲜市
2026-03-02 19:23:03
合肥市公安局发布公告!征集这些建议

合肥市公安局发布公告!征集这些建议

凤凰网安徽
2026-03-06 13:58:07
德黑兰1979:感谢当初匆忙逃离,方有如今群星闪耀

德黑兰1979:感谢当初匆忙逃离,方有如今群星闪耀

黔有虎
2026-03-04 21:00:27
国家发改委主任郑栅洁:2026年“六张网”和重点领域建设投资将超过7万亿元|两会速递

国家发改委主任郑栅洁:2026年“六张网”和重点领域建设投资将超过7万亿元|两会速递

华夏时报
2026-03-06 17:40:07
不忍了!巴拿马强行接管港口12天,李嘉诚开始反击,回应太解气

不忍了!巴拿马强行接管港口12天,李嘉诚开始反击,回应太解气

谈史论天地
2026-03-07 11:17:55
久违的笑容!杨瀚森G联赛练级闪耀:等待下一个转机

久违的笑容!杨瀚森G联赛练级闪耀:等待下一个转机

体坛周报
2026-03-07 22:19:33
两会明确足额发放养老金:今年养老金,涨多少、何时发、谁多涨?

两会明确足额发放养老金:今年养老金,涨多少、何时发、谁多涨?

云鹏叙事
2026-03-07 16:06:17
舅舅刚去世,30岁外甥就把45岁舅妈睡了,舅妈逼他离婚他选择杀人

舅舅刚去世,30岁外甥就把45岁舅妈睡了,舅妈逼他离婚他选择杀人

谈史论天地
2026-03-06 14:19:08
魏牌新车海报被指1:1抄袭路虎!魏建军下场道歉,路虎回应

魏牌新车海报被指1:1抄袭路虎!魏建军下场道歉,路虎回应

南方都市报
2026-03-07 20:38:11
“看这局势,俄罗斯成最大赢家”

“看这局势,俄罗斯成最大赢家”

观察者网
2026-03-05 21:26:14
2026-03-08 03:20:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7109文章数 20738关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
手机
本地
数码
公开课

艺术要闻

1.61亿天价!陈丹青的《牧羊人》如何震撼艺术界?

手机要闻

网曝OPPO Find N6渲染图,或有橙色版本

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

数码要闻

英特尔 Core Ultra 3 “Panther Lake-H” 结构细节曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版