网易首页 > 网易号 > 正文 申请入驻

腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!

0
分享至



以 DeepSeek-R1 等为代表的推理模型(Large Reasoning Models, LRMs),通过生成更长的思维链,在各类复杂任务中取得了更优的表现。但长思维链是推理模型的 “双刃剑”,虽能提升性能,但 “过度思考” 带来的语义冗余会大幅推高推理成本。

为破解大模型长思维链的效率难题,并且为了更好的端到端加速落地,我们将思考早停与投机采样无缝融合,提出了SpecExit方法,利用轻量级草稿模型预测 “退出信号”,在避免额外探测开销的同时将思维链长度缩短 66%,vLLM 上推理端到端加速 2.5 倍。



  • 论文:https://arxiv.org/abs/2509.24248
  • 开源代码:https://github.com/Tencent/AngelSlim

1.“思考早停” 的挑战

目前对 LRMs 思维链压缩的相关研究大致可以分为两类,一类是基于训练的方法,另一类是 Training-Free 的方法,它们都有各自的局限性:

(1)基于训练的方法,通过标注数据进行有监督微调,或通过强化学习减少思维链长度。尽管压缩效果显著,但往往伴随高昂的训练成本,并导致模型输出分布被改变,引发模型可靠性及性能上的担忧。

(2)Training-Free 的方法,无需高昂的训练开销,通过介入模型的长思考过程,监控模型的 Logits 或其他输出信号,来判断当前思考长度下,能否提前终止推理。这类方法表明,通过提前停止可以在不降低准确率的前提下缩短推理长度,但其依赖探测机制会带来额外计算开销,并且往往更关注词元数量的减少,而非真正的端到端推理时延优化。



图 1 SpecExit 实现端到端加速



图 2 从模型隐藏状态中学习到的推理进度信号

针对以上的问题,我们发现了投机采样的天然优势,既能保证模型输出的一致性,又能从草稿模型隐藏状态中提取推理进程信号,基于此思路我们提出了 SpecExit 框架。如图 2 所示,模型的隐藏状态中天然蕴含了例如置信度、推理进度和剩余推理长度等信号,SpecExit 通过将这些信号与投机采样结合,在不引入额外探测开销的前提下,实现动态、可靠的思考早停。并且如图 1 所示,相比于基线和 DEER 等方法,SpecExit 在 vLLM 上端到端加速 2 倍以上,准确性和推理效率得到双重保障。

2.SpecExit 方法创新

大模型中多词元预测(Multi-Token Prediction, MTP)的隐藏状态可以预测未来 N 个位置的词元,这表明隐藏状态中蕴含了丰富的信息。受 MTP 的启发,SpecExit 的目标是:同时从隐藏状态中学习表征推理状态的「信号」及未来 N 个词元,在保留 MTP 原有加速能力的基础上,引导思考过程提前终止,进一步提升推理效率。SpecExit 整体框架如图 3 所示,仅需对 MTP 的隐藏层进行低成本的扩展,即可高效加速并压缩推理模型的思维链。



图 3 SpecExit 方法架构总览

2.1 SpecExit 训练流程

(1)数据构建:我们首先获取基础模型生成的完整输出,并提取位于 词元之间的推理内容。为了识别有效的推理轨迹,我们迭代尝试在段落结束位置插入推理结束词元 ,并验证生成的最终答案是否与原始输出匹配。如果答案保持一致,则后续的推理内容被视为冗余。因此,仅保留产生正确答案所需的最小推理片段作为训练数据。

(2)信号标注:置信度 Confidence 定义为预测步骤中概率的几何平均数,反映生成的可靠性;剩余推理长度 Remain 定义为从当前词元位置到最早有效 插入点的剩余词元数量,量化推理的剩余工作量;推理进度 Progress 表示为从 0 到 1 的归一化值,捕捉思维链的相对进度。

(3)信号回归:我们提出了一种简便高效的扩展方法,通过在 MTP 模块的线性投影层中引入少量额外维度来回归推理信号。这些维度与词元分类权重正交,确保信号回归不会干扰推测解码训练的收敛。多任务学习(Multi-Task Learning, MTL)将词元分类损失和信号回归损失联合优化,整体训练目标如下:



其中,词元分类预测使用标准交叉熵损失,置信度和推理进度使用均方误差(Mean Squared Error, MSE),剩余推理长度使用均方对数误差(Mean Squared Logarithmic Error, MSLE),λc、λp、λr 表示动态权重系数。置信度、推理进度、剩余推理长度三个信号量的损失函数公式如下:



由于信号回归损失的收敛速度比词元分类损失更快,我们采用基于梯度的动态权重策略来平衡不同任务的贡献。该机制为梯度幅度较小的任务分配更高权重,防止梯度较大的任务主导学习过程,从而确保所有任务都能得到有效优化,训练损失收敛曲线如图 4 所示。



图 4 训练 Loss 收敛曲线



图 5 信号引导的投机采样思考早停 Inference 过程

2.2 SpecExit 在 vLLM 推理流程

我们基于投机采样框架构建了思考早停机制,其中草稿模型首先产出一系列候选词元,随后由目标模型并行验证。特别的,在目标模型验证流程中,除了计算下一个词元的 Logits 外,还计算最后一个被接受词元对应的最终隐藏状态。如图 6 所示,该表征通过草稿模型的轻量级线性层处理后,额外生成置信度分数、推理进度以及剩余推理长度三个信号的预测值。

原始信号存在一定的波动性,可能导致过早或不稳定的思考早停。因此 SpecExit 采用指数加权移动平均(Exponentially Weighted Moving Average, EWMA)方法对信号进行平滑处理。在每次 Decoding 中,平滑值更新为当前信号与先前平滑值的加权平均,确保了思考早停在持续解码阶段的高鲁棒性。



图 6 SpecExit 思维链压缩示例

同时,为确保思考早停的决策发生在语义连贯的边界处,我们引入了一类称为步骤分割词元的特殊标识符,用于指示生成文本中的自然分段点。具体而言,步骤分割词元可分为两类:

(1)段落分隔符(如.\n\n),标记段落或推理单元的结束;

(2)语义上的句子间逻辑连接词(如 "But"、"So" 或 "Therefore"),常在推理过程中标示语义转换或逻辑转折。

由于基于段落分隔符的分割策略更具普适性,我们的实验默认采用该策略。当采样到的词元属于上述集合时,且预测的信号超过预设阈值,则判定推理过程已充分。此时,SpecExit 会在当前分割词元位置截断已接受的草稿词元,并将目标模型的最新词元替换为 ,从而确保终止点位于自然边界的同时保持生成文本的连贯性。并且 SpecExit 在 vLLM 框架上已端到端支持,在实践应用上可以很便捷的集成。

3. 实验结果

我们在数学、科学、编程和逻辑基准测试上对 SpecExit 方法进行了评估,如表 1 实验结果显示,SpecExit 显著缩短了推理过程。在 Qwen3-4B-Thinking-2507 模型上,GSM8K 和 ARC-Challenge 的数据集推理长度分别减少了 54% 和 53%;在 DeepSeek-R1-Distill-Llama-8B 模型上,推理长度分别减少了 66% 和 64%。推理长度大幅缩短的同时,SpecExit 基本无额外探测开销,所以 vLLM 上端到端加速提升显著,例如在 GSM8K 数据集上,与投机采用基线 EAGLE3 相比,SpecExit 在两个模型上分别实现了 1.9 倍和 2.5 倍的加速比。与此同时,SpecExit 在各基准测试上 Acc 基本无损。



表 1 SpecExit 评估与性能测试,Acc 表示精度,Tok 表示输出词元数量,Lat 表示端到端时延

与此相比,其他思考早停方法虽然也可以减少输出长度,但延迟增益很有限,甚至在某些数据集上,额外的计算开销反而导致推理速度变慢。而 SpecExit 不仅缩短思考长度,而且推理时延加速非常明显,在实际应用中更加实用。

对于思考停止信号的选择,我们进行了融合信号与分别单独使用置信度 Confidence、推理进度 Progress、剩余推理长度 Remain 的消融实验。实验结果如图 7 所示,融合多种信号的策略能够在减少输出长度和维持精度表现之间做到更好的平衡。



图 7 信号类型消融实验

4. 总结

SpecExit 结合投机采样,在不影响准确性的前提下在 vLLM 上实现最高达 2.5 倍的端到端推理速度提升,是 LRMs 实践落地的非常有效的加速算法。正是利用了投机采样的草稿模型,SpecExit 能在解码过程中同时预测未来词元和思考早停信号,不会增加额外的探测开销,与其他方法相比有更多的性能优势,在实践落地非常实用。

在多样化任务和模型上的实验表明,SpecExit 泛化能力非常好,并且该方法揭示了隐藏状态作为高效推理信息信号的潜力,也将为继续深入发掘隐藏状态作用的后续研究工作提供很大的借鉴意义。欢迎关注我们的 SpecExit 方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4天过去,中方准时取消优惠政策,鲁比奥出局,中美恐僵持二十年

4天过去,中方准时取消优惠政策,鲁比奥出局,中美恐僵持二十年

执笔写思念
2026-04-06 05:38:12
北上广深不香了?大学生毕业生正纷纷涌入这四个城市!

北上广深不香了?大学生毕业生正纷纷涌入这四个城市!

户外阿毽
2026-04-06 02:18:30
李亚鹏直播笑着回应助手否认收标哥豪车或捐款:这种鬼话你也信?

李亚鹏直播笑着回应助手否认收标哥豪车或捐款:这种鬼话你也信?

南方健哥
2026-04-05 10:43:49
15年后,全网封神的“犀利哥”程国荣,早已死在了那场流量狂欢里

15年后,全网封神的“犀利哥”程国荣,早已死在了那场流量狂欢里

杰丝聊古今
2026-04-05 18:52:02
WTI原油期货涨幅扩大至3%,报114.964美元/桶

WTI原油期货涨幅扩大至3%,报114.964美元/桶

每日经济新闻
2026-04-06 06:20:05
躺地庆祝+怒吼释放!王楚钦鞠躬致谢球迷 刘国正哽咽大喊太棒了

躺地庆祝+怒吼释放!王楚钦鞠躬致谢球迷 刘国正哽咽大喊太棒了

颜小白的篮球梦
2026-04-05 22:31:03
祝贺!35岁数学家王虹,获得最高荣誉

祝贺!35岁数学家王虹,获得最高荣誉

双一流高校
2026-04-06 00:09:39
“前轮硬生生压过去的!”爸爸开车撞倒1岁宝宝,结局让人揪心又后怕……

“前轮硬生生压过去的!”爸爸开车撞倒1岁宝宝,结局让人揪心又后怕……

环球网资讯
2026-04-05 19:53:58
新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

新冠后遗症的长期侵袭,无数人在不知不觉中深陷困境

律法刑道
2026-04-01 10:15:47
陕西女警花卧底被揪出,被歹徒折磨7天解救:人都已经垮了

陕西女警花卧底被揪出,被歹徒折磨7天解救:人都已经垮了

罪案洞察者
2025-03-07 08:59:25
人生建议:不要在任何关系里对抗

人生建议:不要在任何关系里对抗

洞见
2026-04-04 21:52:39
77岁洪秀柱掀桌子!当众撕碎“一中各表”,韩国瑜沉默全场炸锅!

77岁洪秀柱掀桌子!当众撕碎“一中各表”,韩国瑜沉默全场炸锅!

达文西看世界
2026-04-05 18:49:24
巡回锦标赛收官奖金排名:赵心童夺冠136万第1,吴宜泽18万第9

巡回锦标赛收官奖金排名:赵心童夺冠136万第1,吴宜泽18万第9

求球不落谛
2026-04-06 05:48:49
医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

医生直言:体检报告这5项指标正常,身体基本上无大碍,建议了解

熊猫医学社
2026-04-03 11:35:03
目前为止,你总结出的最大人生经验是什么?网友评论:长知识了!

目前为止,你总结出的最大人生经验是什么?网友评论:长知识了!

另子维爱读史
2026-03-23 23:10:24
伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

界面新闻
2026-04-05 14:37:11
告诉你一个玄学真相:清明,是全年改运最关键的7天

告诉你一个玄学真相:清明,是全年改运最关键的7天

小陆搞笑日常
2026-04-05 21:25:23
美媒称美军炸毁两架执行救援任务的故障运输机

美媒称美军炸毁两架执行救援任务的故障运输机

界面新闻
2026-04-05 13:30:49
中央定调,延迟退休后,累计缴纳社保17年,达到年龄后还可退休吗

中央定调,延迟退休后,累计缴纳社保17年,达到年龄后还可退休吗

傲傲讲历史
2026-04-06 01:04:27
杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

一盅情怀
2026-04-03 07:49:11
2026-04-06 07:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142613关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗军方:过去两天击落美军12架战机

头条要闻

伊朗军方:过去两天击落美军12架战机

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

本地
时尚
教育
公开课
军事航空

本地新闻

跟着歌声游安徽,听古村回响

伊姐清明热推:电视剧《暴锋雨》;电影《我,许可》......

教育要闻

家长如果不知道这三组数字孩子减脂减重是不可能的

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美飞行员获救细节:美伊发生激烈交火 至少4死1伤

无障碍浏览 进入关怀版