网易首页 > 网易号 > 正文 申请入驻

DeepSeek推理最高提速6倍!开源研究加装思维进度条,计算量减30%

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek推理要详细还是要迅速,现在可以自己选了?

来自特拉维夫大学的研究团队开发出了一种新方法,可以监控和控制LLM中的思考路径长度

给LLM的推理任务装上进度条,还能控制推理的深度、调整推理速度。

加速后的模型和原模型相比,使用的token数减少了近6倍,且都得出了正确答案

LLMs在显示结构化推理时,会隐式跟踪其在思考阶段的相对位置,并通过隐藏状态编码这一信息。

而论文提出了一种“思维进度向量”(Thinking Progress Vector,TPV),可用于实时预测模型在推理阶段的相对位置,并通过可视化进度条展示模型的推理动态。

通过干预TPV,可以加速或减速模型的推理过程,实现“超频”(overclocking)和“降频”(downclocking)。

超频能够减少不必要的推理步骤,使模型更快地得出结论,同时避免因过度推理导致的性能下降。

该模型已在gitHub上开源。

方法:实时监控并控制推理深度

在有效推理学习过程中,模型必须隐式地学习跟踪其思考阶段进度,并保持对例如距离最终答案有多近的估计。

由于进度跟踪依赖于输入,这类信息不能存储在模型的静态权重中,而必须动态编码在层间传递的隐藏表示中。

为此,论文的研究团队选择从最终隐藏层提取信息。

研究团队专注于执行显式结构化推理的模型,这种模型的特点是具有一个由标记明确界定且连续的推理阶段,如DeepSeek-R1。

由此可以通过根据每个标记的相对位置精确地用介于零和一之间的插值值进行标记,来量化模型在推理阶段的进展。

形式上,通过以下方式构建数据集:

其中

是第k个思考轨迹中第j个词的隐藏表示,

是该词在其思考序列中的相对位置 。K表示采样轨迹的数量,

中的总样本数为

在此基础上优化一个进度提取函数

,将隐藏表示映射为其相对位置,形式为一个回归任务

使用参数为

的线性回归器作为函数

来进行拟合进度属性

,将参数向量称为“思考进度向量”(TPV)。

为了提高预测效果,利用模型的自回归特性,并对预测历史应用指数平滑以减少噪声。在Math-500测试集中进行TPV预测,结果如下图所示:

其中图(a)展示了多个思考轨迹的数据点的汇总视图,图 (b, c)则展示了Math-500测试集中单个问题的思考轨迹上的TPV预测和平滑预测。

可以看到,两种方法都成功预测了相对位置,而后者产生了更精确的结果,可用于创建更清晰、更易于解释的进度条。

受此启发,为了更好地利用进度条预测任务的时序结构,使用可训练的序列模型替换指数平滑,即使用与相同的训练样本,只是将相对位置序列作为输入,而不是进行单步预测:

通过这种方法,就可以实现推理进度的可视化。

一个关键问题是,TPVs是否反映了模型用来跟踪其推理进度的基本机制,或者它们是否仅仅是与进度相关但不起因果作用计算的残余物?

为解决这一疑惑,对TPY进行干预:通过投影向量的方向将隐藏表示移动量α,即

,修改后的表示具有新的预测值

通过在所有注意力层执行此干预,就可以干预下一个词的预测,并避免编辑在连续解码步骤中缓存和使用的表示值。

在实验中,将α视为决定干预强度的超参数。设置α=0会导致没有干预,保留原始计算。 α的正值会导致超频。

实验证明,超频将加速模型的推理阶段,使其更短、更果断:

上图比较了DeepSeek-R1-Distill-Qwen-32B模型生成的两种思考序列——干预前和干预后。

原始序列表现出犹豫和冗长,而TPV加速版本则显著更简洁,使用的token数量减少了近6倍

并且,两条轨迹最终都得到了正确的答案。

效果:最高提速近6倍,准确率不降反升

在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上测量TPV的有效性,结果如下所示:

实验结果揭示了四个显著趋势:

1、α 的影响:增加α从5到100,无论是否使用基于指令的加速,都会增加模型生成的完成、结束和正确答案的数量,证明TPV的干预方法影响了思考长度。

2、将加速基线与基础模型进行比较:基线(ii)和(iii)通过提示响应和基于温度的集成来加速基础模型。在大多数情况下,这两种方法都提高了所有三个指标,证明它们是评估TPV超频方法的强基线。

3、与基线方法的比较:尽管基线方法表现优异,且基于温度的基线方法需要大约五倍的计算资源,但TPV的方法通过产生更多正确答案和更明确的响应,在性能上超越了它们。

在计算预算较低(如256或512个token)的情况下,TPV的方法增加了80%的正确答案,并且这些正确答案的增加并未以增加错误率为代价,错误率保持不变。这表明,TPV方法缩短了推理过程而不增加错误,促进了更明确的思考。

对于大于512的计算预算,通常遵循相同趋势,在大多数情况下正确答案数量有所提升,而错误率并未增加。

4、互补性贡献:尽管实证研究结果证实TPV方法比基线方法更有效,但仍有该方法落后于基于提示的方法(记为“指令”)的情况。一个突出的例子是在 Math 500 上使用 2048个token 预算的机制,其中指令基线正确回答的比例比TPV方法高出10%。

这一观察引发了这样的问题:这些改进是正交的还是相互竞争的?

将基于指令的提示技术与TPV的干预方法相结合,并与每种方法单独进行比较。结果如表中最后两行所示:这种混合方法在大多数情况下始终表现出最佳性能,平均提高了66% ,最高提高了285% ;相对于基础模型平均提高了223% ,最高提高了1416% 。

这些发现表明TPV方法与提示策略相辅相成,可以有效地与其他加速技术相结合

对Math-500和GSM8K数据集进行一系列干预实验,通过改变干预参数α来超频模型的思考阶段。

结果显示,增加α可以持续缩短思考阶段的长度,使推理过程更加高效。

这些发现支持TPV在模型内部计算中充当一种主动控制的信号,而不是被动相关。

当使用提示策略(基线 iii)在GSM8K数据集上对 DeepSeek-R1 LLaMA模型应用TPV方法时,平均 token 数量从大约500减少到不到350,计算量减少了30%

此外,所有α的正值都相对于基线( α=0 )持续加速思考阶段,并提高了其有效性。

为进一步评估TPVs在估计模型在其推理过程中位置时的可靠性,研究团队还在两种附加条件下测试了它们的性能:

  • (i) 不同的提示策略
  • (ii) 不同的推理序列长度

图(a-d) 显示TPVs在各种指令中仍然有效,这与训练期间使用的原始提示不同。

图(e) 显示在不同思考序列长度分箱中测试损失始终较低,表明对推理深度的变化具有鲁棒性。

更多内容可见论文详细。

参考链接:https://royeisen.github.io/OverclockingLLMReasoning-paper/

代码:https://github.com/royeisen/reasoning_loading_bar

论文:https://arxiv.org/abs/2506.07240

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

文史季季红
2026-02-16 14:05:03
被禁赛4年!这位中国出生的网球运动员,起诉WTA索赔2000万美元

被禁赛4年!这位中国出生的网球运动员,起诉WTA索赔2000万美元

全景体育V
2026-02-23 09:31:30
老伴手术急需25万,老汉拿纪念钞去银行兑钱,银行的做法让老人愣住

老伴手术急需25万,老汉拿纪念钞去银行兑钱,银行的做法让老人愣住

悬案解密档案
2025-09-22 11:05:28
龙洋第一次登上春晚,眼睛也上翻!网友:真不知道怎么审核的

龙洋第一次登上春晚,眼睛也上翻!网友:真不知道怎么审核的

魔都姐姐杂谈
2026-02-23 17:56:41
“第二代赌王”周焯华,被判18年罚款248亿,睡过的女星有多少?

“第二代赌王”周焯华,被判18年罚款248亿,睡过的女星有多少?

小熊侃史
2025-12-26 11:25:18
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
这才是婉容与溥仪的真实相貌,这可不是演员饰演的

这才是婉容与溥仪的真实相貌,这可不是演员饰演的

可乐谈情感
2026-02-23 09:29:09
宗馥莉现身上海高级餐厅,与外籍男子共餐携女同行似一家三口

宗馥莉现身上海高级餐厅,与外籍男子共餐携女同行似一家三口

丁隗解说
2026-02-22 23:48:22
机器人集体亮相春晚后:“假蔡明”被送给了真蔡明,“春晚版熊猫”拍出近6万元高价

机器人集体亮相春晚后:“假蔡明”被送给了真蔡明,“春晚版熊猫”拍出近6万元高价

红星新闻
2026-02-21 20:39:13
王健林预言应验!别急了卖房,2026年的房价,要变天!

王健林预言应验!别急了卖房,2026年的房价,要变天!

猫叔东山再起
2026-02-22 09:10:05
脏到包浆、不堪入目!又一网红店跌落神坛,多位明星网红曾打卡

脏到包浆、不堪入目!又一网红店跌落神坛,多位明星网红曾打卡

品牌观察官
2025-12-30 17:28:27
1959年,彭德怀去江西看望贺子珍,看见一位陌生农妇,身份很特殊

1959年,彭德怀去江西看望贺子珍,看见一位陌生农妇,身份很特殊

古书记史
2025-12-29 00:08:52
去了一趟新加坡才发现:在当地食阁里,用纸巾占座这种消费习惯,原来藏着生存法则

去了一趟新加坡才发现:在当地食阁里,用纸巾占座这种消费习惯,原来藏着生存法则

小虎新车推荐员
2026-02-22 09:26:59
《飞驰人生3》韩寒找到了一座挖不完的金矿,是中国全球广告牌

《飞驰人生3》韩寒找到了一座挖不完的金矿,是中国全球广告牌

陈意小可爱
2026-02-23 15:01:58
新王登基!文班盖帽数升至队史第五,前面只剩马刺四大名宿

新王登基!文班盖帽数升至队史第五,前面只剩马刺四大名宿

大眼瞄世界
2026-02-23 08:56:30
摊牌了!要求俄罗斯去军事化、战争赔偿、审判战犯、归还领土

摊牌了!要求俄罗斯去军事化、战争赔偿、审判战犯、归还领土

雪中风车
2026-02-22 16:04:34
3.3亿游艇到30亿涂鸦,扎克伯格壕得如此高调,挑战了我的想象力

3.3亿游艇到30亿涂鸦,扎克伯格壕得如此高调,挑战了我的想象力

电影烂番茄
2026-02-17 22:26:59
年薪5300万!火箭重金打造5号位,新中锋单场21+4,胜过亚当斯?

年薪5300万!火箭重金打造5号位,新中锋单场21+4,胜过亚当斯?

熊哥爱篮球
2026-02-23 12:49:40
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
三国首脑准备访华,中方已递出一张邀请函,3天后专机将抵达北京

三国首脑准备访华,中方已递出一张邀请函,3天后专机将抵达北京

爱下厨的阿酾
2026-02-23 15:16:59
2026-02-23 18:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12192文章数 176389关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

德国总理默茨将访华

头条要闻

德国总理默茨将访华

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

艺术
亲子
游戏
本地
公开课

艺术要闻

十大名家画春,送给春天的你!

亲子要闻

印第安纳预报可能有龙卷风,提前去超市屯点物资,这一车得多少钱

《城市:天际线2》新开发商首个补丁修改市民死亡规则

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版