网易首页 > 网易号 > 正文 申请入驻

DeepSeek推理最高提速6倍!开源研究加装思维进度条,计算量减30%

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek推理要详细还是要迅速,现在可以自己选了?

来自特拉维夫大学的研究团队开发出了一种新方法,可以监控和控制LLM中的思考路径长度

给LLM的推理任务装上进度条,还能控制推理的深度、调整推理速度。

加速后的模型和原模型相比,使用的token数减少了近6倍,且都得出了正确答案

LLMs在显示结构化推理时,会隐式跟踪其在思考阶段的相对位置,并通过隐藏状态编码这一信息。

而论文提出了一种“思维进度向量”(Thinking Progress Vector,TPV),可用于实时预测模型在推理阶段的相对位置,并通过可视化进度条展示模型的推理动态。

通过干预TPV,可以加速或减速模型的推理过程,实现“超频”(overclocking)和“降频”(downclocking)。

超频能够减少不必要的推理步骤,使模型更快地得出结论,同时避免因过度推理导致的性能下降。

该模型已在gitHub上开源。

方法:实时监控并控制推理深度

在有效推理学习过程中,模型必须隐式地学习跟踪其思考阶段进度,并保持对例如距离最终答案有多近的估计。

由于进度跟踪依赖于输入,这类信息不能存储在模型的静态权重中,而必须动态编码在层间传递的隐藏表示中。

为此,论文的研究团队选择从最终隐藏层提取信息。

研究团队专注于执行显式结构化推理的模型,这种模型的特点是具有一个由标记明确界定且连续的推理阶段,如DeepSeek-R1。

由此可以通过根据每个标记的相对位置精确地用介于零和一之间的插值值进行标记,来量化模型在推理阶段的进展。

形式上,通过以下方式构建数据集:

其中

是第k个思考轨迹中第j个词的隐藏表示,

是该词在其思考序列中的相对位置 。K表示采样轨迹的数量,

中的总样本数为

在此基础上优化一个进度提取函数

,将隐藏表示映射为其相对位置,形式为一个回归任务

使用参数为

的线性回归器作为函数

来进行拟合进度属性

,将参数向量称为“思考进度向量”(TPV)。

为了提高预测效果,利用模型的自回归特性,并对预测历史应用指数平滑以减少噪声。在Math-500测试集中进行TPV预测,结果如下图所示:

其中图(a)展示了多个思考轨迹的数据点的汇总视图,图 (b, c)则展示了Math-500测试集中单个问题的思考轨迹上的TPV预测和平滑预测。

可以看到,两种方法都成功预测了相对位置,而后者产生了更精确的结果,可用于创建更清晰、更易于解释的进度条。

受此启发,为了更好地利用进度条预测任务的时序结构,使用可训练的序列模型替换指数平滑,即使用与相同的训练样本,只是将相对位置序列作为输入,而不是进行单步预测:

通过这种方法,就可以实现推理进度的可视化。

一个关键问题是,TPVs是否反映了模型用来跟踪其推理进度的基本机制,或者它们是否仅仅是与进度相关但不起因果作用计算的残余物?

为解决这一疑惑,对TPY进行干预:通过投影向量的方向将隐藏表示移动量α,即

,修改后的表示具有新的预测值

通过在所有注意力层执行此干预,就可以干预下一个词的预测,并避免编辑在连续解码步骤中缓存和使用的表示值。

在实验中,将α视为决定干预强度的超参数。设置α=0会导致没有干预,保留原始计算。 α的正值会导致超频。

实验证明,超频将加速模型的推理阶段,使其更短、更果断:

上图比较了DeepSeek-R1-Distill-Qwen-32B模型生成的两种思考序列——干预前和干预后。

原始序列表现出犹豫和冗长,而TPV加速版本则显著更简洁,使用的token数量减少了近6倍

并且,两条轨迹最终都得到了正确的答案。

效果:最高提速近6倍,准确率不降反升

在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上测量TPV的有效性,结果如下所示:

实验结果揭示了四个显著趋势:

1、α 的影响:增加α从5到100,无论是否使用基于指令的加速,都会增加模型生成的完成、结束和正确答案的数量,证明TPV的干预方法影响了思考长度。

2、将加速基线与基础模型进行比较:基线(ii)和(iii)通过提示响应和基于温度的集成来加速基础模型。在大多数情况下,这两种方法都提高了所有三个指标,证明它们是评估TPV超频方法的强基线。

3、与基线方法的比较:尽管基线方法表现优异,且基于温度的基线方法需要大约五倍的计算资源,但TPV的方法通过产生更多正确答案和更明确的响应,在性能上超越了它们。

在计算预算较低(如256或512个token)的情况下,TPV的方法增加了80%的正确答案,并且这些正确答案的增加并未以增加错误率为代价,错误率保持不变。这表明,TPV方法缩短了推理过程而不增加错误,促进了更明确的思考。

对于大于512的计算预算,通常遵循相同趋势,在大多数情况下正确答案数量有所提升,而错误率并未增加。

4、互补性贡献:尽管实证研究结果证实TPV方法比基线方法更有效,但仍有该方法落后于基于提示的方法(记为“指令”)的情况。一个突出的例子是在 Math 500 上使用 2048个token 预算的机制,其中指令基线正确回答的比例比TPV方法高出10%。

这一观察引发了这样的问题:这些改进是正交的还是相互竞争的?

将基于指令的提示技术与TPV的干预方法相结合,并与每种方法单独进行比较。结果如表中最后两行所示:这种混合方法在大多数情况下始终表现出最佳性能,平均提高了66% ,最高提高了285% ;相对于基础模型平均提高了223% ,最高提高了1416% 。

这些发现表明TPV方法与提示策略相辅相成,可以有效地与其他加速技术相结合

对Math-500和GSM8K数据集进行一系列干预实验,通过改变干预参数α来超频模型的思考阶段。

结果显示,增加α可以持续缩短思考阶段的长度,使推理过程更加高效。

这些发现支持TPV在模型内部计算中充当一种主动控制的信号,而不是被动相关。

当使用提示策略(基线 iii)在GSM8K数据集上对 DeepSeek-R1 LLaMA模型应用TPV方法时,平均 token 数量从大约500减少到不到350,计算量减少了30%

此外,所有α的正值都相对于基线( α=0 )持续加速思考阶段,并提高了其有效性。

为进一步评估TPVs在估计模型在其推理过程中位置时的可靠性,研究团队还在两种附加条件下测试了它们的性能:

  • (i) 不同的提示策略
  • (ii) 不同的推理序列长度

图(a-d) 显示TPVs在各种指令中仍然有效,这与训练期间使用的原始提示不同。

图(e) 显示在不同思考序列长度分箱中测试损失始终较低,表明对推理深度的变化具有鲁棒性。

更多内容可见论文详细。

参考链接:https://royeisen.github.io/OverclockingLLMReasoning-paper/

代码:https://github.com/royeisen/reasoning_loading_bar

论文:https://arxiv.org/abs/2506.07240

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
审问3小时,日本军官底细被扒出,中方一锤定音,高市早苗看着办

审问3小时,日本军官底细被扒出,中方一锤定音,高市早苗看着办

谛听骨语本尊
2026-03-26 13:43:30
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

时评人李文君
2026-03-25 19:32:21
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

坠入二次元的海洋
2026-03-26 11:44:05
周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

鹤羽说个事
2026-03-18 21:47:42
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
伊朗终于开窍,目标对准海水淡化厂,以色列抵挡不住,百余人伤亡

伊朗终于开窍,目标对准海水淡化厂,以色列抵挡不住,百余人伤亡

你得漂亮
2026-03-24 22:59:34
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

翰飞观事
2026-03-24 17:00:30
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

文史明鉴
2026-03-26 15:22:47
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

余飩搞笑段子
2026-03-26 11:33:35
2026-03-26 16:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
健康
房产
军事航空

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

转头就晕的耳石症,能开车上班吗?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版