网易首页 > 网易号 > 正文 申请入驻

DTS框架让大模型推理准确率提升6%,推理长度缩短23%

0
分享至



专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作 DTS(Decoding Tree Sketching):一种即插即用的模型推理框架,依靠高不确定度分支推理和最先完成路径早停两个关键策略,以近似找到最短且正确的推理路径。



  • 论文地址:https://arxiv.org/pdf/2511.00640
  • 开源工程:https://github.com/ZichengXu/Decoding-Tree-Sketching
  • Colab online demo: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb#scrollTo=oTrZL0i3UstX

在 AIME2024/2025 上,DTS 在 DeepSeek-R1-Distill-Qwen-7B/1.5B 上准确率平均提升 6%、平均推理长度下降约 23%,无尽重复率平均减少 10%。



  • 核心洞见:推理链长度与正确率显著负相关;多次解码中最短的推理链往往最正确。
  • 方法一句话:在「高熵」位置展开多分支并行解码;哪个分支最先生成终止符(
  • )就立刻停止,从而完成最短路径推理。
  • 无需训练:不做 SFT/RL,不改模型权重,纯解码策略,即插即用。
  • 实证结果:AIME24/25 上,7B/1.5B 模型准确率 +2%~+8%,平均长度 -17%~-29%,无尽重复率下降 5%~20%。

背景:推理大模型的「过度思考」问题


CoT / 多步推理让模型更会「想」,但也带来很重要的问题:越长越易偏离正确答案或陷入自我重复,正确率反而下降,如下图所示。现有方法多依赖额外训练(SFT/RL)或激进剪枝,落地成本高或稳定性不佳。DTS 开辟了一条全新的技术路线:不训练,只优化解码策略,把「想得又短又准」转变为解码中的搜索问题。



关键实证:最短那条,往往是对的


作者对 AIME24 上的题目做了密集采样:每题 100 次随机解码。结果非常直观:



  • 选最短(每题从 100 条里挑最短):76.67% 准确率
  • 选最长:10.00%
  • 总体平均:51.03%

并且,长度与准确率呈明显负相关:样本点越靠右(越长),正确率越低。这直接催生了 DTS 的目标:以尽可能小的代价,逼近「最短且正确」的那条路径。

Decoding Tree Sketching(稀疏化接码树)


把推理过程看成一棵解码树:节点是已生成 token,路径是一次完整 CoT,叶子节点就是该 CoT 的终止符(指数爆炸的复杂度,因此不可行。DTS 的思路是:只在「关键 token」考虑多种可能的结果从而分支构造树结构,如图所示:

)。寻找最短的推理路径相当于搜索从根节点到最浅层的叶子节点的路径。在这个问题中,穷举搜索可以得到最理想的路径,但是这回造成树分支有



在高熵处产生分支

  • 在解码过程中,DTS 计算下一个 token 分布的熵 H (v)。
  • 若 H (v) ≥ τ(模型不确定):取 Top-K 候选,同时开 K 个分支;
  • 若 H (v) < τ(模型很确定):沿单分支前进(常规解码)。
  • τ 决定「分支的增长的速率」,K 控制「横向宽度」。τ→∞ 时退化为普通自回归解码。

核心思想:不确定才需要分支;确定时不分支,避免解码树乱枝蔓生。

最先完成即早停

  • 任何分支一旦产生终止符(
  • ),立即返回这条路径的推理过程和答案;
  • 等价于在「稀疏化的解码树」上做 BFS 的最短路原则。

核心思想:把「短即优」的统计规律写进了停止准则。

实验:更准、少复读


QA 准确率提升

DTS 在 AIME2024 和 AIME2025 与传统自回归解码的对比:



结论: 稀疏化解码树 + 早停稳定提升模型最终回答的准确率。

有效抑制模型的「无尽复读」

统计「无法在最大长度内收敛、陷入循环」的比例:



结论:稀疏化解码树 + 早停让「自我复读」的路径被更短的完成路径代替。

一键复现结果


在 Colab 上试运行 DTS: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb

克隆 DTS 的开源项目,并且安装环境:



复现论文中的结果:



结论


DTS 以极低的工程成本,为推理型大模型提供了一种「更聪明」的思考方式。它不依赖后训练,不修改模型参数,仅通过稀疏化的解码树探索最短的推理路径,就能显著提高准确率、减少复读。这种「在不确定处分支、在确定处直行」的设计,使得大模型的推理过程更像人类的理性思考:在模糊时多想几步,在明确时迅速收敛。

DTS 的核心贡献在于:

  • 提出一种全新的推理优化范式,把推理质量问题转化为解码搜索问题;
  • 揭示推理链长度与准确率的统计规律,为未来的推理模型提供可量化的优化方向;
  • 在实际基准上验证有效性与可迁移性,可直接用于主流推理模型。

从更长远的角度看,DTS 展示了一种轻量化的推理优化路线:让模型「想得更少但更准」。未来,类似的解码层优化有望与多步推理、校准与不确定性估计等方向结合,为 Large Reasoning Models 的高效与可靠推理开辟新的路径。

作者介绍

  • 徐子程:Johns Hopkins University 一年级博士生,研究领域为 LLM alignment,以及 inference time scaling。
  • 王冠楚:University of North Carolina at Charlotte 助理教授,研究领域为 LLM reasoning,AI 安全性以及 AI for healthcare。
  • 楼修逸:Johns Hopkins University 硕士研究生,研究方向为 LLM alignment,以及强化学习。
  • Yu-Neng Chuang:Rice University 五年级博士生,研究领域为,研究方向为 LLM reasoning,LLM post-training,以及 LLM Routing。
  • Guangyao Zheng:Johns Hopkins University 四年级博士生,研究领域为 scalable,privacy-aware AI,以及 AI for healthcare。
  • 刘子锐:University of Minnesota 助理教授,研究领域为 LLM efficiency,long-context ability,以及 reasoning。
  • Vladimir Braverman:Johns Hopkins University 教授、计算机系副主任,带领团队专注于 Theoretical ML、Optimization、NLP,以及 digital health 等方向的研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西贝公关副总裁离职,贾国龙:他是个好人,因个人发展原因离职,此前投资了他的创业,今后还会支持

西贝公关副总裁离职,贾国龙:他是个好人,因个人发展原因离职,此前投资了他的创业,今后还会支持

大象新闻
2026-01-17 00:21:11
太平天国打不过曾国藩,是因为它不论军事、政治、外交、执政能力,都是全面落后于晚清中央政府

太平天国打不过曾国藩,是因为它不论军事、政治、外交、执政能力,都是全面落后于晚清中央政府

历史按察使司
2025-12-22 12:04:22
金庸给了她最可爱的名字,她却无脑滥情,瞒着丈夫为恶人生了孩子

金庸给了她最可爱的名字,她却无脑滥情,瞒着丈夫为恶人生了孩子

耳东文史
2026-01-03 00:03:22
执掌皇马23年!78岁佛爷或被迫离任:纵容熊皇胡闹 20年旧事重演

执掌皇马23年!78岁佛爷或被迫离任:纵容熊皇胡闹 20年旧事重演

风过乡
2026-01-16 07:43:33
商业航天之后,2026年哪三大赛道将接棒成新主线?

商业航天之后,2026年哪三大赛道将接棒成新主线?

Thurman在昆明
2026-01-16 08:44:11
比朝鲜还封闭的国家?富得流油,首都只能开白车,建筑只能是白色

比朝鲜还封闭的国家?富得流油,首都只能开白车,建筑只能是白色

铁锤简科
2025-12-09 11:13:15
一文看懂接机阵容,加总理访华第一天,就对中方提建议,期待实现

一文看懂接机阵容,加总理访华第一天,就对中方提建议,期待实现

小叨娱乐
2026-01-17 00:40:35
9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

诗酒趁的年华
2026-01-16 22:56:17
王励勤出手了!国乒大洗牌重点培养5位选手 孙颖莎王楚钦陷入两难

王励勤出手了!国乒大洗牌重点培养5位选手 孙颖莎王楚钦陷入两难

天天热点见闻
2026-01-16 06:50:07
1月16日,雷总直播后果然小米股又跌,依然大家都红只有它绿

1月16日,雷总直播后果然小米股又跌,依然大家都红只有它绿

诺诺谈史
2026-01-16 12:01:28
云南“金疙瘩”摇身一变,香出国门、身价飙升!丨在云南样样好

云南“金疙瘩”摇身一变,香出国门、身价飙升!丨在云南样样好

爱下厨的阿椅
2026-01-16 03:42:16
乌情报局长:如果不是俄乌战争的爆发,俄罗斯不会这么依赖中国。

乌情报局长:如果不是俄乌战争的爆发,俄罗斯不会这么依赖中国。

百态人间
2026-01-13 16:42:44
中国被迫入局,不帮俄罗斯都不行?美国失算,中方走了一步妙棋

中国被迫入局,不帮俄罗斯都不行?美国失算,中方走了一步妙棋

小蔑谈事
2025-12-29 11:20:11
济南地铁四期受益者揭晓:万象城CBD优势尽显

济南地铁四期受益者揭晓:万象城CBD优势尽显

石辰搞笑日常
2026-01-17 02:30:47
王自如喊冤:锤子手机不是我黑倒闭的,你们高估了我的能量……

王自如喊冤:锤子手机不是我黑倒闭的,你们高估了我的能量……

柴狗夫斯基
2026-01-15 08:33:54
人工智能专业排名“大洗牌”,清华跌出前三,深圳大学排名第7

人工智能专业排名“大洗牌”,清华跌出前三,深圳大学排名第7

我不叫阿哏
2026-01-16 01:42:05
“原来外国人觉得中国人身上很臭”,网友炸锅,老外才是最臭的!

“原来外国人觉得中国人身上很臭”,网友炸锅,老外才是最臭的!

有趣的火烈鸟
2026-01-10 12:09:06
鸡蛋是血管的良药!再次提醒:到了70岁,保护血管牢记3不要

鸡蛋是血管的良药!再次提醒:到了70岁,保护血管牢记3不要

涵豆说娱
2025-10-28 16:04:45
许世友的孙女许道江,新中国火箭军首位军事女博士,她是何军衔?

许世友的孙女许道江,新中国火箭军首位军事女博士,她是何军衔?

浔阳咸鱼
2026-01-01 06:35:07
如果你在2026年初用1,000美元买入比特币,现在你会有多少?

如果你在2026年初用1,000美元买入比特币,现在你会有多少?

FX168链界观察
2026-01-16 14:16:21
2026-01-17 03:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12133文章数 142542关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

美媒披露:美国出动海军陆战队和福特号航母

头条要闻

美媒披露:美国出动海军陆战队和福特号航母

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

手机
教育
健康
时尚
军事航空

手机要闻

真我Power再曝,6.78英寸曲面屏、万级大电池

教育要闻

初试成绩出来了!404分...

血常规3项异常,是身体警报!

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版