网易首页 > 网易号 > 正文 申请入驻

DTS框架让大模型推理准确率提升6%,推理长度缩短23%

0
分享至



专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作 DTS(Decoding Tree Sketching):一种即插即用的模型推理框架,依靠高不确定度分支推理和最先完成路径早停两个关键策略,以近似找到最短且正确的推理路径。



  • 论文地址:https://arxiv.org/pdf/2511.00640
  • 开源工程:https://github.com/ZichengXu/Decoding-Tree-Sketching
  • Colab online demo: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb#scrollTo=oTrZL0i3UstX

在 AIME2024/2025 上,DTS 在 DeepSeek-R1-Distill-Qwen-7B/1.5B 上准确率平均提升 6%、平均推理长度下降约 23%,无尽重复率平均减少 10%。



  • 核心洞见:推理链长度与正确率显著负相关;多次解码中最短的推理链往往最正确。
  • 方法一句话:在「高熵」位置展开多分支并行解码;哪个分支最先生成终止符(
  • )就立刻停止,从而完成最短路径推理。
  • 无需训练:不做 SFT/RL,不改模型权重,纯解码策略,即插即用。
  • 实证结果:AIME24/25 上,7B/1.5B 模型准确率 +2%~+8%,平均长度 -17%~-29%,无尽重复率下降 5%~20%。

背景:推理大模型的「过度思考」问题


CoT / 多步推理让模型更会「想」,但也带来很重要的问题:越长越易偏离正确答案或陷入自我重复,正确率反而下降,如下图所示。现有方法多依赖额外训练(SFT/RL)或激进剪枝,落地成本高或稳定性不佳。DTS 开辟了一条全新的技术路线:不训练,只优化解码策略,把「想得又短又准」转变为解码中的搜索问题。



关键实证:最短那条,往往是对的


作者对 AIME24 上的题目做了密集采样:每题 100 次随机解码。结果非常直观:



  • 选最短(每题从 100 条里挑最短):76.67% 准确率
  • 选最长:10.00%
  • 总体平均:51.03%

并且,长度与准确率呈明显负相关:样本点越靠右(越长),正确率越低。这直接催生了 DTS 的目标:以尽可能小的代价,逼近「最短且正确」的那条路径。

Decoding Tree Sketching(稀疏化接码树)


把推理过程看成一棵解码树:节点是已生成 token,路径是一次完整 CoT,叶子节点就是该 CoT 的终止符(指数爆炸的复杂度,因此不可行。DTS 的思路是:只在「关键 token」考虑多种可能的结果从而分支构造树结构,如图所示:

)。寻找最短的推理路径相当于搜索从根节点到最浅层的叶子节点的路径。在这个问题中,穷举搜索可以得到最理想的路径,但是这回造成树分支有



在高熵处产生分支

  • 在解码过程中,DTS 计算下一个 token 分布的熵 H (v)。
  • 若 H (v) ≥ τ(模型不确定):取 Top-K 候选,同时开 K 个分支;
  • 若 H (v) < τ(模型很确定):沿单分支前进(常规解码)。
  • τ 决定「分支的增长的速率」,K 控制「横向宽度」。τ→∞ 时退化为普通自回归解码。

核心思想:不确定才需要分支;确定时不分支,避免解码树乱枝蔓生。

最先完成即早停

  • 任何分支一旦产生终止符(
  • ),立即返回这条路径的推理过程和答案;
  • 等价于在「稀疏化的解码树」上做 BFS 的最短路原则。

核心思想:把「短即优」的统计规律写进了停止准则。

实验:更准、少复读


QA 准确率提升

DTS 在 AIME2024 和 AIME2025 与传统自回归解码的对比:



结论: 稀疏化解码树 + 早停稳定提升模型最终回答的准确率。

有效抑制模型的「无尽复读」

统计「无法在最大长度内收敛、陷入循环」的比例:



结论:稀疏化解码树 + 早停让「自我复读」的路径被更短的完成路径代替。

一键复现结果


在 Colab 上试运行 DTS: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb

克隆 DTS 的开源项目,并且安装环境:



复现论文中的结果:



结论


DTS 以极低的工程成本,为推理型大模型提供了一种「更聪明」的思考方式。它不依赖后训练,不修改模型参数,仅通过稀疏化的解码树探索最短的推理路径,就能显著提高准确率、减少复读。这种「在不确定处分支、在确定处直行」的设计,使得大模型的推理过程更像人类的理性思考:在模糊时多想几步,在明确时迅速收敛。

DTS 的核心贡献在于:

  • 提出一种全新的推理优化范式,把推理质量问题转化为解码搜索问题;
  • 揭示推理链长度与准确率的统计规律,为未来的推理模型提供可量化的优化方向;
  • 在实际基准上验证有效性与可迁移性,可直接用于主流推理模型。

从更长远的角度看,DTS 展示了一种轻量化的推理优化路线:让模型「想得更少但更准」。未来,类似的解码层优化有望与多步推理、校准与不确定性估计等方向结合,为 Large Reasoning Models 的高效与可靠推理开辟新的路径。

作者介绍

  • 徐子程:Johns Hopkins University 一年级博士生,研究领域为 LLM alignment,以及 inference time scaling。
  • 王冠楚:University of North Carolina at Charlotte 助理教授,研究领域为 LLM reasoning,AI 安全性以及 AI for healthcare。
  • 楼修逸:Johns Hopkins University 硕士研究生,研究方向为 LLM alignment,以及强化学习。
  • Yu-Neng Chuang:Rice University 五年级博士生,研究领域为,研究方向为 LLM reasoning,LLM post-training,以及 LLM Routing。
  • Guangyao Zheng:Johns Hopkins University 四年级博士生,研究领域为 scalable,privacy-aware AI,以及 AI for healthcare。
  • 刘子锐:University of Minnesota 助理教授,研究领域为 LLM efficiency,long-context ability,以及 reasoning。
  • Vladimir Braverman:Johns Hopkins University 教授、计算机系副主任,带领团队专注于 Theoretical ML、Optimization、NLP,以及 digital health 等方向的研究。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“高净值家庭”标准出炉:全中国共有512.8万户,你家达标了吗?

“高净值家庭”标准出炉:全中国共有512.8万户,你家达标了吗?

蓝色海边
2026-04-21 18:00:04
重庆交运物流有限公司因违规转包被暂停全军物资工程服务采购资格

重庆交运物流有限公司因违规转包被暂停全军物资工程服务采购资格

齐鲁壹点
2026-04-21 11:07:25
申花VS青岛海牛:吴曦+汪海健坐镇中场,谢鹏飞领衔,4大外援出击

申花VS青岛海牛:吴曦+汪海健坐镇中场,谢鹏飞领衔,4大外援出击

零度眼看球
2026-04-22 07:24:58
美国明知道中国在搞原子弹,为何不阻止?答:想炸,但不敢炸

美国明知道中国在搞原子弹,为何不阻止?答:想炸,但不敢炸

掠影后有感
2026-04-21 10:28:52
李亚鹏官宣!嫣然医院告别14年租房,新院区地理位置优越

李亚鹏官宣!嫣然医院告别14年租房,新院区地理位置优越

王楔晓
2026-04-21 04:42:47
中国人在哈萨克斯坦生活实录:饭太多、女人太飒、聊天太上头了!

中国人在哈萨克斯坦生活实录:饭太多、女人太飒、聊天太上头了!

老特有话说
2026-04-19 15:29:16
世锦赛4月22日赛程:3国手收官首轮,斯佳辉vs瓦菲,火箭vs国强

世锦赛4月22日赛程:3国手收官首轮,斯佳辉vs瓦菲,火箭vs国强

林子说事
2026-04-21 21:07:33
爱奇艺AI发布会:一场3小时市值蒸发式的公关灾难

爱奇艺AI发布会:一场3小时市值蒸发式的公关灾难

像素与芯片
2026-04-21 17:18:38
斯诺克世锦赛:决胜局中袋失误,范争一9-10惜败世界第8,无缘16强

斯诺克世锦赛:决胜局中袋失误,范争一9-10惜败世界第8,无缘16强

俯身冲顶
2026-04-22 06:50:38
美国劳工部长被解职

美国劳工部长被解职

新京报
2026-04-21 07:23:07
不插电、没绿牌!被抛弃的HEV,2026即将席卷全球?

不插电、没绿牌!被抛弃的HEV,2026即将席卷全球?

新浪财经
2026-04-21 04:53:23
西蒙尼夫妇在马德里投资房地产大赚,二人身家合计约4000万欧

西蒙尼夫妇在马德里投资房地产大赚,二人身家合计约4000万欧

懂球帝
2026-04-21 09:39:09
中国男子在中东教汉语,娶三位本地姑娘,生下混血,却坦言养不起

中国男子在中东教汉语,娶三位本地姑娘,生下混血,却坦言养不起

三农老历
2026-04-15 19:17:15
34岁韦东奕官宣喜讯,恭喜!

34岁韦东奕官宣喜讯,恭喜!

二胡的岁月如歌
2026-04-21 15:37:16
大同女子偷情记录曝光后续:酒店已报备彻查,网友曝光原始内容

大同女子偷情记录曝光后续:酒店已报备彻查,网友曝光原始内容

李橑在北漂
2026-04-21 11:15:16
网传054A护航中国商船穿越霍尔木兹,喊话美海军,不受指令约束

网传054A护航中国商船穿越霍尔木兹,喊话美海军,不受指令约束

爱吃醋的猫咪
2026-04-17 20:35:17
3年烧掉183亿!央视点名哪吒汽车崩盘:全是输局

3年烧掉183亿!央视点名哪吒汽车崩盘:全是输局

看看新闻Knews
2026-04-22 01:00:08
最坏结果原地退役,杜兰特打不打,管理层都该考虑这些事了

最坏结果原地退役,杜兰特打不打,管理层都该考虑这些事了

兵哥篮球故事
2026-04-21 21:47:55
斯诺克世锦赛太残酷了:随着范争一9-10,已有4名中国选手止步32强

斯诺克世锦赛太残酷了:随着范争一9-10,已有4名中国选手止步32强

俯身冲顶
2026-04-22 06:56:40
相依为命母突罹癌! 饶舌歌手崩溃吐心声:不想面对现实

相依为命母突罹癌! 饶舌歌手崩溃吐心声:不想面对现实

ETtoday星光云
2026-04-21 17:32:04
2026-04-22 08:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12822文章数 142633关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

伊朗极限拉扯拒绝谈判 特朗普宣布:延长停火期限

头条要闻

伊朗极限拉扯拒绝谈判 特朗普宣布:延长停火期限

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

旅游
艺术
亲子
游戏
公开课

旅游要闻

云南石屏神黄豆花盛放

艺术要闻

无花不风景

亲子要闻

才六天的马宝宝,发这个视频没有别的意思,只是想骗你们生女儿而已

涨价两周即回调!索尼官方PS5数字版定价重回399美元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版