网易首页 > 网易号 > 正文 申请入驻

AI话痨终结者!UCSD清华提出「思维扫描术」Dynasor-CoT,推理巨省token

0
分享至

新智元报道

编辑:好困 犀牛

【新智元导读】推理模型在复杂任务上表现惊艳,缺点是低下的token效率。UCSD清华等机构的研究人员发现,问题根源在于模型的「自我怀疑」!研究团队提出了Dynasor-CoT,一种无需训练、侵入性小且简单的方法。实验证明,Dynasor-CoT在保持准确性的同时,能减少高达29%的token消耗,且不增加推理延迟。

这段时间,诸如DeepSeek-R1和OpenAI o1/o3这类的CoT推理模型,在复杂任务上展现出了惊人的性能。

然而,与早期模型相比,它们的token效率却非常之低。即,需要消耗更多的token才能达到相同的准确率。

下图展示了传统模型的token效率曲线比推理模型陡峭得多。

最近,来自加州大学圣地亚哥分校、清华等机构的研究人员揪出了罪魁祸首——「自我怀疑」。

论文地址:https://arxiv.org/abs/2412.20993

项目主页:https://hao-ai-lab.github.io/blogs/dynasor-cot/

代码地址:https://github.com/hao-ai-lab/Dynasor

Demo:https://hao-ai-lab.github.io/demo/dynasor-cot

换句话说就是,模型明明早就算出正确答案,却要反复验算纠结,白白耗费海量计算资源!

以一个简单问题 (1+2i)*6-3i测试为例:传统Qwen-7B用180个token轻松解题,而升级后的Deepseek版Qwen-7B虽在第340个token就得出正确答案,却硬生生续写1000+token反复验证!

这种「学霸强迫症」,让DeepSeek等顶尖模型浪费了高达70%的算力!

为了解决模型的「自我怀疑」问题,研究团队提出了Dynasor-CoT,一种无需训练、侵入性最小且简单的方法,用于长链式推理(CoT)。

这种方法结合了基于确定性的启发式方法与「思维CT扫描术」技术,以动态确定(推理链的)终止点。在保持准确性的同时有效地截断推理链。

实现了高达29%的token减少,同时不影响准确性,也不会给关键推理路径带来额外的延迟。

目前,团队已将这款「AI话痨终结者」系统全面开源,快来看看你的AI能省多少token吧!

值得一提的是,本文的作者组USCD张昊实验室还曾经推出过诸多知名研究项目,包括如今风靡全球的大模型竞技场(LLM Arena、vLLM,Prefill-decode分离式服务架构等。

AI「思维CT扫描术」

为了系统地研究这个现象,研究人员开发了一种「思维CT扫描术」(Probe-In-The-Middle)。

通过在模型推理过程中插入特定提示(比如「啊!我悟了,答案是:」),来提取模型某一个中间思考节点的答案,从而确定到底模型最早在什么时候得到了正确答案。

就像考试时监考老师突然抽走草稿纸,逼迫AI提前交卷!

下图展示了不使用和使用「思维CT扫描术」两种方式的准确率对比分析。左边采用标准推理。右边使用「思维CT扫描术」技术提取早期答案,可以看出在50%的token减少下具有等效的准确性。

在相同的token预算下,绿色区域越早出现表示正确答案到达得越早——明显更绿的右侧面板表明模型实际上知道答案的时间比标准推理中显示的要早得多。

以AMC23数据集为例,推理模型通常在早期就得到了正确答案(中位数:830个token),但由于「自我怀疑」会继续生成不必要的token(中位数:2.7K个token)。

这种自我怀疑现象严重影响了token效率,因为模型即使内心已经对答案有一定把握,还是会继续推理。

基于信心值的早停策略,巧妙减少token消耗!

想象一下,我们给AI装了一个智能「话痨终结者」。每当AI说了一定数量的话(比如64个token),「思维CT扫描术」(probe-in-the-middle)就会悄悄启动:

  1. 首先,像医生做CT扫描一样,给AI的思维来个「断层扫描」,提取它当前的答案。

  2. 有趣的是,AI完全不知道自己被「扫描」了!它会继续自顾自地推理,继续写解题步骤。

  3. 如果AI连续N次的「CT扫描」结果都显示同一个答案,系统就会判定AI非常自信,并果断按下停止键。坚定地告诉这位同学:「你已经答对了,不用再证明了!」

Dynasor-CoT通过三种关键机制提高长CoT LLM推理中的token效率:提取答案、确定性评估和生成后验证。

下图展示了Dynasor-CoT方法。如果模型回答比较确定则退出(案例 1),遇到有犹豫含义的词汇(例如,等等)则继续生成(案例 3),如果模型推理不足够确定也继续生成(案例 2)。

中间探针

研究人员在模型生成过程中引入了名为「中间探针」(probe-in-the-middle)的战略干预。

他们在模型推理的中间阶段添加精心设计的引导,以明确地提取出模型当前的答案。

这种方法利用了他们的观察,即推理LLM通常在完成其完整的推理链之前就能达到正确答案。

当LLM已经在其内部得出结论时,这种早期提取技术显著降低了计算成本。

通过答案一致性进行确定性评估

研究人员实现了一种动态确定性评估机制,该机制定期(例如每32、64或128个标记)监控模型的输出。

在每个间隔内,探测模型以提取和存储当前答案,然后允许LLM继续其生成。重要的是,后续的生成不受探测标记的影响,从而实现答案提取和原始生成的并行执行。

当模型在多个间隔内产生一致的答案时,将其模式解释为确定性的指标,遵循certaindex方法Dynasor。这种方法为模型的确定性提供了定量度量。

AI的微表情识别术:揪出不自信的时刻!

研究人员发现,AI也有自己的「微表情」!通过仔细观察AI的语言习惯,他们找到了判断AI是否自信的妙招:

  • 当AI说出「等等」、「嗯...」这样的词时,就像人类皱眉思考或挠头的动作,说明它对自己的答案并不太有把握。

  • 这时候,即使「思维CT扫描」得到了答案,我们也要对它保持警惕,不能轻易相信一个支支吾吾的回答。

  • 这种语言习惯分析,就像是给AI装了一个「情绪探测器」,能够精准捕捉到它的不自信时刻!

总的说来,这种方法利用了模型在中间阶段得出结论的能力,也保持了针对过早或不确定响应的强大保障措施。

Certaindex:一个更野心勃勃的目标!

这套基于信心值的策略远不止于此,它还有更广阔的应用前景:

  • 它可以推广到各种高级推理算法中,比如自洽性检验(self-consistency)、蒙特卡洛树搜索(MCTS)等。

  • 就像一个通用的「自信度测量仪」,能够适应不同的思维方式。

  • 不管AI用什么方法思考,这个系统都能准确判断:「嗯,这个答案它是真的有把握。」

通过这种方式,研究人员不仅让AI变得更高效,还让它的思维过程变得更透明、更可控。并且,还能 知道什么时候该停下来,而不是无休止地解释、验证。

最重要的是,这个方法不需要重新训练模型,可以直接应用到现有的AI系统中,堪称即插即用的效率神器!

Dynasor:大模型推理的「调度大师」

简单说,Dynasor就像是大模型推理任务的「智能调度系统」:

1. 智能资源分配

  • 基于Certaindex(信心值系统)动态分配计算资源

  • 像调度员一样安排每个推理任务的优先级和资源

2. 结构化管理

  • 把复杂推理任务变成结构化的程序

  • 在应用层和系统层实现高效调度

  • 通过缓存优化提升性能

总之,它就是让AI推理既快又准的效率神器!就像给大模型装了个智能管家,让推理过程更加高效有序。

下图展示了该架构通过本地应用程序组件与服务器端系统管理之间的相互作用,实现了高效的资源分配。

实验结果:大幅提升推理效率!

研究团队在多个数学推理数据集(AIME24、AMC23和MATH500)上测试了这套系统,使用了不同规模的DeepSeek模型(7B、14B和32B)。

下图评估了不同的探测间隔(如32、64等),这些间隔通过不同颜色的线条表示,并且最大token预算为16K。

对于每个间隔,研究人员调整了早期终止参数N(所需的连续一致答案的数量),从而生成每条线上的不同点。所有配置都实现了显著的token节省,在保持与基准模型相当的准确度的同时,将token使用量减少了最多29%。

为了公平比较,适当的准确度阈值已根据模型规模进行校准——对于32B模型,使用严格的阈值标准,而对于较小的模型,则使用较低的阈值,同时在较简单的任务中设置更高的目标,以便达到更高的准确度。

对于该方法在token减少方面表现最好的10%问题,研究人员观察到AIME节省了34%的token,MATH500节省了53%。

在最优的1%问题中效果更加显著——AIME节省了53%,MATH500节省了高达81%!

这种表现显示了这种动态方法相对于固定token预算的优势,因为不同问题在达到解决方案时对token的需求有所不同。

为了验证可扩展性,研究人员将实验扩展到更大的DeepSeek-R1模型。

下图显示了Dynasor-CoT在DeepSeek-R1上和较小蒸馏模型上表现一致,实现持续的效率提升:DeepSeek-R1在AIME问题上实现了12%的token节省,在AMC问题上实现了24%,同时保持了基线准确率水平。

参考资料:

https://hao-ai-lab.github.io/blogs/

https://github.com/hao-ai-lab/Dynasor

https://hao-ai-lab.github.io/demo/dynasor-cot

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
视频画面显示,美国和18国签署“和平委员会”章程

视频画面显示,美国和18国签署“和平委员会”章程

参考消息
2026-01-22 21:57:05
李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

牛牛叨史
2025-12-10 22:19:51
马克龙埋怨中国,中方接过话筒后,8字震惊全场,特朗普专机迫降

马克龙埋怨中国,中方接过话筒后,8字震惊全场,特朗普专机迫降

墨兰史书
2026-01-22 12:25:02
吕颂贤首度回应ICU昏迷7天

吕颂贤首度回应ICU昏迷7天

上观新闻
2026-01-22 20:27:06
伊能静真人又矮又胖,臀部好宽大

伊能静真人又矮又胖,臀部好宽大

TVB的四小花
2026-01-07 01:18:53
原广州太阳神中后卫,因不洁身自好被禁赛,彭锦波

原广州太阳神中后卫,因不洁身自好被禁赛,彭锦波

硬腿子聊个球
2026-01-22 06:00:07
澳网爆出大冷门!去年四强不敌No.101,送对手首进大满贯第3轮

澳网爆出大冷门!去年四强不敌No.101,送对手首进大满贯第3轮

全景体育V
2026-01-22 10:02:46
星舰基地起重机倒塌,SpaceX被罚11.585万美元

星舰基地起重机倒塌,SpaceX被罚11.585万美元

IT之家
2026-01-21 14:54:27
为什么酒店床上总放四个枕头?

为什么酒店床上总放四个枕头?

中国新闻周刊
2026-01-20 21:26:19
谁也没想到,被传4个老婆,全家移民的潘长江,已走上另一条大道

谁也没想到,被传4个老婆,全家移民的潘长江,已走上另一条大道

削桐作琴
2026-01-20 17:16:48
新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

新冠病毒3大结局已经不可避免,60岁以上的老年人尤其要注意

医护健康科普
2025-08-31 17:07:58
时装周第二弹:孔刘撞脸黄渤,王鹤棣扛住镜头,刘诗诗怎么变这样

时装周第二弹:孔刘撞脸黄渤,王鹤棣扛住镜头,刘诗诗怎么变这样

八卦南风
2026-01-21 14:41:50
为什么去非洲的中国人不愿回来?看完网友的分享,太真实了!

为什么去非洲的中国人不愿回来?看完网友的分享,太真实了!

另子维爱读史
2026-01-18 20:06:34
熊绑架刘记,刘记避嫌

熊绑架刘记,刘记避嫌

蜻蜓世音
2026-01-22 20:12:15
你不大可能见过的照片

你不大可能见过的照片

霹雳炮
2025-10-04 22:58:14
东京都与中方协商决定:大熊猫“晓晓”和“蕾蕾”提前返回中国!

东京都与中方协商决定:大熊猫“晓晓”和“蕾蕾”提前返回中国!

荆楚寰宇文枢
2026-01-21 22:34:45
中方购入1200万吨大豆,美财长公开摊牌,中国再也见不到委石油了

中方购入1200万吨大豆,美财长公开摊牌,中国再也见不到委石油了

蓝色海边
2026-01-22 16:24:24
意甲:米兰正在考虑签下诺顿.卡菲,当作萨勒马克尔斯的首席替补

意甲:米兰正在考虑签下诺顿.卡菲,当作萨勒马克尔斯的首席替补

菲儿看球
2026-01-22 22:05:34
黄友政连续被罚分心态崩盘!后3局被质疑消极比赛 刘志强申诉未果

黄友政连续被罚分心态崩盘!后3局被质疑消极比赛 刘志强申诉未果

颜小白的篮球梦
2026-01-22 20:07:18
特朗普宣布成立 “和平委员会”,10 国签字,中俄这样回应

特朗普宣布成立 “和平委员会”,10 国签字,中俄这样回应

暮光视界
2026-01-22 17:16:14
2026-01-22 22:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14385文章数 66522关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

北约称将确保中俄不在格陵兰岛有军事立足点 中方回应

头条要闻

北约称将确保中俄不在格陵兰岛有军事立足点 中方回应

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

家居
艺术
数码
手机
教育

家居要闻

法式风情 南洋中古居

艺术要闻

一场雪,飘进了唐诗

数码要闻

山灵UA1Ⅱ便携解码耳放预热:屏幕按键一体化设计,本月下旬上市

手机要闻

iQOO15 Ultra双配色亮相,外观设计公布

教育要闻

青春不应是一张模糊的脸!技术赋能,成都这所中学让每一分成长真实可见

无障碍浏览 进入关怀版