网易首页 > 网易号 > 正文 申请入驻

AI话痨终结者!UCSD清华提出「思维扫描术」Dynasor-CoT,推理巨省token

0
分享至

新智元报道

编辑:好困 犀牛

【新智元导读】推理模型在复杂任务上表现惊艳,缺点是低下的token效率。UCSD清华等机构的研究人员发现,问题根源在于模型的「自我怀疑」!研究团队提出了Dynasor-CoT,一种无需训练、侵入性小且简单的方法。实验证明,Dynasor-CoT在保持准确性的同时,能减少高达29%的token消耗,且不增加推理延迟。

这段时间,诸如DeepSeek-R1和OpenAI o1/o3这类的CoT推理模型,在复杂任务上展现出了惊人的性能。

然而,与早期模型相比,它们的token效率却非常之低。即,需要消耗更多的token才能达到相同的准确率。

下图展示了传统模型的token效率曲线比推理模型陡峭得多。

最近,来自加州大学圣地亚哥分校、清华等机构的研究人员揪出了罪魁祸首——「自我怀疑」。

论文地址:https://arxiv.org/abs/2412.20993

项目主页:https://hao-ai-lab.github.io/blogs/dynasor-cot/

代码地址:https://github.com/hao-ai-lab/Dynasor

Demo:https://hao-ai-lab.github.io/demo/dynasor-cot

换句话说就是,模型明明早就算出正确答案,却要反复验算纠结,白白耗费海量计算资源!

以一个简单问题 (1+2i)*6-3i测试为例:传统Qwen-7B用180个token轻松解题,而升级后的Deepseek版Qwen-7B虽在第340个token就得出正确答案,却硬生生续写1000+token反复验证!

这种「学霸强迫症」,让DeepSeek等顶尖模型浪费了高达70%的算力!

为了解决模型的「自我怀疑」问题,研究团队提出了Dynasor-CoT,一种无需训练、侵入性最小且简单的方法,用于长链式推理(CoT)。

这种方法结合了基于确定性的启发式方法与「思维CT扫描术」技术,以动态确定(推理链的)终止点。在保持准确性的同时有效地截断推理链。

实现了高达29%的token减少,同时不影响准确性,也不会给关键推理路径带来额外的延迟。

目前,团队已将这款「AI话痨终结者」系统全面开源,快来看看你的AI能省多少token吧!

值得一提的是,本文的作者组USCD张昊实验室还曾经推出过诸多知名研究项目,包括如今风靡全球的大模型竞技场(LLM Arena、vLLM,Prefill-decode分离式服务架构等。

AI「思维CT扫描术」

为了系统地研究这个现象,研究人员开发了一种「思维CT扫描术」(Probe-In-The-Middle)。

通过在模型推理过程中插入特定提示(比如「啊!我悟了,答案是:」),来提取模型某一个中间思考节点的答案,从而确定到底模型最早在什么时候得到了正确答案。

就像考试时监考老师突然抽走草稿纸,逼迫AI提前交卷!

下图展示了不使用和使用「思维CT扫描术」两种方式的准确率对比分析。左边采用标准推理。右边使用「思维CT扫描术」技术提取早期答案,可以看出在50%的token减少下具有等效的准确性。

在相同的token预算下,绿色区域越早出现表示正确答案到达得越早——明显更绿的右侧面板表明模型实际上知道答案的时间比标准推理中显示的要早得多。

以AMC23数据集为例,推理模型通常在早期就得到了正确答案(中位数:830个token),但由于「自我怀疑」会继续生成不必要的token(中位数:2.7K个token)。

这种自我怀疑现象严重影响了token效率,因为模型即使内心已经对答案有一定把握,还是会继续推理。

基于信心值的早停策略,巧妙减少token消耗!

想象一下,我们给AI装了一个智能「话痨终结者」。每当AI说了一定数量的话(比如64个token),「思维CT扫描术」(probe-in-the-middle)就会悄悄启动:

  1. 首先,像医生做CT扫描一样,给AI的思维来个「断层扫描」,提取它当前的答案。

  2. 有趣的是,AI完全不知道自己被「扫描」了!它会继续自顾自地推理,继续写解题步骤。

  3. 如果AI连续N次的「CT扫描」结果都显示同一个答案,系统就会判定AI非常自信,并果断按下停止键。坚定地告诉这位同学:「你已经答对了,不用再证明了!」

Dynasor-CoT通过三种关键机制提高长CoT LLM推理中的token效率:提取答案、确定性评估和生成后验证。

下图展示了Dynasor-CoT方法。如果模型回答比较确定则退出(案例 1),遇到有犹豫含义的词汇(例如,等等)则继续生成(案例 3),如果模型推理不足够确定也继续生成(案例 2)。

中间探针

研究人员在模型生成过程中引入了名为「中间探针」(probe-in-the-middle)的战略干预。

他们在模型推理的中间阶段添加精心设计的引导,以明确地提取出模型当前的答案。

这种方法利用了他们的观察,即推理LLM通常在完成其完整的推理链之前就能达到正确答案。

当LLM已经在其内部得出结论时,这种早期提取技术显著降低了计算成本。

通过答案一致性进行确定性评估

研究人员实现了一种动态确定性评估机制,该机制定期(例如每32、64或128个标记)监控模型的输出。

在每个间隔内,探测模型以提取和存储当前答案,然后允许LLM继续其生成。重要的是,后续的生成不受探测标记的影响,从而实现答案提取和原始生成的并行执行。

当模型在多个间隔内产生一致的答案时,将其模式解释为确定性的指标,遵循certaindex方法Dynasor。这种方法为模型的确定性提供了定量度量。

AI的微表情识别术:揪出不自信的时刻!

研究人员发现,AI也有自己的「微表情」!通过仔细观察AI的语言习惯,他们找到了判断AI是否自信的妙招:

  • 当AI说出「等等」、「嗯...」这样的词时,就像人类皱眉思考或挠头的动作,说明它对自己的答案并不太有把握。

  • 这时候,即使「思维CT扫描」得到了答案,我们也要对它保持警惕,不能轻易相信一个支支吾吾的回答。

  • 这种语言习惯分析,就像是给AI装了一个「情绪探测器」,能够精准捕捉到它的不自信时刻!

总的说来,这种方法利用了模型在中间阶段得出结论的能力,也保持了针对过早或不确定响应的强大保障措施。

Certaindex:一个更野心勃勃的目标!

这套基于信心值的策略远不止于此,它还有更广阔的应用前景:

  • 它可以推广到各种高级推理算法中,比如自洽性检验(self-consistency)、蒙特卡洛树搜索(MCTS)等。

  • 就像一个通用的「自信度测量仪」,能够适应不同的思维方式。

  • 不管AI用什么方法思考,这个系统都能准确判断:「嗯,这个答案它是真的有把握。」

通过这种方式,研究人员不仅让AI变得更高效,还让它的思维过程变得更透明、更可控。并且,还能 知道什么时候该停下来,而不是无休止地解释、验证。

最重要的是,这个方法不需要重新训练模型,可以直接应用到现有的AI系统中,堪称即插即用的效率神器!

Dynasor:大模型推理的「调度大师」

简单说,Dynasor就像是大模型推理任务的「智能调度系统」:

1. 智能资源分配

  • 基于Certaindex(信心值系统)动态分配计算资源

  • 像调度员一样安排每个推理任务的优先级和资源

2. 结构化管理

  • 把复杂推理任务变成结构化的程序

  • 在应用层和系统层实现高效调度

  • 通过缓存优化提升性能

总之,它就是让AI推理既快又准的效率神器!就像给大模型装了个智能管家,让推理过程更加高效有序。

下图展示了该架构通过本地应用程序组件与服务器端系统管理之间的相互作用,实现了高效的资源分配。

实验结果:大幅提升推理效率!

研究团队在多个数学推理数据集(AIME24、AMC23和MATH500)上测试了这套系统,使用了不同规模的DeepSeek模型(7B、14B和32B)。

下图评估了不同的探测间隔(如32、64等),这些间隔通过不同颜色的线条表示,并且最大token预算为16K。

对于每个间隔,研究人员调整了早期终止参数N(所需的连续一致答案的数量),从而生成每条线上的不同点。所有配置都实现了显著的token节省,在保持与基准模型相当的准确度的同时,将token使用量减少了最多29%。

为了公平比较,适当的准确度阈值已根据模型规模进行校准——对于32B模型,使用严格的阈值标准,而对于较小的模型,则使用较低的阈值,同时在较简单的任务中设置更高的目标,以便达到更高的准确度。

对于该方法在token减少方面表现最好的10%问题,研究人员观察到AIME节省了34%的token,MATH500节省了53%。

在最优的1%问题中效果更加显著——AIME节省了53%,MATH500节省了高达81%!

这种表现显示了这种动态方法相对于固定token预算的优势,因为不同问题在达到解决方案时对token的需求有所不同。

为了验证可扩展性,研究人员将实验扩展到更大的DeepSeek-R1模型。

下图显示了Dynasor-CoT在DeepSeek-R1上和较小蒸馏模型上表现一致,实现持续的效率提升:DeepSeek-R1在AIME问题上实现了12%的token节省,在AMC问题上实现了24%,同时保持了基线准确率水平。

参考资料:

https://hao-ai-lab.github.io/blogs/

https://github.com/hao-ai-lab/Dynasor

https://hao-ai-lab.github.io/demo/dynasor-cot

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

中东局势升级!印尼狂砸31亿,抢购中国退役导弹艇,西方不解

胖福的小木屋
2026-03-26 23:27:43
日本公布中国游客免税店2月份消费数据,真的是打脸了!

日本公布中国游客免税店2月份消费数据,真的是打脸了!

消失的电波
2026-03-26 15:20:44
忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

忠告天下子女:再孝顺,也不要为年过75岁的老父老母,做这三件事

风起见你
2026-03-27 00:22:57
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

日均接诊1.5万人次、手术500台,广东这家华南医疗航母火遍全省

健身狂人
2026-03-27 00:11:10
局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

局势恶化!英外长急致电北京,六国发表联合声明,特朗普越做越绝

报君知史
2026-03-27 02:43:59
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

比亚迪官宣:《007》邦德扮演者丹尼尔·克雷格出任腾势汽车代言人

IT之家
2026-03-26 20:55:38
太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

太意外!米兰宝格丽之夜合影:刘亦菲两度被挤,下意识动作引热议

时间巡查
2026-03-25 04:28:00
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
伊朗伊斯兰革命卫队称击落一架美军F-18战机

伊朗伊斯兰革命卫队称击落一架美军F-18战机

环球网资讯
2026-03-26 06:37:05
罗技:“我一降价,你还不是像狗一样跑过来”

罗技:“我一降价,你还不是像狗一样跑过来”

电脑吧评测室
2026-03-26 22:05:58
信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

信息量极大!黄仁勋最新论断:AGI已实现,OpenClaw是AI界iPhone,未来将有10亿程序员

AI科技大本营
2026-03-26 19:52:36
沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

闻香阁
2026-03-27 04:16:43
柳景武已任山东省委副秘书长、省机关事务管理局局长

柳景武已任山东省委副秘书长、省机关事务管理局局长

黄河新闻网吕梁
2026-03-26 10:03:54
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2026-03-27 06:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
时尚
公开课
军事航空

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

400万人爱过的女孩,被黄谣网暴180天后

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版