网易首页 > 网易号 > 正文 申请入驻

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

0
分享至

机器之心报道

编辑:凯文、杜伟

随着推理模型 Deepseek R1 的爆火,Zoom 研究团队将认知科学中的思维链注入进 AI 推理领域,开创性地提出 Chain of Draft(CoD)技术框架,重塑大语言模型推理范式。

如今,OpenAI o1 和 DeepSeek R1 等推理模型的发展,显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。这种范式鼓励模型将问题分解为逐步探索,模仿人类的结构化推理过程。虽然这种方法有效,但它在推理时需要更多的计算资源,导致输出冗长且延迟更高。

这种冗长与人类通常解决问题的方式形成了鲜明的对比:我们依靠简洁的草稿或速记笔记来捕捉基本见解,而无需不必要的繁琐。

受这种差异的启发,来自美国 Zoom 视频通讯公司的研究团队提出了Chain of Draft(CoD),这是一种新颖的提示策略,通过优先考虑效率和极简主义,更接近人类推理。

具体来讲,CoD 鼓励 LLM 在每个步骤生成简洁、信息密集的输出,而不是过度强调中间步骤。这种方法在不牺牲准确性的情况下减少了延迟和计算成本,使 LLM 更适合效率至上的实际应用。

  • 论文标题:Chain of Draft: Thinking Faster by Writing Less
  • 论文地址:https://arxiv.org/pdf/2502.18600

针对大语言模型传统推理范式中的效率瓶颈,该研究捕捉到了人类思维中「关键信息快照」的本质特征,提出了 CoD。为了评估 CoD 的有效性,研究团队在数学推理、常识推理和符号推理等需要多步推理的基准上进行了实验。

结果显示,在符号推理任务中,CoD 的信息密度达到标准 CoT 输出的 14.7 倍,同时显著减少了 token 的使用和延迟。

本文的研究贡献包括:

  • 设计稀疏的推理草稿,仅需 7.6% 的 token 量即可完成等效推理深度,开创了认知启发的模型压缩新路径;
  • 端到端推理延迟压缩与部署成本的降低,推理延迟从 0.9 秒压缩至 0.7 秒,实现「降本增效」的双重突破;
  • 提出了新的大模型重构推理架构,为金融高频交易、自动驾驶决策等时延敏感型应用提供了可行性验证,标志着 LLM 从实验室模型向工业引擎的实质性跨越。

方法概述

该研究创新性地提出了 CoD。CoD 提示将推理过程浓缩为最小的抽象表示。推理过程被提炼为一个简洁的方程式,仅关注得出解决方案所需的基本数学运算。通过抽象出不相关的上下文细节,CoD 显著减少了 token 数量,同时保持了透明度和正确性。

CoD 基于认知科学中人类思维模式,其信息密度是传统 CoT 的 13.2 倍,在开发过程中,研究团队通过跨学科迭代:

  • 首先基于思路链的结构化提示,构建端到端、简化认知等特征的思维稿;
  • 继而设计思维稿对大模型驱动推理赋能,在 Claude 3.5 Sonnet 上实现算术推理 token 消耗从 189.4 骤降至 14.3(节省 92.4%);
  • 最终通过并行稀疏注意力框架(吞吐量 + 3.8 倍)和动态批处理技术(批次弹性扩展 1-128)完成工业级优化,实测端到端延迟从 3.1 秒压缩至 1.6 秒(降幅 48.4%),为高频金融交易等场景提供亚秒级(<0.5s)高效推理支持。

下图展示了 CoT 与 CoD 提示的区别:

实验结果

研究中较为全面、科学地评估其有效性和性能,设置了一系列严谨且针对性强的实验:基准测试实验、效率验证实验和成本效益实验。

  • 基准测试实验选取了多个要求多步推理的基准测试,涵盖了数学推理、常识推理和符号推理等领域。
  • 效率验证实验包括 token 消耗评估和推理延迟测试,其中 token 消耗评估包括精确测量 CoD 在各个基准测试任务中所使用的 token 数量,并与 CoT 进行对比;推理延迟测试通过 CoD 在不同任务中的端到端推理延迟,并与 CoT 进行比较。
  • 成本效益实验基于 token 消耗和推理延迟等因素,计算 CoD 和 CoT 的单位推理成本。

推理试验数据集考虑以下五个数学应用题基准,(1) 数学应用题的 GSM8K 数据集,(2) 结构各异的数学应用题的 SVAMP 数据集,(3) 各种数学应用题的 ASDiv 数据集,(4) 代数应用题的 AQuA 数据集,以及 (5) MAWPS 基准。

研究中所提出的模型方法在 GSM8K 这一数学推理任务中,在 GPT-4o 下,CoD 的准确率达到了 91.1%,CoT 的准确率为 95.4%,CoT 的准确率略高于 CoD。但 Token 消耗方面,CoD 仅需 14.3 个 Token,相比传统模型的 161.2 个 Token。推理延迟也从传统模型的 4.2 秒大幅压缩至 1.0 秒,降低了 76.2%。

对于 Claude 3.5 Sonnet,CoD 和 CoT 的准确率表现相近。在 Token 消耗方面,CoD 相较于 CoT 下降了 79.1%,推理速度提升至 1.6 秒,延迟降低了 48.4%。这表明 CoD 在保证较高准确率的同时,极大地提升了推理效率,减少了计算资源的消耗。

对于常识推理任务(下表 2 日期理解),在 GPT-4o 下,CoD 的准确率为 88.1%,低于 CoT 的 90.2%。Token 消耗上,CoD 为 30.2 个 Token,CoT 则达到 75.7 个 Token,节省了 60.1% 的 Token,时间也从 1.7 秒降低到 1.3 秒。

对于 Claude 3.5 Sonnet,CoD 的准确率高达 89.7%,高于 CoT 的 87.0%,而 token 消耗相较于 CoT 下降了 82.0%,推理时间从 3.2 秒减少到 1.4 秒。CoD 在常识推理任务中同样展现出高效性和准确性,能够更快速且精准地处理常识性问题。

在原始 CoT 研究论文中提出的硬币翻转推理任务框架下,研究者要求大语言模型(LLM)根据一系列抛硬币操作序列预测最终硬币的正反面状态。由于该研究的原始实验数据集尚未开源,本研究严格遵循其方法论复现了包含 250 个测试样本的基准数据集。研究人员按照相同的设计合成了一个包含 250 个示例的测试集,基于 NameDataset 数据集,从美国地区排名前 1000 的名字中随机选择 4 个,并随机决定是否对每个名字抛硬币。评估数据的示例如下所示。

GPT-4o 和 Claude 3.5 Sonnet 的测试结果如表 4 所示。在标准提示方式下,这两个模型的准确率分别为 73.2% 和 85.2%。不过当采用 CoT和 CoD提示策略时,两个模型均达到了 100% 的完美准确率。通过与 CoT 相比, CoD 显著减少了 token 使用量,对于 GPT-4o 减少了 68%,对于 Claude 3.5 Sonnet 则减少了 86%。

更多实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
张雪峰离世的警示:人一定要学会避谶

张雪峰离世的警示:人一定要学会避谶

代伟看世界
2026-03-26 15:21:09
裁员裁到大动脉是啥体验?网友:我现在感觉我也是别人的大动脉

裁员裁到大动脉是啥体验?网友:我现在感觉我也是别人的大动脉

解读热点事件
2026-03-27 00:05:10
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
觉得五常权力大,新加坡呼吁约束一票否决权,却不认同美国是霸权

觉得五常权力大,新加坡呼吁约束一票否决权,却不认同美国是霸权

近史阁
2026-03-27 03:28:33
意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

里芃芃体育
2026-03-26 16:00:06
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

生物世界
2026-03-25 16:05:30
朝鲜通告全球,确定“头号敌国”,李在明做选择,有中国在乱不了

朝鲜通告全球,确定“头号敌国”,李在明做选择,有中国在乱不了

说历史的老牢
2026-03-26 05:05:53
财政部答中经报记者问:居民参保长护险获财政补助

财政部答中经报记者问:居民参保长护险获财政补助

中国经营报
2026-03-26 19:43:15
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

徐云流浪中国
2026-03-26 14:45:25
1210km续航!长安官宣:新车正式上市

1210km续航!长安官宣:新车正式上市

T科技衍生
2026-03-27 00:31:33
AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

环球网资讯
2026-03-26 19:40:07
巴蒂:我们那个年代前锋比现在更强,如今看比赛到处都是空间

巴蒂:我们那个年代前锋比现在更强,如今看比赛到处都是空间

懂球帝
2026-03-26 10:52:23
2026-03-27 06:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
亲子
艺术
本地
公开课

旅游要闻

利马的文明对话(旅人心语)

亲子要闻

要不我还是喝奶吧!

艺术要闻

最美花卉图谱!记住后保你啥花都认识!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版