网易首页 > 网易号 > 正文 申请入驻

全新CoD颠覆推理范式,准确率接近但token消耗成倍降低

0
分享至

机器之心报道

编辑:凯文、杜伟

随着推理模型 Deepseek R1 的爆火,Zoom 研究团队将认知科学中的思维链注入进 AI 推理领域,开创性地提出 Chain of Draft(CoD)技术框架,重塑大语言模型推理范式。

如今,OpenAI o1 和 DeepSeek R1 等推理模型的发展,显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。这种范式鼓励模型将问题分解为逐步探索,模仿人类的结构化推理过程。虽然这种方法有效,但它在推理时需要更多的计算资源,导致输出冗长且延迟更高。

这种冗长与人类通常解决问题的方式形成了鲜明的对比:我们依靠简洁的草稿或速记笔记来捕捉基本见解,而无需不必要的繁琐。

受这种差异的启发,来自美国 Zoom 视频通讯公司的研究团队提出了Chain of Draft(CoD),这是一种新颖的提示策略,通过优先考虑效率和极简主义,更接近人类推理。

具体来讲,CoD 鼓励 LLM 在每个步骤生成简洁、信息密集的输出,而不是过度强调中间步骤。这种方法在不牺牲准确性的情况下减少了延迟和计算成本,使 LLM 更适合效率至上的实际应用。

  • 论文标题:Chain of Draft: Thinking Faster by Writing Less
  • 论文地址:https://arxiv.org/pdf/2502.18600

针对大语言模型传统推理范式中的效率瓶颈,该研究捕捉到了人类思维中「关键信息快照」的本质特征,提出了 CoD。为了评估 CoD 的有效性,研究团队在数学推理、常识推理和符号推理等需要多步推理的基准上进行了实验。

结果显示,在符号推理任务中,CoD 的信息密度达到标准 CoT 输出的 14.7 倍,同时显著减少了 token 的使用和延迟。

本文的研究贡献包括:

  • 设计稀疏的推理草稿,仅需 7.6% 的 token 量即可完成等效推理深度,开创了认知启发的模型压缩新路径;
  • 端到端推理延迟压缩与部署成本的降低,推理延迟从 0.9 秒压缩至 0.7 秒,实现「降本增效」的双重突破;
  • 提出了新的大模型重构推理架构,为金融高频交易、自动驾驶决策等时延敏感型应用提供了可行性验证,标志着 LLM 从实验室模型向工业引擎的实质性跨越。

方法概述

该研究创新性地提出了 CoD。CoD 提示将推理过程浓缩为最小的抽象表示。推理过程被提炼为一个简洁的方程式,仅关注得出解决方案所需的基本数学运算。通过抽象出不相关的上下文细节,CoD 显著减少了 token 数量,同时保持了透明度和正确性。

CoD 基于认知科学中人类思维模式,其信息密度是传统 CoT 的 13.2 倍,在开发过程中,研究团队通过跨学科迭代:

  • 首先基于思路链的结构化提示,构建端到端、简化认知等特征的思维稿;
  • 继而设计思维稿对大模型驱动推理赋能,在 Claude 3.5 Sonnet 上实现算术推理 token 消耗从 189.4 骤降至 14.3(节省 92.4%);
  • 最终通过并行稀疏注意力框架(吞吐量 + 3.8 倍)和动态批处理技术(批次弹性扩展 1-128)完成工业级优化,实测端到端延迟从 3.1 秒压缩至 1.6 秒(降幅 48.4%),为高频金融交易等场景提供亚秒级(<0.5s)高效推理支持。

下图展示了 CoT 与 CoD 提示的区别:

实验结果

研究中较为全面、科学地评估其有效性和性能,设置了一系列严谨且针对性强的实验:基准测试实验、效率验证实验和成本效益实验。

  • 基准测试实验选取了多个要求多步推理的基准测试,涵盖了数学推理、常识推理和符号推理等领域。
  • 效率验证实验包括 token 消耗评估和推理延迟测试,其中 token 消耗评估包括精确测量 CoD 在各个基准测试任务中所使用的 token 数量,并与 CoT 进行对比;推理延迟测试通过 CoD 在不同任务中的端到端推理延迟,并与 CoT 进行比较。
  • 成本效益实验基于 token 消耗和推理延迟等因素,计算 CoD 和 CoT 的单位推理成本。

推理试验数据集考虑以下五个数学应用题基准,(1) 数学应用题的 GSM8K 数据集,(2) 结构各异的数学应用题的 SVAMP 数据集,(3) 各种数学应用题的 ASDiv 数据集,(4) 代数应用题的 AQuA 数据集,以及 (5) MAWPS 基准。

研究中所提出的模型方法在 GSM8K 这一数学推理任务中,在 GPT-4o 下,CoD 的准确率达到了 91.1%,CoT 的准确率为 95.4%,CoT 的准确率略高于 CoD。但 Token 消耗方面,CoD 仅需 14.3 个 Token,相比传统模型的 161.2 个 Token。推理延迟也从传统模型的 4.2 秒大幅压缩至 1.0 秒,降低了 76.2%。

对于 Claude 3.5 Sonnet,CoD 和 CoT 的准确率表现相近。在 Token 消耗方面,CoD 相较于 CoT 下降了 79.1%,推理速度提升至 1.6 秒,延迟降低了 48.4%。这表明 CoD 在保证较高准确率的同时,极大地提升了推理效率,减少了计算资源的消耗。

对于常识推理任务(下表 2 日期理解),在 GPT-4o 下,CoD 的准确率为 88.1%,低于 CoT 的 90.2%。Token 消耗上,CoD 为 30.2 个 Token,CoT 则达到 75.7 个 Token,节省了 60.1% 的 Token,时间也从 1.7 秒降低到 1.3 秒。

对于 Claude 3.5 Sonnet,CoD 的准确率高达 89.7%,高于 CoT 的 87.0%,而 token 消耗相较于 CoT 下降了 82.0%,推理时间从 3.2 秒减少到 1.4 秒。CoD 在常识推理任务中同样展现出高效性和准确性,能够更快速且精准地处理常识性问题。

在原始 CoT 研究论文中提出的硬币翻转推理任务框架下,研究者要求大语言模型(LLM)根据一系列抛硬币操作序列预测最终硬币的正反面状态。由于该研究的原始实验数据集尚未开源,本研究严格遵循其方法论复现了包含 250 个测试样本的基准数据集。研究人员按照相同的设计合成了一个包含 250 个示例的测试集,基于 NameDataset 数据集,从美国地区排名前 1000 的名字中随机选择 4 个,并随机决定是否对每个名字抛硬币。评估数据的示例如下所示。

GPT-4o 和 Claude 3.5 Sonnet 的测试结果如表 4 所示。在标准提示方式下,这两个模型的准确率分别为 73.2% 和 85.2%。不过当采用 CoT和 CoD提示策略时,两个模型均达到了 100% 的完美准确率。通过与 CoT 相比, CoD 显著减少了 token 使用量,对于 GPT-4o 减少了 68%,对于 Claude 3.5 Sonnet 则减少了 86%。

更多实验结果请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两男孩玩火点燃狗笼,小狗被活活烧死!主人:萨摩耶养了7年感情很深,不接受私了,要求孩子家长道歉

两男孩玩火点燃狗笼,小狗被活活烧死!主人:萨摩耶养了7年感情很深,不接受私了,要求孩子家长道歉

新民晚报
2026-02-03 08:16:52
男子深夜抢走绍兴金店150多克黄金饰品,逃了5分钟落网!“我没钱过年,黄金现在很值钱……”

男子深夜抢走绍兴金店150多克黄金饰品,逃了5分钟落网!“我没钱过年,黄金现在很值钱……”

都市快报橙柿互动
2026-02-04 08:11:45
特朗普惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

特朗普惊出一身冷汗:中美已无法开战,一杀手锏让美军无计可施

忠于法纪
2026-02-03 11:26:47
当不成首相了?高市被送进医院,日本27人身亡,俄向日本发去通牒

当不成首相了?高市被送进医院,日本27人身亡,俄向日本发去通牒

壹知眠羊
2026-02-03 16:39:13
大局已定,今年的返乡潮可能彻底消失了!

大局已定,今年的返乡潮可能彻底消失了!

达文西看世界
2026-01-29 19:30:48
迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

迷失无人区:女子带藏獒无人区失联两周,警方找到车,车内只剩藏獒

罪案洞察者
2025-11-10 13:57:07
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
刘虎、巫英蛟被抓一案,知名律师几点思考

刘虎、巫英蛟被抓一案,知名律师几点思考

记录刘杰
2026-02-03 13:45:03
关注“听风的蚕”被清理的感觉

关注“听风的蚕”被清理的感觉

陈意小可爱
2026-02-04 00:36:08
连续34场!打破NBA历史纪录!天才8号秀爆发了

连续34场!打破NBA历史纪录!天才8号秀爆发了

篮球教学论坛
2026-02-04 12:25:16
中断9年后,国共两党达成15条共同意见,洪秀柱:这是破冰行动!

中断9年后,国共两党达成15条共同意见,洪秀柱:这是破冰行动!

阿天爱旅行
2026-02-04 03:22:26
大奖赛4日交手:赵心童4-8希金斯,特鲁姆普6-0袁思俊

大奖赛4日交手:赵心童4-8希金斯,特鲁姆普6-0袁思俊

郭夷包工头
2026-02-04 11:54:25
一夜3大消息!勇士疯狂报价,哈登交易达成,伦纳德递补全明星

一夜3大消息!勇士疯狂报价,哈登交易达成,伦纳德递补全明星

体坛小李
2026-02-04 09:30:13
官宣,哈登加盟骑士,球队首发出炉,听听媒体专家怎么评价

官宣,哈登加盟骑士,球队首发出炉,听听媒体专家怎么评价

邹维体育
2026-02-04 09:37:31
效果拉满,船记:如果官宣及时,理论上哈登明日可以出战快船

效果拉满,船记:如果官宣及时,理论上哈登明日可以出战快船

懂球帝
2026-02-04 10:37:06
内线引援不利,朱芳雨下课?广东官宣,200万美元或白花了

内线引援不利,朱芳雨下课?广东官宣,200万美元或白花了

不冻港来了
2026-02-04 11:42:42
现在单位里好像没有“二把手”了

现在单位里好像没有“二把手”了

据说无据
2026-02-04 10:44:54
沙特高管勒令C罗结束罢赛!日薪50万镑却3年0冠 遭怒批:榨干球队

沙特高管勒令C罗结束罢赛!日薪50万镑却3年0冠 遭怒批:榨干球队

我爱英超
2026-02-04 07:27:15
立春大如年,明日4点立春,记得:1不洗,2不吃,4人要穿红

立春大如年,明日4点立春,记得:1不洗,2不吃,4人要穿红

神牛
2026-02-03 06:20:52
头号得分手!无缘男篮大名单,郭士强:为何看不上他?

头号得分手!无缘男篮大名单,郭士强:为何看不上他?

话体坛
2026-02-04 01:59:40
2026-02-04 13:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12248文章数 142562关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

卡扎菲儿子被暗杀身亡:4名蒙面人员闯入住所激烈交火

头条要闻

卡扎菲儿子被暗杀身亡:4名蒙面人员闯入住所激烈交火

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

数码
旅游
家居
游戏
公开课

数码要闻

AMD财报业绩会:数据中心业务强劲增长 MI450系列有望下半年量产

旅游要闻

视点|北京室外天然冰场陆续收官,什刹海游人忙打卡

家居要闻

灰白意境 光影奏鸣曲

真有你的啊!SE EPIC限时特卖SE多款大作1.5折

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版