网易首页 > 网易号 > 正文 申请入驻

只需几个抽象符号替代思维链,就能将推理成本压缩11倍

0
分享至

来源:市场资讯

(来源:机器之心)

编辑|Panda

2026 年,AI 行业正在经历一场悄然发生的费用危机。

在大多数开发者的印象里,AI 模型的成本在过去几年里一路走低。确实,从 2022 年到 2024 年,前沿模型的推理成本下降了超过千倍。这个趋势让许多团队相信,把 AI 部署进产品只是时间问题。

然而,推理模型的出现打破了这一预期。OpenAI 的 o 系列、Anthropic 的 Claude Extended Thinking、DeepSeek R1—— 这些模型在生成最终回答之前,会先在内部进行大量「思考」,产生数以千计的中间推理步骤,然后再吐出最终答案。这些中间步骤在账单上有个专门的名字:推理token(reasoning tokens)。

问题在于,你得为这些思考过程买单,即便你根本看不到它们。

根据行业研究机构在 2026 年初的统计,一个复杂的代码审查任务,如果使用推理模型,费用可能是普通模型的 5 到 10 倍。一次多步骤规划任务,内部思考步骤消耗的 token 数量,有时会超过一万个。有团队测试发现,让 Claude Opus 4.6 和 Grok-4 分别回答同一个问题时,两者给出了完全相同的答案,但 Grok-4 消耗的 token 数量是 Claude 的两倍多,成本差距接近 10 倍。这一切,仅仅因为模型想得太多。

换句话说,AI 正在为了「把话说清楚」而付出巨大代价。

而这种代价,在某种程度上是设计使然。现有的主流推理模型,都依赖一种叫做「思维链(CoT)」的机制:让模型像人类一样,用自然语言一步步写出推理过程,然后再给出答案。这种方法行之有效,但用自然语言推理,天然就是冗长的。

就在这个背景下,IBM Research 的一个团队发布了一篇论文。他们提出了一个问题:如果 AI 根本不需要用人类语言来思考,会怎样?


  • 论文标题:Thinking Without Words: Efficient Latent Reasoning with Abstract Chain-of-Thought

  • 论文地址:https://arxiv.org/pdf/2604.22709

抽象推理链

一门人类看不懂的语言

IBM Research 的论文将这一方法命名为 Abstract Chain-of-Thought(抽象推理链,简称 Abstract-CoT)。


核心思路出人意料地简洁:与其让模型用自然语言写下推理过程,不如给它一套全新的「符号词汇表」,让它用这些符号来思考,然后直接生成答案。

这套词汇表里没有任何一个人类能读懂的单词。它由一组特殊的占位符 token 组成,比如 、…… 一直到 ,之后继续用双字母扩展。这些符号对人类来说毫无意义,就像密码一样。但在论文的实验结果中,它们能够替代动辄数百步的自然语言推理链,把推理步骤压缩到几十个符号以内。

如果用一个生活中的类比来理解:这有点像一个经验丰富的厨师,不再需要把每一步操作都大声说出来,而是靠一套只有自己理解的手势和记号,在脑子里飞速完成全部计算,然后直接把菜端上桌。对于外人而言,这个过程是不透明的;但结果,一模一样。


在论文展示的一个例子中,一道数学应用题,标准思维链模型需要走完 8 个自然语言步骤才能得出答案;而 Abstract-CoT 版本,只用了 14 个抽象符号,便得出了完全相同的结论。这两个过程都正确,但后者消耗的推理 token 数量,不足前者的十分之一。

两个挑战

冷启动与「学会一门新语言」

这个想法听起来简单,但实现起来面临两个根本性的难题。

第一个难题是冷启动问题。这些新符号在模型词汇表里从未出现过,它们的嵌入向量(embedding)是随机初始化的,对模型来说毫无意义。你不能指望一个从未学过某种语言的孩子,突然就能用这种语言思考。

第二个难题是:如何让模型学会用这些符号有效地思考,而不只是随机堆砌?

IBM 的研究团队设计了一套两阶段训练方案来应对这两个问题。

第一阶段:策略迭代热启动(Policy Iteration Warm-up)

这个阶段的核心机制,是一种「信息瓶颈」设计。具体来说,训练时,模型会同时看到问题、标准的自然语言推理链(由教师模型提供),以及一段抽象符号序列。但关键在于,最终答案的生成,只被允许「看到」那段抽象符号,而不能直接「看到」自然语言推理链。


这就像是:让一个学生同时拿到完整的解题过程和一段摘要笔记,但考试时只能看笔记作答。久而久之,学生学会了如何把关键信息浓缩进笔记,因为只有笔记够用,才能通过考试。

经过多轮迭代,模型逐渐学会了:如何把推理所需的关键信息,压缩进那些抽象符号里。

第二阶段:热启动强化学习(Warm-started RL)

热启动阶段结束后,研究团队引入了强化学习(GRPO 算法)来进一步优化抽象符号序列的生成策略。模型被要求:只凭借那些抽象符号(不再有任何自然语言推理链辅助),就直接生成高质量的答案。一个生成式奖励模型负责对输出质量打分,反馈信号驱动模型不断改进它的「符号语言」。


实验结果

省了多少,代价是什么

论文在三个主要基准测试上验证了 Abstract-CoT 的效果:数学推理(MATH-500)、通用指令跟随(AlpacaEval)、以及多跳问答(HotpotQA)。


最核心的数据是这两个:

在 MATH-500 数学推理测试中,以 Qwen3-8B 为基础模型,标准的思维链 + 强化学习方法(SFT+RL)平均每道题生成 1671 个 token,准确率为 92.6%。Abstract-CoT(Warm-up + RL)仅生成 144 个 token,准确率达到 90.8%。压缩比约为 11.6 倍,性能差距仅有 1.8 个百分点。

在 AlpacaEval 通用指令测试中,Abstract-CoT 不仅 token 数量从 496 压缩到 225(约 2.2 倍),胜率反而从 58.4% 提升到了 60.8%—— 在生成内容大幅减少的同时,质量反而有所提升。

更难的测试也显示了类似趋势。GPQA-Diamond(研究生级别问答)和 AIME'25(数学竞赛题)的结果表明,即便是高难度推理任务,Abstract-CoT 也能实现 2.7 倍到 7.9 倍的 token 压缩,同时性能几乎与全量思维链持平。

有一个细节值得关注:单独使用「冷启动 RL」(不经过热启动阶段,直接用强化学习训练抽象符号)的效果非常差,在多数设置下甚至不如基线模型。这说明,热启动阶段是不可或缺的 —— 模型必须先学会这套「语言」的基本语义,才能在强化学习阶段进一步优化。

意外发现

抽象符号自发形成了「语言规律」

在实验分析中,研究团队发现了一个他们自己也没有预料到的现象。

经过强化学习训练后,64 个抽象符号的使用频率,自发地形成了一种幂律分布 —— 少数几个符号被高频反复使用,而多数符号使用频率极低。这种分布,与自然语言中的 Zipf 定律(自然语言词频分布的基本规律)高度吻合。


具体而言,一个叫做 的符号,使用频率远超其他所有符号,成了这套「语言」中类似「的」或「是」一样的高频词。另一些符号,则像生僻字一样,只在特定情境下出现。

这意味着什么?研究者认为,这是模型自发学习出了某种「概念复用」机制。频繁出现的符号,可能对应着跨任务普遍需要的推理步骤(比如「初始化变量」或「验证边界条件」);稀有符号,则可能对应着特定领域的罕见推理模式。

当然,目前还没有办法直接「解读」这些符号的具体语义。这套语言,对人类来说仍然是不透明的。

局限与展望

Abstract-CoT 目前仍有明显的局限性。最直接的一点是:这套抽象推理过程对人类完全不可解读,这意味着在需要可审计性的场景(比如医疗、法律、金融决策辅助)中,它的适用性会受到限制。

此外,这套方法依赖现有的自然语言思维链数据来完成热启动训练。这意味着,Abstract-CoT 目前仍然是「寄生」在语言推理之上的 —— 没有语言推理的先验知识,纯抽象符号的冷启动训练几乎无法奏效。这在某种程度上说明,AI 在「学会不说话」之前,首先必须「学会说话」。

研究团队也在论文中提出了若干未来方向,包括:动态调整抽象符号序列长度(根据问题难度分配不同长度的「思考预算」)、以及构建分层符号结构(让部分符号代表可复用的推理子程序)。

最值得关注的,或许是它为「AI 推理监控」打开的一扇新窗口。抽象符号序列,比绵延数千 token 的自然语言推理链,更容易被结构化地分析。研究者认为,这为「思维链可监控性」研究提供了新的可能性。未来或许能够在不读懂语义的前提下,通过分析符号模式来判断模型是否在「正常思考」。

AI 正在学着「少说废话」

过去两年,AI 推理能力的提升,很大程度上是靠「让模型说更多话」实现的 —— 更长的思考链、更多的中间步骤、更详尽的自我验证。这条路走到 2026 年,正在遭遇越来越明显的成本瓶颈。

IBM Research 这篇论文提出的问题,其实是在挑战一个基本假设:AI 一定要用人类的语言来思考吗?

他们的实验结果表明,答案可能是否定的。一套由 64 个无意义符号组成的「哑语」,在数学推理、通用问答、多跳检索等多个任务上,都能以十分之一的 token 成本,复现出接近自然语言推理链的性能。

这不是颠覆性的革命,也并非没有代价。但它至少说明一点:在 AI 推理的效率之路上,或许还有一条我们此前没有认真探索过的方向:让模型学会「闭嘴思考」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最新!债务突破100万亿!

最新!债务突破100万亿!

叶初七
2026-05-30 10:28:14
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
男团成员裤腰低到离谱?网友怒批:这是公共猥亵

男团成员裤腰低到离谱?网友怒批:这是公共猥亵

时光慢旅人
2026-05-30 01:29:08
西决抢七伤情出炉:杰威米切尔均将缺阵 马刺全员出战冲击总决赛

西决抢七伤情出炉:杰威米切尔均将缺阵 马刺全员出战冲击总决赛

罗说NBA
2026-05-30 06:26:12
集采百元一盒药,药店竟卖3960元,为何卖出如此高价?记者调查

集采百元一盒药,药店竟卖3960元,为何卖出如此高价?记者调查

新京报
2026-05-30 11:58:09
28.5万辆之后,华为把牌桌上所有的筹码全押了上去

28.5万辆之后,华为把牌桌上所有的筹码全押了上去

车云网
2026-05-28 23:19:59
无缘冲击第25冠!德约遭19岁新星惊天逆转,新科大满贯冠军将诞生

无缘冲击第25冠!德约遭19岁新星惊天逆转,新科大满贯冠军将诞生

全景体育V
2026-05-30 05:28:06
贝克汉姆的女儿小七近照曝光,才14岁,胸部就已发育得相当饱满

贝克汉姆的女儿小七近照曝光,才14岁,胸部就已发育得相当饱满

岁月有情1314
2026-05-30 09:47:54
违法征地现场,农妇一刀砍向民警。法院判袭警罪。她不认,上诉了

违法征地现场,农妇一刀砍向民警。法院判袭警罪。她不认,上诉了

听心堂
2026-05-29 10:04:25
D1804次列车受电弓遭异物击打,被困隧道内超2小时,乘客称全车停电闷热异常,身上像从水里捞出来的,备用列车已到现场并开始转运

D1804次列车受电弓遭异物击打,被困隧道内超2小时,乘客称全车停电闷热异常,身上像从水里捞出来的,备用列车已到现场并开始转运

台州交通广播
2026-05-30 13:47:54
是不是太过了?神舟飞船落地,地面上居然安排有专门的开舱手岗位

是不是太过了?神舟飞船落地,地面上居然安排有专门的开舱手岗位

阿龙聊军事
2026-05-30 07:47:52
一路走好!离6月仅剩1天,5位名人接连去世,最小42岁,令人唏嘘

一路走好!离6月仅剩1天,5位名人接连去世,最小42岁,令人唏嘘

八斗小先生
2026-05-30 13:58:35
5年前特斯拉拆了雷达,今天中国市场要给答案了

5年前特斯拉拆了雷达,今天中国市场要给答案了

BusinessCar
2026-05-28 10:16:18
黄仁勋:英语专业的学生有可能成为最成功的那批人

黄仁勋:英语专业的学生有可能成为最成功的那批人

麦可思研究
2026-05-30 11:19:36
俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

俄乌战争,如果俄罗斯最终赢了,你我在有生之年很可能会亲历战争

混沌录
2026-05-29 23:26:12
定了!浦东最大商场6月开业!巨峰路地铁站直达!90%都是首店,逛前必看→

定了!浦东最大商场6月开业!巨峰路地铁站直达!90%都是首店,逛前必看→

上观新闻
2026-05-30 14:44:32
46岁秦岚现身安徽快餐店!素颜皮肉松垮很真实,吃五菜一汤全光盘

46岁秦岚现身安徽快餐店!素颜皮肉松垮很真实,吃五菜一汤全光盘

小彭美识
2026-05-30 18:04:31
号称“增强精力”的网红悍马糖,男子服用后心慌冒汗!警方:非法添加处方药,抓获嫌疑人26名,涉案金额超500万元

号称“增强精力”的网红悍马糖,男子服用后心慌冒汗!警方:非法添加处方药,抓获嫌疑人26名,涉案金额超500万元

都市快报橙柿互动
2026-05-30 15:01:16
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

医学原创故事会
2026-05-29 23:34:07
44岁央视主持人杨帆患癌两月,已开启人生新篇章

44岁央视主持人杨帆患癌两月,已开启人生新篇章

梦醉为红颜一笑
2026-05-30 14:40:01
2026-05-30 19:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3402345文章数 7714关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
游戏
本地
公开课
军事航空

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

LCK第二赛段:稳健推进不给机会,KT直落两局横扫DNS

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版