南京大学等机构研究揭示：AI推理成本与智能水平平衡之道|算法|数学|新论文

南京大学等机构研究揭示：AI推理成本与智能水平平衡之道

2026-03-09 16:39:06　来源: 科技行者

北京举报

分享至

当我们与ChatGPT或其他AI聊天机器人对话时，它们总是能给出详细的逐步推理过程，这种能力被称为"链式思考"。就像一个学生解数学题时会写下每一步计算过程一样，AI也会展示它的思考轨迹。然而，这种详细的推理过程虽然让AI更加可靠，却也带来了一个令人头疼的问题：成本飞涨。

这项由南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校联合开展的研究，发表于2025年6月2日的arXiv预印本平台，论文编号为arXiv:2412.18547v5。研究团队通过深入分析发现，当前大语言模型的推理过程存在严重的"词汇冗余"现象，就像一个啰嗦的老师总是用三句话来表达一句话就能说清楚的内容。

研究团队提出了一个有趣的观察：当你给AI设置一个合理的"用词预算"时，它竟然能在保持准确性的同时大幅减少废话。这就好比告诉一个写作文的学生"请用不超过200字回答这个问题"，学生就会更加精炼地组织语言。基于这个发现，研究团队开发了一套名为TALE的智能推理框架，能够根据问题的复杂程度动态调整AI的"话语量"。

一、AI推理中的"废话"现象

在日常使用中，当我们向AI提问一个数学问题时，比如"佩顿安排了一系列课后活动，包括周一1小时的瑜伽课，周二一个时长为周一瑜伽课9倍的烹饪课，周三半小时的奶酪品鉴活动，周四一个时长为烹饪课一半的博物馆参观，以及周五2小时的杂事。所有这些活动总共需要多长时间？"

如果直接询问，GPT-4o-mini可能只会给出简单的答案："12.5小时"，仅用了15个词汇。但当使用"让我们逐步思考"这种提示词时，AI会展开详细的推理过程，结果却用了258个词汇来解释同样的答案。这就像问路时，有人只说"向左转"，而另一个人却要从历史地理开始讲起。

研究团队进一步发现了一个令人惊讶的现象：当他们在提示中加入"请用不超过50个词汇回答"这样的预算限制时，AI的回答变得精炼很多，只用了86个词汇就得到了正确答案。但是，如果预算设置得太严格，比如"不超过10个词汇"，AI反而会"叛逆"，最终使用了157个词汇，几乎是50词汇预算情况下的两倍。

这种现象被研究团队称为"词汇弹性"。就像给一个习惯了充足空间写作的人突然限制在便利贴上写文章，如果空间太小，他可能会放弃限制，写得比原来更长。AI也有类似的行为模式：当词汇预算过于紧张时，它会"放弃"遵守限制，回到冗长的表达习惯。

二、寻找最优的"话语预算"

为了解决这个问题，研究团队开发了一种搜索算法来找到每个问题的最优词汇预算。这个过程就像为不同难度的考试题分配不同的答题时间：简单的选择题给5分钟，复杂的证明题给30分钟。

他们的算法基于一个"隐式单调性假设"。简单来说，就是假设当AI在某个词汇预算下答错了，那么在更少的词汇预算下也会答错；反之，如果在某个预算下答对了，那么在更多的词汇预算下也能答对。就像爬楼梯一样，如果你在第10级台阶上累了，那么爬到第15级肯定更累；如果你能轻松爬到第20级，那么第15级对你来说肯定不是问题。

通过对数学基准数据集GSM8K的测试，研究团队发现90.91%的问题都满足这种单调性假设。这意味着他们的搜索策略在绝大多数情况下都是有效的。

搜索算法使用二分法来快速定位最优预算。就像猜数字游戏一样，如果要在1到100之间猜一个数字，最聪明的策略是先猜50，根据"大了"或"小了"的反馈，再猜25或75，依此类推。算法从AI无限制推理的词汇量作为上界开始，逐步缩小搜索范围，直到找到既能保证答案正确又能最小化实际词汇使用量的预算。

但研究团队很快发现，最小的可行预算并不等于最优预算。当预算过于紧张时，会触发前面提到的"词汇弹性"现象。因此，他们改进了算法，不仅要求答案正确，还要求实际使用的词汇量比之前搜索的预算更少，这样确保找到的是真正能降低成本的预算。

三、两种解决方案：估算提示法与后训练法

基于对词汇冗余和最优预算搜索的理解，研究团队提出了TALE框架的两种实现方式，就像解决交通拥堵既可以通过智能导航系统指路，也可以通过重新规划道路设计。

第一种方法叫做"估算提示法"（TALE-EP），工作原理就像一个经验丰富的老师能够快速判断不同类型题目需要多长的解答篇幅。当收到一个新问题时，系统首先让AI自己估算需要多少词汇来回答这个问题。这个过程使用了一个专门设计的提示词："分析给定问题并估算生成完整准确回答所需的最少词汇数量。请严格按照以下格式回答：预算：[[数字]]，例如，预算：[[12]]。"

这种方法的巧妙之处在于利用了AI本身的判断能力。就像一个经验丰富的厨师能够看一眼食谱就知道需要多长时间准备，先进的AI模型（如GPT-4o-mini）通常能够相当准确地估算回答特定问题所需的词汇量。研究结果显示，AI估算的预算通常很接近通过详细搜索找到的最优预算。

第二种方法称为"后训练法"（TALE-PT），就像重新训练一个司机养成更节油的驾驶习惯。这种方法分为两个阶段：首先使用搜索算法为大量问题找到最优的词汇预算，然后用这些"精炼版"的回答来重新训练AI模型，让它学会自然地产生更简洁的推理过程。

后训练过程提供了两种具体实现方式。第一种是监督微调，就像给学生提供标准答案让他们学习模仿。系统使用精炼版的回答作为标准答案，训练AI模型学会在不明确给出词汇限制的情况下也能产生简洁的推理。第二种是直接偏好优化，更像是通过比较来教学。系统让AI比较冗长版本和精炼版本的回答，学会偏好更简洁但同样准确的表达方式。

四、实验验证与效果评估

研究团队在多个数学推理数据集上测试了TALE框架的效果，包括GSM8K、GSM8K-Zero和MathBench等具有挑战性的数学问题集。实验结果令人印象深刻，就像发现了一种既能保持食物营养价值又能大幅减少食材浪费的新烹饪方法。

在使用估算提示法（TALE-EP）的测试中，系统在保持高准确率的同时显著降低了词汇成本。以GPT-4o-mini为例，传统的链式推理方法平均准确率为83.75%，每个样本平均使用461.25个输出词汇，相应的成本为289.78个单位。而TALE-EP达到了81.03%的准确率，每个样本仅使用148.72个输出词汇，成本降至118.46个单位。这意味着在准确率仅下降2.72个百分点的情况下，词汇使用量减少了67%，成本降低了59%。

更有趣的是，在某些数据集上，TALE-EP甚至超越了传统方法的准确率。在GSM8K数据集上，TALE-EP达到了84.46%的准确率，比传统链式推理的81.35%还要高，同时词汇使用量从318.10减少到77.26，成本从541.09降至279.84。这就像发现了一条既更快又更省油的新路线。

为了验证方法的通用性，研究团队还在其他几种主流AI模型上测试了TALE-EP，包括Yi-lightning、GPT-4o和o3-mini。结果显示，无论在哪种模型上，TALE-EP都能实现显著的成本节约。在Yi-lightning上，词汇使用量从998.10减少到373.52，成本从21.55降至17.25。在GPT-4o上，词汇使用量从602.29减少到181.61，成本从1359.42大幅降至759.95。

后训练方法（TALE-PT）的表现同样令人满意。使用监督微调的版本在GSM8K上达到了78.57%的准确率，词汇使用量为139.63，而使用直接偏好优化的版本准确率为74.11%，词汇使用量为149.93。相比传统方法的241.51个词汇，两种后训练方法都实现了约40-50%的词汇节省。

五、方法的局限性与未来展望

研究团队坦诚地指出了当前方法的一些局限性，就像一个诚实的产品经理会告诉你这款产品目前还不适合所有使用场景。

首先，目前的TALE框架主要针对处理纯文本输入输出的AI模型进行了优化。对于那些能够同时处理和生成文本、图像、音频等多种形式内容的多模态AI系统，现有方法还需要进一步扩展和适配。这就像一个专门为汽车设计的节油技术，要应用到飞机上还需要额外的改进。

其次，虽然估算提示法（TALE-EP）不需要额外的训练过程，但在实际部署时需要进行一次额外的预算估算查询，这会带来轻微的延迟。不过研究显示，这种延迟是可以接受的：TALE-EP处理每个样本平均只需要2.3秒，而传统方法需要10.2秒，因为节省下来的推理时间远超过额外的预算估算时间。

对于后训练方法（TALE-PT），虽然需要一次性的离线训练成本，但一旦训练完成，就可以在实际使用中直接获得节约效果，不需要额外的预算估算步骤。研究团队测算，在GSM8K数据集（包含7473个样本）上进行最优预算搜索大约需要354分钟的A100 GPU时间，考虑到这是一次性成本，研究团队认为这个代价是可以接受的。

另外，研究团队发现他们提出的"隐式单调性假设"虽然在90%以上的情况下成立，但仍有约10%的问题不完全符合这个假设。这意味着对于少数复杂问题，搜索算法可能无法找到真正的最优预算。未来的改进可以针对这些特殊情况开发更精细的搜索策略。

从更广阔的视角看，这项研究开辟了一个新的研究方向：如何在保持AI能力的同时优化其计算效率。随着AI系统越来越多地被部署到移动设备、嵌入式系统等资源受限的环境中，这种"既要又要"的优化需求将变得越来越重要。TALE框架提供的思路不仅适用于文本推理，也可能为其他类型的AI任务优化提供启发。

研究团队表示，未来的工作将重点解决多模态内容的预算分配问题。例如，对于能够同时生成文字说明和配图的AI系统，如何合理分配"文字预算"和"图像复杂度预算"，以及如何在不同模态之间进行资源调配，都是值得深入探索的问题。

归根结底，这项研究为我们提供了一个重要启示：智能不一定等同于冗长，简洁往往蕴含着更高层次的智慧。通过TALE框架，我们看到了AI系统在保持准确性的同时实现效率优化的可能性。这不仅有助于降低AI应用的成本门槛，也为AI技术的更广泛普及铺平了道路。当AI能够以更少的资源消耗提供同样优质的服务时，更多的个人和组织将能够负担得起这些先进技术，从而推动整个社会的数字化转型进程。

Q&A

Q1：TALE框架是如何工作的？

A：TALE框架通过两种方式让AI推理更省钱：估算提示法让AI先估算需要多少词汇回答问题，然后设置相应限制；后训练法则重新训练AI模型，让它自然产生更简洁的推理过程。就像教一个啰嗦的人学会言简意赅地表达。

Q2：使用TALE框架会不会影响AI回答的准确性？

A：研究显示TALE框架能在准确率仅下降3%的情况下，将词汇使用量减少67%，成本降低59%。在某些数学问题上，TALE甚至比传统方法更准确，因为去除冗余信息后推理更清晰。

Q3：TALE框架适用于所有类型的AI模型吗？

A：目前TALE主要针对文本输入输出的AI模型进行了优化，在GPT-4o-mini、Yi-lightning、GPT-4o等多种主流模型上都验证有效。但对于能同时处理图像、音频的多模态AI系统，还需要进一步扩展适配。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.