DeepSeek等开源模型，更“浪费”token吗|算法|大模型|deepseek

DeepSeek等开源模型，更“浪费”token吗

2025-10-10 00:26:49　来源: 未尽研究

上海举报

分享至

很多业内人士已经注意到，似乎DeepSeek-R1等开源模型，在回答问题时往往缺乏“节制”。尤其是简单问题，它想得过于复杂了。它的单位token成本的API价格优势，最终将可能被不受制约的“冗长思考”所侵蚀。

NousResearch团队一项研究，就是想搞清楚，开源权重模型在完成相同任务时，是否系统性地需要比闭源模型更多的token？当将token消耗数量纳入考量后，这种差异如何影响总体推理成本？这种效率差异在不同的任务类型中是否更加显著？

该研究发现，对于不需要复杂推理就可直答的知识题（Knowledge questions），开源模型的“浪费”最为明显，DeepSeek-R1-0528完成任务消耗的token数量（completion tokens）——它既包括向用户呈现的输出结果，也包括思维链（CoT），并与实际计费的token数量相匹配——要比基准水平高出4倍。不过，到了需要推理数学题（Math problems）以及更复杂的逻辑谜题（Logic puzzles），DeepSeek-R1-0528消耗的token数量，高出基准水平缩小至2倍左右。看来实际工作中，向合适的模型询问合适的问题是一大学问。

事实上，AI招聘独角兽公司Mercor的也注意到了这一现象。在它提出的衡量大模型的AI生产力指数的APEX-v1.0基准上，Qwen-3-235B和DeepSeek-R1的输出长度都超过了其他前沿模型。它们思考得更久，可以弥补一些不足，提升了平均成绩，代价就是更多的token消耗。

但这也是“慢思考”刚推出时的魅力，不是吗？在预训练扩展边际放缓后，测试时扩展越来越重要，是提升解题能力的关键。回到NousResearch团队的研究上，DeepSeek-R1在各类逻辑谜题的准确率，也明显胜出一筹。也许它慢了一些，用的token也多了一些，但答对了题！

所以，开源模型相比前沿闭源模型，究竟经济不经济?

如果有一个最简易的统计公式，那么token经济可以归纳为：AI完成一项任务的收益=token兑现的价值-单位token成本×消耗token数量。

Token兑现的价值，一方面取决于模型能不能最终解决现实问题，另一方面则取决于它所解决的问题有多值钱。它下围棋战胜世界冠军，值多少钱？获得奥数金牌，又值多少钱？但更重要的是，在实际工作场景中创造出经济价值，而这些价值由市场来决定。

单位token成本也决定着模型的经济性。黄仁勋一直鼓吹“买得越多，省得越多”，就是从硬件与基础设施层面优化能效，降低运营成本的逻辑。这是美国的强项。目前，美国几乎所有AI云巨头与前沿大模型厂商，都在探索与部署AI定制芯片以降低推理成本。英伟达计划自研HBM基础裸片（Base Die），OpenAI则找上了SK海力士与三星合作；闪迪甚至预见了数年后HBF的颠覆性。

中国开源社区的贡献，主要在于算法和架构的改进，对MOE推理与注意力机制的探索层出不穷。阿里巴巴的架构，总参数80B，却只需激活3B，即可媲美旗舰版Qwen3-235B性能，效率大幅提升。DeepSeek最新发布的引入了DSA机制，能在成本更低的同时几乎不影响模型的输出效果。这些都体现为每百万token的输入和输出成本在持续下降。

微软近期一篇为自己的碳足迹“洗白”的论文中，驳斥过往的纸面研究，往往忽略了实际部署环境中的规模效应与软硬件优化措施。论文提到，就每次AI查询而言，实际能耗要比预估低8-20倍。其中，硬件改进带来1.5至2倍降幅，模型改进带来3至4倍降幅，工作负载优化带来2至3倍降幅。

这里的工作负载优化，既包括KV缓存管理与批大小管理等提升单位token生成效率的手段，也包括用户手动设置token预算上限，或自动触发智能路由调用合适模型等降低token消耗数量的技术。OpenAI坚持让实时路由系统，根据对话类型、复杂度、所需工具和明确意图快速决定调用哪个模型。字节跳动的Knapsack RL也是类似的预算分配策略探索。这些都是出于性价比的考虑。

很长一段时间以来，在讨论token经济学时，完成任务的token消耗数量，往往被人们所忽视。这一指标缺乏前述各类测评token价值的基准，也不在大模型API定价中直接标识出来。

但它无疑越来越重要，它决定着AI的经济性。实际工作不同于刷榜（有的刷榜也有算力成本上限），往往存在明显的成本约束。前述微软论文也担心，随着多模型与智能体的广泛落地，更多的推理次数和更长的推理时间将带来更高的能耗。不仅如此，要输出更多token，通常也意味着更长的响应时间，用户体验下降；对于部分必须高速精准响应的场景，这甚至是生死问题；单次任务越来越多的token消耗，也可能耗尽模型的上下文窗口，限制它处理复杂长任务的能力。

受限于各自的技术储备、供应链体系与电力供给条件，中国与美国在token经济学上已经各自分岔。中国开源模型的首要目标是在国产替代的现实中逼近前沿水平，用较多的token换取较高的价值；美国闭源模型则要开始想法设法去降低token的消耗，并提升token的价值。

从DeepSeek的R1到R1-0528，或者，从Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507，中国领先的开源模型的迭代，往往伴随着总token消耗的上升。而Anthropic、OpenAI与xAI的模型迭代，则伴随着总token消耗的降低。

到目前为止，NousResearch团队的研究认为，综合token消耗数量与单位token成本（基于海外第三方的API价格，因工作负载不同，定价区间差别较大），DeepSeek等开源模型仍具备整体成本优势，但在最高API定价时（即以更大的上下文或更高的吞吐速度交付结果等），它的整体成本优势已经不再显著，尤其是在回答简单问题时。

结合中国的AI算力生态，token消耗过多的短板会进一步放大。有一项研究，专门就基础设施的框架，量化了前沿模型的硬件配置与环境乘数，对能耗、水与碳足迹的影响。在其设定场景下，DeepSeek-R1成为了碳排放量最高的前沿模型，且远高于其他模型。除了与o3类似，它大量依赖CoT深度思考，还因为该研究为它“分配”了H800等更低能效的芯片，以及更高PUE的数据中心。

当下对性能的追求压倒了一切。最终，起作用的将是AI的经济性，用尽可能少的token解决尽可能有价值的问题。

参考：

https://doi.org/10.48550/arXiv.2505.09598

https://doi.org/10.48550/arXiv.2509.20241

https://arxiv.org/html/2509.25721v2

https://github.com/cpldcpu/LRMTokenEconomy/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.