网易首页 > 网易号 > 正文 申请入驻

DeepSeek等开源模型,更“浪费”token吗

0
分享至

很多业内人士已经注意到,似乎DeepSeek-R1等开源模型,在回答问题时往往缺乏“节制”。尤其是简单问题,它想得过于复杂了。它的单位token成本的API价格优势,最终将可能被不受制约的“冗长思考”所侵蚀。

NousResearch团队一项研究,就是想搞清楚,开源权重模型在完成相同任务时,是否系统性地需要比闭源模型更多的token?当将token消耗数量纳入考量后,这种差异如何影响总体推理成本?这种效率差异在不同的任务类型中是否更加显著?

该研究发现,对于不需要复杂推理就可直答的知识题(Knowledge questions),开源模型的“浪费”最为明显,DeepSeek-R1-0528完成任务消耗的token数量(completion tokens)——它既包括向用户呈现的输出结果,也包括思维链(CoT),并与实际计费的token数量相匹配——要比基准水平高出4倍。不过,到了需要推理数学题(Math problems)以及更复杂的逻辑谜题(Logic puzzles),DeepSeek-R1-0528消耗的token数量,高出基准水平缩小至2倍左右。看来实际工作中,向合适的模型询问合适的问题是一大学问。


事实上,AI招聘独角兽公司Mercor的也注意到了这一现象。在它提出的衡量大模型的AI生产力指数的APEX-v1.0基准上,Qwen-3-235B和DeepSeek-R1的输出长度都超过了其他前沿模型。它们思考得更久,可以弥补一些不足,提升了平均成绩,代价就是更多的token消耗。

但这也是“慢思考”刚推出时的魅力,不是吗?在预训练扩展边际放缓后,测试时扩展越来越重要,是提升解题能力的关键。回到NousResearch团队的研究上,DeepSeek-R1在各类逻辑谜题的准确率,也明显胜出一筹。也许它慢了一些,用的token也多了一些,但答对了题!


所以,开源模型相比前沿闭源模型,究竟经济不经济?

如果有一个最简易的统计公式,那么token经济可以归纳为:AI完成一项任务的收益=token兑现的价值-单位token成本×消耗token数量。

Token兑现的价值,一方面取决于模型能不能最终解决现实问题,另一方面则取决于它所解决的问题有多值钱。它下围棋战胜世界冠军,值多少钱?获得奥数金牌,又值多少钱?但更重要的是,在实际工作场景中创造出经济价值,而这些价值由市场来决定。

单位token成本也决定着模型的经济性。黄仁勋一直鼓吹“买得越多,省得越多”,就是从硬件与基础设施层面优化能效,降低运营成本的逻辑。这是美国的强项。目前,美国几乎所有AI云巨头与前沿大模型厂商,都在探索与部署AI定制芯片以降低推理成本。英伟达计划自研HBM基础裸片(Base Die),OpenAI则找上了SK海力士与三星合作;闪迪甚至预见了数年后HBF的颠覆性。

中国开源社区的贡献,主要在于算法和架构的改进,对MOE推理与注意力机制的探索层出不穷。阿里巴巴的架构,总参数80B,却只需激活3B,即可媲美旗舰版Qwen3-235B性能,效率大幅提升。DeepSeek最新发布的引入了DSA机制,能在成本更低的同时几乎不影响模型的输出效果。这些都体现为每百万token的输入和输出成本在持续下降。

微软近期一篇为自己的碳足迹“洗白”的论文中,驳斥过往的纸面研究,往往忽略了实际部署环境中的规模效应与软硬件优化措施。论文提到,就每次AI查询而言,实际能耗要比预估低8-20倍。其中,硬件改进带来1.5至2倍降幅,模型改进带来3至4倍降幅,工作负载优化带来2至3倍降幅。

这里的工作负载优化,既包括KV缓存管理与批大小管理等提升单位token生成效率的手段,也包括用户手动设置token预算上限,或自动触发智能路由调用合适模型等降低token消耗数量的技术。OpenAI坚持让实时路由系统,根据对话类型、复杂度、所需工具和明确意图快速决定调用哪个模型。字节跳动的Knapsack RL也是类似的预算分配策略探索。这些都是出于性价比的考虑。

很长一段时间以来,在讨论token经济学时,完成任务的token消耗数量,往往被人们所忽视。这一指标缺乏前述各类测评token价值的基准,也不在大模型API定价中直接标识出来。

但它无疑越来越重要,它决定着AI的经济性。实际工作不同于刷榜(有的刷榜也有算力成本上限),往往存在明显的成本约束。前述微软论文也担心,随着多模型与智能体的广泛落地,更多的推理次数和更长的推理时间将带来更高的能耗。不仅如此,要输出更多token,通常也意味着更长的响应时间,用户体验下降;对于部分必须高速精准响应的场景,这甚至是生死问题;单次任务越来越多的token消耗,也可能耗尽模型的上下文窗口,限制它处理复杂长任务的能力。

受限于各自的技术储备、供应链体系与电力供给条件,中国与美国在token经济学上已经各自分岔。中国开源模型的首要目标是在国产替代的现实中逼近前沿水平,用较多的token换取较高的价值;美国闭源模型则要开始想法设法去降低token的消耗,并提升token的价值。

从DeepSeek的R1到R1-0528,或者,从Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507,中国领先的开源模型的迭代,往往伴随着总token消耗的上升。而Anthropic、OpenAI与xAI的模型迭代,则伴随着总token消耗的降低。


到目前为止,NousResearch团队的研究认为,综合token消耗数量与单位token成本(基于海外第三方的API价格,因工作负载不同,定价区间差别较大),DeepSeek等开源模型仍具备整体成本优势,但在最高API定价时(即以更大的上下文或更高的吞吐速度交付结果等),它的整体成本优势已经不再显著,尤其是在回答简单问题时。


结合中国的AI算力生态,token消耗过多的短板会进一步放大。有一项研究,专门就基础设施的框架,量化了前沿模型的硬件配置与环境乘数,对能耗、水与碳足迹的影响。在其设定场景下,DeepSeek-R1成为了碳排放量最高的前沿模型,且远高于其他模型。除了与o3类似,它大量依赖CoT深度思考,还因为该研究为它“分配”了H800等更低能效的芯片,以及更高PUE的数据中心。

当下对性能的追求压倒了一切。最终,起作用的将是AI的经济性,用尽可能少的token解决尽可能有价值的问题。

参考:

https://doi.org/10.48550/arXiv.2505.09598

https://doi.org/10.48550/arXiv.2509.20241

https://arxiv.org/html/2509.25721v2

https://github.com/cpldcpu/LRMTokenEconomy/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
601022,临近午间收盘3分钟直线涨停!航运、石油板块集体大爆发

601022,临近午间收盘3分钟直线涨停!航运、石油板块集体大爆发

证券时报e公司
2026-03-03 12:19:47
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

上海电影院现场被捉奸,带情夫当老公面出轨,狗血女主角真容曝光

静若梨花
2026-03-01 16:25:46
100%赖账,这何尝不是一种极致的诚信!

100%赖账,这何尝不是一种极致的诚信!

财经保探长
2026-02-28 10:46:25
中美联合国激烈交锋,美逼中国买单,中方拒绝接受,对美反将三军

中美联合国激烈交锋,美逼中国买单,中方拒绝接受,对美反将三军

boss外传
2026-03-02 14:00:03
火箭队又伤一人!单场22+12+4,主控末节因伤离场!阵容雪上加霜

火箭队又伤一人!单场22+12+4,主控末节因伤离场!阵容雪上加霜

熊哥爱篮球
2026-03-03 11:42:41
谢泼德真打出来了!防守蜕变能串联全队,还能进关键三分!

谢泼德真打出来了!防守蜕变能串联全队,还能进关键三分!

篮球资讯达人
2026-03-03 11:34:20
伊朗不是委瑞内拉,哈梅内伊不是马杜罗,军事专家逐渐失去信任!

伊朗不是委瑞内拉,哈梅内伊不是马杜罗,军事专家逐渐失去信任!

眼光很亮
2026-03-01 16:43:04
洛克希德·马丁的生产线突然停了,中国冻结了他们在华的全部资产

洛克希德·马丁的生产线突然停了,中国冻结了他们在华的全部资产

百态人间
2026-02-25 15:33:21
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
一夜打光1亿美元拦截弹?美军中央司令部证实:200架战机全派出!

一夜打光1亿美元拦截弹?美军中央司令部证实:200架战机全派出!

标体
2026-03-03 11:42:38
卫星证实!林肯号航母被伊朗导弹袭击时,进行90度机动规避!

卫星证实!林肯号航母被伊朗导弹袭击时,进行90度机动规避!

52赫兹实验室
2026-03-02 21:00:37
日经225指数跌幅扩大,现跌2.0%

日经225指数跌幅扩大,现跌2.0%

每日经济新闻
2026-03-03 10:08:25
美伊开战,重温毛主席的5个重要论断!

美伊开战,重温毛主席的5个重要论断!

钧言堂
2026-03-01 11:16:37
那些预言 “美国不敢打伊朗” 的野生国师们,打脸了吗?

那些预言 “美国不敢打伊朗” 的野生国师们,打脸了吗?

黑企鹅观察
2026-03-03 08:29:47
霍尔木兹海峡航运受阻,国际油价暴涨13%!川籍船员亲历:数百船只滞留波斯湾,一货轮上有十余名中国船员

霍尔木兹海峡航运受阻,国际油价暴涨13%!川籍船员亲历:数百船只滞留波斯湾,一货轮上有十余名中国船员

封面新闻
2026-03-02 22:17:16
美官员:对伊朗的最新打击规模将远超去年6月

美官员:对伊朗的最新打击规模将远超去年6月

参考消息
2026-02-28 17:39:04
韩国股市暴跌触发熔断机制

韩国股市暴跌触发熔断机制

中国经济网
2026-03-03 12:27:07
利马有望复出战纽卡!曼联若赢球有望锁定前五,卡里克或调整首发

利马有望复出战纽卡!曼联若赢球有望锁定前五,卡里克或调整首发

罗米的曼联博客
2026-03-03 11:47:15
2026-03-03 13:19:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
319文章数 62关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

教育
时尚
健康
数码
公开课

教育要闻

娃娃秧歌扭起来 非遗传承润童心

普通人穿衣真的很简单!单品选对、搭配合理,大方舒适又得体

转头就晕的耳石症,能开车上班吗?

数码要闻

NVIDIA新驱动解决风扇停转问题:但悄悄限制RTX 50 GPU电压!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版