网易首页 > 网易号 > 正文 申请入驻

人民想念DeepSeek

0
分享至


文章转载于腾讯科技
作者:苏扬

最近关于Token的讨论挺魔幻的。

朋友圈随处能看到Token中文翻译的讨论——有"词元"、"智元"等等,甚至有"慧根"之类的搞笑版本。

Token不是一个新概念,大模型落地第一天起,它便与神经网络共生,但直到OpenClaw(俗称"龙虾")在用户群大规模扩散,各类Agent应用开始把Token带入了公众视野。

我认为其中有两个关键问题:它的消耗量太大了,价格也太贵了

记得OpenAI发布GPT-5.4的时候,有用户反馈测试一句"你好"就消耗掉了80美元的Token,当时不少人都说这个使用量太夸张,但随着小龙虾大规模在用户群扩散,一个任务烧完千万级Token成为常态。

与之相对的是,英伟达CEO黄仁勋在GTC2026大会上以及之后的很多场合,都在强调工程师要大量的使用Token,甚至将Token纳入到薪酬激励机制。

一次对话环节,黄仁勋说:"如果年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。"

问题是,疯狂的烧Token一定能解决问题吗,有多少Token是有效的,什么样的投入产出比是合理的?

结合刚刚外媒的消息,有OpenAI程序员一周烧掉了2100亿Token,相当于33个维基百科,但这样的消耗量最终带来了什么?我发了一个朋友圈,说这样重度使用能升P10吗,有好友随即评论,"能帮卖Token的升P10。"

很显然,这场疯狂烧Token的运动,能带来多少效果是存疑的,谁是获利者则是确定的。

黄仁勋将英伟达描述为"Token之王",拥有世界最先进的"Token制造机",但如果拼命鼓吹这件事,甚至暗示不用Token就会落后,那么可以说:一方面,黄仁勋想彻底改变AI时代企业"效率考核"的逻辑,另一方面,他也间接制造出了Token焦虑。

1

Token太贵了

不久前,我请教了周鸿祎"Token太贵"这个问题,他说:"大家觉得Token贵可能存在些误解,因为大模型后端是可以灵活配置的。"

在他的理解中,用户可以自主选择模型控制成本。"日常聊天对话的成本其实很低。真正消耗Token的是复杂任务,比如帮你生成视频、创作短剧或写小说这类调用场景。"

我记得猎豹移动CEO傅盛在一条视频中说,自己通过一些使用技巧把最初日均几百美元的Token费用,优化到目前日均10多美元,30天就是2100元,年费是25200元。

问题来了:有多少用户承担得起日均10美元的成本?

对比目前中国互联网上的商用to C类软件,比如剪映,高端会员年费也只有600元左右,娱乐相关的会员费用大致在300元左右,根本找不到一款年费超过25000元的消费级软件。

"绝大部分人一天10美金,仍然不会接受,这里会过滤掉大片的非付费用户。"我对傅盛说,他没有否认我的判断。

这些天,我也在尝试各种类型的小龙虾产品,要接触到的费用远不止Token。

举个例子,如果用户对生图有需求,就需要专门的生图模型API;如果要监控动态,也需要接入付费的搜索API,这些潜在的费用会逐步的劝退绝大多数用户。虽然可能有一些开源变通的方式降本,但开源项目就间接隐藏着安全风险。

3月13日,当时腾讯科技"虾聊"系列直播的第一期(),玄武实验室的嘉宾Lambda分享过一个数据——他自己平均每个月"养虾"的费用在千元以上。

不管是参照消费级工具年费,还是行业"养虾户"的反馈,基于Agent的Token消耗说一句"Token太贵了",是站得住脚的。

1

存储瓶颈与效率黑洞

Token简单理解就是大语言模型处理信息的基本单位——用户输入提示词,模型输出答案,每一个字、每一个标点,都会计入Token的消耗量,本质上还是算力成本。

过去大家计算算力总拥有成本,指标有很多,包括衡量能效的Flops/W,核算均值的成本/Flops等等,今年的"Token经济学"中,Token/W逐步成为共识。

"我们的每一个Token成本都是世界最低的。"黄仁勋在GTC上说。

但不管有多便宜,不管是哪一种计算单位,它都是投入成本量化,涉及到研发成本、硬件成本,部署成本,能耗成本,运营成本等。换句话说,降本也都是围绕上述环节展开。

对于Token降本来说,一个不好的消息是内存价格在疯涨。

以HBM内存为例,它是支撑大模型训练和推理的关键器件,同时,推理数据量的暴涨也引发出了存储需求的同步上涨。2026年第一季度,DRAM的价格环比上涨超过50%,NAND价格环比最高涨幅达到150%。

黄仁勋、苏姿丰都已经喊出了"HBM有多少要多少",三星、美光这些存储原厂,已经对外披露头部客户的战略长约已经签到了5年。

一文提到过,消费级市场,千元机库存可能都要停产了,但实际上受这个问题的影响,云厂商目前也处于涨价的煎熬之中。目前行业最乐观的预计是2028年存储价格回落,悲观一点要到2030年。

存储价格一天不回落,Token降价就缺少一个关键的外部杠杆。

模型能力的提升也可以视为降价的另一个杠杆。"现在一些8B的小模型,能力越来越逼近全量大模型。"一位学术界研究员说。

在这方面,面壁智能联合清华团队在《Nature》子刊上提出了Densing Law的概念,强调大模型的能力密度随时间指数增长,约每3.5个月翻一倍,同等性能所需参数量每3.5个月减半。

一位国产AI芯片从业者也强调模型能力好、规模小,进而能推动成本降低。"你看国内开源大模型token价格,基本都跟模型规模正相关。"

多位国产算力从业者表示,提升MFU也会带来成本压缩的空间,此外也还包括架构、显存等多方面的推理优化。

"MFU跟模型本身关系不太大,主要是算子和调度策略有关。"另一位国产存算一体芯片从业者说,"目前主流大模型的推理MFU均值在30%左右,优化后可超过50%,估计能省出50%的成本。"

也就是说,行业并没有榨干GPU的性能——花了100%的GPU钱,现在只用了不到三分之一的算力。

不过,MFU提升虽然可以带来单Token成本下降,但会不会传导到C端,取决于大模型提供方的商业考量,如果用来打价格战,这毫无疑问是一个有效的杠杆。

1

再来一次价格战

中国大模型的价格战,不是没有先例。

2024年,国内厂商就曾经爆发过一轮激烈的价格战。当时恰逢DeepSeek-V2上线,每百万Token输入1元、输出2元,彼时价格相当于GPT-4-Turbo的百分之一。

DeepSeek当时的降价关键就在于推理优化——MoE稀疏架构大幅降低了计算量,MLA多头潜在注意力把KV缓存压缩90%以上。

DeepSeek开启这轮降价之后,随即阿里、字节、等等先后下场展开价格战博弈,一度出现了"Token免费"的现象。

王小川当年在一次交流会上谈价格战,他认为与此前团购、网约车大战有本质不同,"这次价格战是直接生产力的供给,是B端市场的价格战。"

在当时,王小川也强调即使短期内亏损,(大厂)也可能在一年后实现盈利。

"在推理效率提升的情况下,通过补贴,用户有了非常明显的增长,"一位参与过上一轮价格战的大模型公司内部人士说,"大概花了几个亿吧。"

不过,这一轮Token的消耗,B端和C端需求同时爆发,反而和团购、网约车大战一样,具备改变生产关系的条件,但市场却表现出了出奇的沉默。

前述参与价格战的大模型内部人士认为,在模型的特定能力成熟,有了稳定用户来源的情况下,大家未必有动力再下场去打价格战。

"Token消耗不像2024年那种规模了,这个情况下,为了虾打价格战,存量用户的ARR收入也会被迫失血,"前述国产AI芯片从业者说,"没必要,价格战带来的增量还不确定,先把存量自砍了,这账不好算。"


Artificial Analysis跟踪的大模型API价格

根据Artificial Analysis的跟踪数据,国产模型的API单价已经足够便宜了,只是这个便宜程度对于Agent的巨量消耗来说,还远远不够。

如前面所说,受内存和存储的硬件成本冲击,国内云厂商现在面对的是涨价的难题,短期不太有降价的可能性。

"现在是前两年价格战的持续,国内厂商的价格比北美有明显的优势。只是大家清楚抢用户是个持久战,不是一两次价格战能搞定的。"前述国产存算一体芯片从业者补充道。

1

把模型"焊"在芯片上

为了解决Token疯狂消耗带来的成本问题,一部分用户开始尝试利用本地部署模型。

到目前为止,已经有不少用户基于Mac Mini为"小龙虾"配置本地模型,只不过这种解决方案,在短时间内会不断地推高Token使用成本,同时本地部署本身就存在门槛,且开源模型的能力未必能够符合用户的需求。

针对那些入门级用户,也有厂商尝试推出EdgeClaw硬件,并且在硬件生意之上,套上一层安全的故事,这其实是一个值得尝试的方向,只是在内存涨价大环境下,显得有些生不逢时。

此前,一位Mini主机创业者说,涨价对行业都有冲击。

"以前用户是觉得'好贵',现在直接根本不看了,他们并不在乎你的内存和硬盘有多大。"该创业者说。

与此同时,一些品牌也在电商平台推出准系统产品(无内存、存储),最低价格在2000元以内,它们虽然没有"安全故事",却是Edgeclaw这种创业型项目第一个要逾越的难关。

对"小龙虾"端侧AI硬件来说,最大的挑战还是Mac Mini,苹果的供应链话语权和毛利率可以支撑Mac Mini超高性价比的定价,创业团队在这里很难讲故事。

还记得2025年初期,DeepSeek爆火时的"一体机"吗,你看今天行业里面还有它们的故事吗?

除了一体机这种集成硬件方案,也有创业项目尝试从更底层的芯片上去做创新

2月份,Taalas团队推出了一款全新的芯片HC1,该芯片基于TSMC N6制程,die size 815mm²,晶体管密度仅53B,单芯片可运行Llama 3.1 8B模型,最核心的是单用户TPS(Token/s)输出16960/s,数据堪称爆表,关键就在于HC1的设计。

Taalas团队在这款芯片上,用Mask ROM将Llama 3.1 8B模型权重硬编码固化在硅片上,芯片金属层连线相当于神经元连接,相当于把模型"焊在"芯片上,同时实现计算与存储物理融合,彻底消除HBM/DRAM数据搬运,打破了内存墙限制。

虽然TPS性能突出,它的短板也同样来自于模型"焊在"芯片上这个特点,这意味着只能跑固定版本的固定模型,权重不能改、结构不能动,想换模型就要重新流片,你也可以理解为专芯专用。

1

一切的讨论都基于Token使用成本——贵的不是单价,而是重度任务对Token使用量的倍数放大。


我曾经尝试过用小龙虾来生成指定时间戳的gif,在和一位同行交流的过程中,他说:"你这里面的gif图,我们同事做,半分钟做一张,手工。"

尽管这个案例不是很典型,但如果做几张gif就要花掉几元钱,显然不具备经济性。


接入DeepSeek API制作gif的消耗情况

要改变这一点,要么拥有更便宜的Token定价,要么Token消耗最小化,这依赖模型层面的优化,也取决于推理硬件层面的创新。

但无论如何,在Token使用的总费用打不下来,且投入的有效产出不明确的情况下,疯狂安利Token消耗,甚至强调与绩效挂钩,说是制造Token焦虑,制造AI焦虑也不为过

再往前看,老黄还呼吁科技行业领袖审慎发声,避免引发公众对人工智能技术的非理性恐慌。这就好比跟全行业说:别打压人工智能制造恐慌了,你们都要把Token烧起来。

可问题是,谁来解决价格问题呢,会是迟迟没有到来的DeepSeek V4吗?

我记得2017年的时候,有一篇刷屏文章叫《人民想念周鸿祎》,现在人民应该很想念Token价格战,想念DeepSeek。

至少对于"虾民"来说,大概率如此。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
咱们的治安水平,在蓝星上来说,其实是不正常的

咱们的治安水平,在蓝星上来说,其实是不正常的

占理儿
2026-05-25 20:10:03
一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

一场盛大的“自我认知”溃败:从法网吞蛋看郑钦文的迷失

网球之家
2026-05-26 23:12:55
结婚22年男子被大儿子打后发现俩儿子非亲生:养了一只狼

结婚22年男子被大儿子打后发现俩儿子非亲生:养了一只狼

大象新闻
2026-05-26 18:42:23
黄圣依直播杨子狂刷礼物成榜一大哥,黄圣依助理吐槽:追妻火葬场

黄圣依直播杨子狂刷礼物成榜一大哥,黄圣依助理吐槽:追妻火葬场

观鱼听雨
2026-05-26 23:50:20
比英伟达还能赚!2012它差点破产,如今靠内存闷声发大财

比英伟达还能赚!2012它差点破产,如今靠内存闷声发大财

首席商业评论
2026-05-26 15:33:17
彻底社死!"小仙女"白嫖外卖,监控播放量超2000万,长相清秀斯文

彻底社死!"小仙女"白嫖外卖,监控播放量超2000万,长相清秀斯文

林轻吟
2026-05-26 19:45:55
鸡蛋兽药残留严重超标!山东、河南、安徽等地通告鸡蛋抽检不合格

鸡蛋兽药残留严重超标!山东、河南、安徽等地通告鸡蛋抽检不合格

新浪财经
2026-05-26 22:02:15
尼克斯总决赛票价破纪录!最低2.42万人民币 够看去年7场总决赛

尼克斯总决赛票价破纪录!最低2.42万人民币 够看去年7场总决赛

罗说NBA
2026-05-27 06:41:35
王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

王鹤棣父亲回应店铺遭多条差评:生意下降了40%,白天晚上都有影响

封面新闻
2026-05-26 19:12:38
深圳,再添一所985大学

深圳,再添一所985大学

TOP大学来了
2026-05-26 21:01:16
洛夫顿赛后伤情动态!没穿上衣,肩膀不敢动,本人承诺为G2做准备

洛夫顿赛后伤情动态!没穿上衣,肩膀不敢动,本人承诺为G2做准备

篮球资讯达人
2026-05-27 01:15:29
中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

中方通告全球,对菲律宾发布66号公告:马科斯知道,中国动真格了

深析古今
2026-05-26 18:36:56
割四赔五上热搜,当地书记都无可奈何,只能自掏腰包进行补偿

割四赔五上热搜,当地书记都无可奈何,只能自掏腰包进行补偿

映射生活的身影
2026-05-26 15:56:12
武契奇前脚离开,后面塞尔维亚就乱了

武契奇前脚离开,后面塞尔维亚就乱了

凤眼论
2026-05-26 14:16:31
黄仁勋发声:这种做法相当不负责任,我非常反感

黄仁勋发声:这种做法相当不负责任,我非常反感

每日经济新闻
2026-05-26 19:45:26
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

中吴网
2026-05-25 22:42:39
食客吃面疑浪费6勺辣椒酱被店主网上曝光 律师:商家可索赔但视频应打码

食客吃面疑浪费6勺辣椒酱被店主网上曝光 律师:商家可索赔但视频应打码

封面新闻
2026-05-26 16:54:12
山西沁源矿难背后:沦为空文的141项煤矿安全标准,与“通风报信”式检查

山西沁源矿难背后:沦为空文的141项煤矿安全标准,与“通风报信”式检查

大风新闻
2026-05-26 17:48:27
奶茶店施暴女子已被行拘:正脸曝光,身份被扒是老师,工作恐不保

奶茶店施暴女子已被行拘:正脸曝光,身份被扒是老师,工作恐不保

奇思妙想草叶君
2026-05-25 23:22:54
外网800万播放!欧媒疑集体歧视亚洲球员:多次故意不给捧杯镜头

外网800万播放!欧媒疑集体歧视亚洲球员:多次故意不给捧杯镜头

风过乡
2026-05-27 07:25:31
2026-05-27 08:59:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3110文章数 10499关注度
往期回顾 全部

科技要闻

狂飙19%!美光科技市值破万亿美元

头条要闻

牛弹琴:明知会被拒 特朗普向中东国家提了个非分要求

头条要闻

牛弹琴:明知会被拒 特朗普向中东国家提了个非分要求

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

ST岩石退市背后:A股“炒壳”时代终结

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

家居
亲子
数码
手机
旅游

家居要闻

生与命相依 旧公寓改造

亲子要闻

重庆儿童配眼镜如何不踩坑:从验配到防控的实用指南

数码要闻

苹果发布AirTag 2新固件3.0.49 更新内容暂未披露

手机要闻

苹果iOS 27版Siri曝料:视觉风格类似WWDC26宣传图

旅游要闻

渝见好“村”光|荣昌大荣寨社区:濑溪河畔的水墨江南

无障碍浏览 进入关怀版