网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4降价90%:一场算力成本的清场战

0
分享至

上周五DeepSeek V4发布48小时内,官方甩出两连击:Pro版本API限时2.5折,输入缓存命中价格永久降至原价十分之一。当行业集体涨价时,这家公司的定价策略像一道错题——答案对了,但解题过程让人看不懂。

价格屠夫的时间差


3月以来,OpenAI、Anthropic、智谱、阿里、腾讯的AI产品与"降价"绝缘。模型参数膨胀,API价格水涨船高,跑分竞赛与账单压力同步攀升。行业形成默契:更好的智能等于更高的价格。

DeepSeek V4 Pro的价格逼近国内AI产品下限,Flash版本比旧模型更便宜。输入缓存命中价格0.025元,在智能体时代称"接近免费"并不夸张。关键细节:缓存降价是永久的,非限时活动。

质疑随之而来:是否文字游戏?必须缓存命中才能享受低价,实际命中率几何?实测结果否定了猜疑——不是噱头,是真的便宜。

当同行还在为几块钱定价调整权衡时,DeepSeek把价格表的小数点左移一位。开发者视之为慈善,竞争对手视之为价格战,两者都未触及本质。

这是清场。一场早已分出胜负的成本斩杀。

十分之一的源头:记忆重构

DeepSeek敢于激进调价的底气,藏在58页技术报告中。它不需要烧钱换市场,而是用重构的底层架构,把大模型推理成本推向新数量级。

一个数字跳出来:百万token上下文场景下,V4的KV Cache占用仅为前代V3.2的10%。定价十分之一的源头,就在这里。

今天的AI对话远比几年前复杂。几十页文档作为参考资料已成常态,模型必须记住这些内容才能正确回答——这种记忆就是KV Cache。问题在于,长篇大论的记忆既复杂又臃肿。百万字书籍对人轻薄,对模型却需十几张昂贵显卡的显存。长上下文窗口的成本,长期居高不下。

有人接受现实,DeepSeek选择掀翻传统记忆方式。

第一种新方法叫压缩稀疏注意力。传统机制中,一个token对应一组KV向量。新做法通过可学习的线性投影和Softmax函数计算压缩权重,将连续多个token的KV状态在序列维度上融合成单一条目。

直觉理解:以前模型逐字逐句记忆,现在学会段落总结,每几十个词的核心意义浓缩成一句话。V4 Pro压缩率设为4,仅此一步,缓存体积在序列长度上缩减75%。

第二种方法更激进:重度压缩注意力。它把远大于常规压缩窗口的token记忆压进一个条目,不做稀疏检索,而是全局密集注意力计算。代价是计算开销增加,回报是压缩率惊人。V4 Pro中这一层压缩率为128——段落总结升级篇章提炼,整页内容浓缩成几个关键词。

激进压缩必付代价:局部细粒度信息和严格因果关系会被暴力压缩破坏。DeepSeek的解法是在注意力机制中增加独立分支——窗口大小128的滑动窗口。最近128个token不被压缩,保证模型对近期上下文的精确感知。

缓存管理上,异构KV Cache架构将未压缩token作为独立状态管理,让高压缩比下的回答质量得以维持。

还有一步:混合精度存储与磁盘复用。KV Cache的特征维度中,仅用于旋转位置编码的最后64维保留BF16精度,其余全部量化为FP8格式。物理存储再砍一半。

层层削减后,缓存体积压缩90%以上。V4可将高度压缩的KV条目直接放入廉价固态硬盘。用户发起长文本请求时,系统从硬盘直接拉取已压缩缓存,跳过昂贵的GPU预填充计算,同时极大节省HBM显存。

这是记忆的工业化。过去记忆是手工作坊,每个细节原样保存;现在记忆变成流水线,有标准化工序、压缩算法、分级存储。冗余被剔除,本质被保留。

27%的算力:动态稀疏的截断艺术

除显存占用外,推理计算时的浮点运算次数是衡量算力消耗的核心标准。1M长上下文下,V4 Pro的单token推理FLOPs仅为前代V3.2的27%。

下降的核心是动态稀疏选择机制。即使有了压缩缓存,查询向量与前面数万个压缩后的KV向量计算注意力分数,计算量依然庞大。DeepSeek的做法:对于当前查询向量,模型通过下采样和上采样矩阵将其映射到低维隐空间,生成用于检索的索引Query向量。该索引向量与历史缓存的压缩块计算粗略得分,每次生成token时仅检索得分最高的1024个压缩KV条目,再进行后续核心注意力计算。

传统注意力机制中,解码计算复杂度随上下文长度线性增长。压缩稀疏注意力将复杂度强制截断为常数级运算。上下文长度达一百万时,常数级计算量几乎可忽略——这是27%的结构性来源。

与此同步的是精度的系统性妥协。V4不仅将混合专家架构的专家权重量化为FP4精度,还首次将FP4深入注意力计算核心。Query和Key向量的激活值缓存、加载、矩阵乘法,全部在FP4精度下运行。量化感知训练期间,索引得分也从FP32降至BF16。

硬件层面,FP4精度的吞吐量是FP8的两倍。这种极低精度计算让长上下文注意力计算速度加倍,同时维持99.7%的KV检索召回率。

99.7%值得品味:算力下降,精度几乎无损失。过去人们本能认为更便宜等于更差,DeepSeek用数据证明该等式不总成立。工程世界里,冗余和裕度并不天然等于更好结果。

基础设施的"抠门"哲学

自顶向下看完算法优化,再往下一层是DeepSeek的看家本领:对底层基础设施的彻底压榨。这种优化已到"抠门"地步,却构成集群吞吐量提升和降价护城河的真实来源。

V4 Pro参数量达1.6万亿,国内仅次于Kimi系列。但参数膨胀带来问题:混合专家架构中,专家并行的跨节点通信成为瓶颈。DeepSeek团队用自研TileLang语言编写底层融合算子,将MoE层计算按波次划分。一波专家通信一旦完成,GPU立刻开始计算,网络层同时并行传输下一波专家的token。这种流水线式重叠调度,将推理阶段常规工作负载加速1.50至1.73倍,硬件利用率逼近极限。均摊到每个请求的算力折旧成本,被进一步压低。

还有针对智能体场景的独特优化。AI模型执行复杂任务时,往往需先运行额外小模型进行意图识别或工具调用判断。V4的解法更巧妙:在输入序列后附加专用特殊token进行标记。由于模型原生支持多级思考和长短期记忆管理,可直接复用主模型的KV Cache并行执行这些辅助任务。额外模型的维护成本和重复预填充的计算开销,被一并消除。

这一步的意义不是省了几台服务器,而是指向一种哲学层面的分工重构。

清场之后,谁还能留在牌桌

DeepSeek的降价不是商业策略的临时调整,而是一套技术-成本结构的完整兑现。当竞争对手的定价还建立在传统KV Cache的显存占用和线性增长的计算复杂度上时,它已经用压缩稀疏注意力、重度压缩注意力、动态稀疏选择、FP4精度计算、流水线重叠调度,把成本结构重置到另一个维度。

这种重置的可怕之处在于:它不是单点突破,而是全链路的系统性重构。从算法架构到硬件利用率,从存储介质到精度选择,每个环节都在回答同一个问题——在达到同等智能水平的前提下,成本还能压到多低?

技术报告中的数字已经给出阶段性答案:缓存体积90%↓,单token推理FLOPs 73%↓,工作负载加速50%-73%。这些数字翻译成市场语言,就是价格表上那个左移一位的小数点。

对于开发者,这是红利期。对于同行,这是压力测试——你的成本结构能否支撑同等定价?你的技术栈能否实现同等压缩效率?如果答案是否定的,涨价潮里的利润空间将被持续挤压,直到某个临界点。

那个临界点是什么?是当DeepSeek的"接近免费"成为行业基准线时,依赖传统架构的模型服务商,是否还能维持正向现金流?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

跌落神坛!40岁诺伊尔全场0扑救 让大巴黎5次射正进5球 仅获5.2分

我爱英超
2026-04-29 05:22:10
魔术黑八活塞,一步之遥?!

魔术黑八活塞,一步之遥?!

张佳玮写字的地方
2026-04-28 11:28:09
难以置信!太原一女司机将轿车开上超高台阶从容淡定,一夜爆红了

难以置信!太原一女司机将轿车开上超高台阶从容淡定,一夜爆红了

火山詩话
2026-04-28 08:45:45
平台回应“孕妇自称花200元买水果遭丈夫咒骂后引产”:系剧情演绎,已处置禁言

平台回应“孕妇自称花200元买水果遭丈夫咒骂后引产”:系剧情演绎,已处置禁言

齐鲁壹点
2026-04-28 17:19:17
畸形母爱毁星二代:母乳12年同床15年荒唐事

畸形母爱毁星二代:母乳12年同床15年荒唐事

看尽落尘花q
2026-04-25 14:10:18
争议!墨菲失误后,女球迷对赵心童喊汉语“XX他”,裁判:谢谢你

争议!墨菲失误后,女球迷对赵心童喊汉语“XX他”,裁判:谢谢你

风过乡
2026-04-28 21:37:56
陈思诚找小21岁阮巨不是瞎了眼:他比谁都精,要的是情绪稳定

陈思诚找小21岁阮巨不是瞎了眼:他比谁都精,要的是情绪稳定

小猫娱乐叭叭
2026-04-27 20:42:52
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
曾经对程序员最好的公司,倒下了

曾经对程序员最好的公司,倒下了

纯洁的微笑
2026-04-28 12:18:28
世锦赛28日战报,赵心童遭五连鞭勉力追平,吴宜泽4-2浪打失先机

世锦赛28日战报,赵心童遭五连鞭勉力追平,吴宜泽4-2浪打失先机

天涯远行人
2026-04-29 08:11:07
西班牙第一季度失业率为10.83%

西班牙第一季度失业率为10.83%

每日经济新闻
2026-04-28 15:10:08
Manus肖弘比张一鸣错了哪里

Manus肖弘比张一鸣错了哪里

酷公司
2026-04-28 18:24:24
湖北广电董事和高管人员薪酬公布

湖北广电董事和高管人员薪酬公布

越乔
2026-04-28 23:09:02
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
阿Sa官宣结婚24小时内男方身份揭秘,内幕惊人

阿Sa官宣结婚24小时内男方身份揭秘,内幕惊人

调侃国际观点
2026-04-29 01:14:08
西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

生活的哲学
2026-04-29 06:41:35
迟来的爱:俄罗斯“现代级”驱逐舰的完美型号被中国海军实现了

迟来的爱:俄罗斯“现代级”驱逐舰的完美型号被中国海军实现了

风信子的花
2026-04-29 04:26:49
赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

赖清德向大陆喊话,林佳龙返台:机场大言不惭!解放军打独大动作

共工之锚
2026-04-28 15:40:37
反摆烂新规!越烂越亏!肖华下手太狠了!!

反摆烂新规!越烂越亏!肖华下手太狠了!!

柚子说球
2026-04-29 08:43:05
2026-04-29 09:51:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1872文章数 18关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

牛弹琴:白宫官宣两个国王 全世界看得目瞪口呆

头条要闻

牛弹琴:白宫官宣两个国王 全世界看得目瞪口呆

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

数码
艺术
房产
本地
公开课

数码要闻

夏天开空调前必看!做好这几步 制冷好还耐用

艺术要闻

赵朴初:比风水厉害100倍的宇宙定律

房产要闻

红利爆发!海南,冲到全国人口增量第4省!

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版