上周五DeepSeek V4发布48小时内,官方甩出两连击:Pro版本API限时2.5折,输入缓存命中价格永久降至原价十分之一。当行业集体涨价时,这家公司的定价策略像一道错题——答案对了,但解题过程让人看不懂。
价格屠夫的时间差
![]()
3月以来,OpenAI、Anthropic、智谱、阿里、腾讯的AI产品与"降价"绝缘。模型参数膨胀,API价格水涨船高,跑分竞赛与账单压力同步攀升。行业形成默契:更好的智能等于更高的价格。
DeepSeek V4 Pro的价格逼近国内AI产品下限,Flash版本比旧模型更便宜。输入缓存命中价格0.025元,在智能体时代称"接近免费"并不夸张。关键细节:缓存降价是永久的,非限时活动。
质疑随之而来:是否文字游戏?必须缓存命中才能享受低价,实际命中率几何?实测结果否定了猜疑——不是噱头,是真的便宜。
当同行还在为几块钱定价调整权衡时,DeepSeek把价格表的小数点左移一位。开发者视之为慈善,竞争对手视之为价格战,两者都未触及本质。
这是清场。一场早已分出胜负的成本斩杀。
十分之一的源头:记忆重构
DeepSeek敢于激进调价的底气,藏在58页技术报告中。它不需要烧钱换市场,而是用重构的底层架构,把大模型推理成本推向新数量级。
一个数字跳出来:百万token上下文场景下,V4的KV Cache占用仅为前代V3.2的10%。定价十分之一的源头,就在这里。
今天的AI对话远比几年前复杂。几十页文档作为参考资料已成常态,模型必须记住这些内容才能正确回答——这种记忆就是KV Cache。问题在于,长篇大论的记忆既复杂又臃肿。百万字书籍对人轻薄,对模型却需十几张昂贵显卡的显存。长上下文窗口的成本,长期居高不下。
有人接受现实,DeepSeek选择掀翻传统记忆方式。
第一种新方法叫压缩稀疏注意力。传统机制中,一个token对应一组KV向量。新做法通过可学习的线性投影和Softmax函数计算压缩权重,将连续多个token的KV状态在序列维度上融合成单一条目。
直觉理解:以前模型逐字逐句记忆,现在学会段落总结,每几十个词的核心意义浓缩成一句话。V4 Pro压缩率设为4,仅此一步,缓存体积在序列长度上缩减75%。
第二种方法更激进:重度压缩注意力。它把远大于常规压缩窗口的token记忆压进一个条目,不做稀疏检索,而是全局密集注意力计算。代价是计算开销增加,回报是压缩率惊人。V4 Pro中这一层压缩率为128——段落总结升级篇章提炼,整页内容浓缩成几个关键词。
激进压缩必付代价:局部细粒度信息和严格因果关系会被暴力压缩破坏。DeepSeek的解法是在注意力机制中增加独立分支——窗口大小128的滑动窗口。最近128个token不被压缩,保证模型对近期上下文的精确感知。
缓存管理上,异构KV Cache架构将未压缩token作为独立状态管理,让高压缩比下的回答质量得以维持。
还有一步:混合精度存储与磁盘复用。KV Cache的特征维度中,仅用于旋转位置编码的最后64维保留BF16精度,其余全部量化为FP8格式。物理存储再砍一半。
层层削减后,缓存体积压缩90%以上。V4可将高度压缩的KV条目直接放入廉价固态硬盘。用户发起长文本请求时,系统从硬盘直接拉取已压缩缓存,跳过昂贵的GPU预填充计算,同时极大节省HBM显存。
这是记忆的工业化。过去记忆是手工作坊,每个细节原样保存;现在记忆变成流水线,有标准化工序、压缩算法、分级存储。冗余被剔除,本质被保留。
27%的算力:动态稀疏的截断艺术
除显存占用外,推理计算时的浮点运算次数是衡量算力消耗的核心标准。1M长上下文下,V4 Pro的单token推理FLOPs仅为前代V3.2的27%。
下降的核心是动态稀疏选择机制。即使有了压缩缓存,查询向量与前面数万个压缩后的KV向量计算注意力分数,计算量依然庞大。DeepSeek的做法:对于当前查询向量,模型通过下采样和上采样矩阵将其映射到低维隐空间,生成用于检索的索引Query向量。该索引向量与历史缓存的压缩块计算粗略得分,每次生成token时仅检索得分最高的1024个压缩KV条目,再进行后续核心注意力计算。
传统注意力机制中,解码计算复杂度随上下文长度线性增长。压缩稀疏注意力将复杂度强制截断为常数级运算。上下文长度达一百万时,常数级计算量几乎可忽略——这是27%的结构性来源。
与此同步的是精度的系统性妥协。V4不仅将混合专家架构的专家权重量化为FP4精度,还首次将FP4深入注意力计算核心。Query和Key向量的激活值缓存、加载、矩阵乘法,全部在FP4精度下运行。量化感知训练期间,索引得分也从FP32降至BF16。
硬件层面,FP4精度的吞吐量是FP8的两倍。这种极低精度计算让长上下文注意力计算速度加倍,同时维持99.7%的KV检索召回率。
99.7%值得品味:算力下降,精度几乎无损失。过去人们本能认为更便宜等于更差,DeepSeek用数据证明该等式不总成立。工程世界里,冗余和裕度并不天然等于更好结果。
基础设施的"抠门"哲学
自顶向下看完算法优化,再往下一层是DeepSeek的看家本领:对底层基础设施的彻底压榨。这种优化已到"抠门"地步,却构成集群吞吐量提升和降价护城河的真实来源。
V4 Pro参数量达1.6万亿,国内仅次于Kimi系列。但参数膨胀带来问题:混合专家架构中,专家并行的跨节点通信成为瓶颈。DeepSeek团队用自研TileLang语言编写底层融合算子,将MoE层计算按波次划分。一波专家通信一旦完成,GPU立刻开始计算,网络层同时并行传输下一波专家的token。这种流水线式重叠调度,将推理阶段常规工作负载加速1.50至1.73倍,硬件利用率逼近极限。均摊到每个请求的算力折旧成本,被进一步压低。
还有针对智能体场景的独特优化。AI模型执行复杂任务时,往往需先运行额外小模型进行意图识别或工具调用判断。V4的解法更巧妙:在输入序列后附加专用特殊token进行标记。由于模型原生支持多级思考和长短期记忆管理,可直接复用主模型的KV Cache并行执行这些辅助任务。额外模型的维护成本和重复预填充的计算开销,被一并消除。
这一步的意义不是省了几台服务器,而是指向一种哲学层面的分工重构。
清场之后,谁还能留在牌桌
DeepSeek的降价不是商业策略的临时调整,而是一套技术-成本结构的完整兑现。当竞争对手的定价还建立在传统KV Cache的显存占用和线性增长的计算复杂度上时,它已经用压缩稀疏注意力、重度压缩注意力、动态稀疏选择、FP4精度计算、流水线重叠调度,把成本结构重置到另一个维度。
这种重置的可怕之处在于:它不是单点突破,而是全链路的系统性重构。从算法架构到硬件利用率,从存储介质到精度选择,每个环节都在回答同一个问题——在达到同等智能水平的前提下,成本还能压到多低?
技术报告中的数字已经给出阶段性答案:缓存体积90%↓,单token推理FLOPs 73%↓,工作负载加速50%-73%。这些数字翻译成市场语言,就是价格表上那个左移一位的小数点。
对于开发者,这是红利期。对于同行,这是压力测试——你的成本结构能否支撑同等定价?你的技术栈能否实现同等压缩效率?如果答案是否定的,涨价潮里的利润空间将被持续挤压,直到某个临界点。
那个临界点是什么?是当DeepSeek的"接近免费"成为行业基准线时,依赖传统架构的模型服务商,是否还能维持正向现金流?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.