AI储存调研|调用|速度|gpu|ssd|新模型|dram

AI储存调研

2026-02-10 19:20:58　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：纪要研报地）

Q：在Agent执行过程中，是否会做一些优化，比如调用更简单或轻量化的模型？在整个理解阶段和执行阶段，模型是如何分配和优化的？

A:在整个理解阶段，主要是规划智能体，这部分通常由最强大的模型负责。到了执行阶段，可以调用不同大小的模型来支持，同时背后有一套工具矩阵，有些面向业务流，有些面向底层模型或延伸agent。节约算力的方式主要是在推理过程中，有些KV需要存储下来，如果命中缓存，就可以直接从KV中抽取结果，无需从零计算。通过这种方式，用存储来换取算力。一般来说，最高可以命中67%的缓存，也就是100个问题中有67个可以直接从KV中获取答案，不需要重新计算。这是因为产品上线后，很多问题已经被回答过，存在大量雷同或相似的问题，即使是同一个客户，前后问的问题也可能类似，系统已经记住了这些链路，可以直接复用，不需要每次都从零计算。

Q：以存代算的思路在大厂里是普遍做法吗？

A:是的。在推理阶段会分成两种集群：prefill集群和decoding集群。存储则采用分层结构，从HBM、DRAM到SSD，实现热数据、温数据、冷数据的分层存储。这种架构已经在大厂中广泛应用。

Q：命中率会随着DAU和用户engagement的增加而上升吗？

A:随着用户量增加，命中率会相对提高，但也存在天花板，基本上达到60%到70%就接近上限了。因为AI需要提供差异化服务，不能千篇一律，即使命中缓存，也要考虑多样化的回复，兼顾共性和多样化输出。

Q：命中是用户个体命中还是全局命中？是每个用户一对一，还是所有用户放在一个池子里做命中？

A:对于C端用户，每个用户的数据是独立的，一对一建模。但也存在共性问题，比如大家都在问类似的问题时会有共性。当前建模方式主要是一对一，数据量大时会从中找出共性问题。

Q：存储的是问题本身，还是问题和答案都存？主要是为了省prefill阶段的算力，还是答案也直接存储？

A:存储的内容包括文本和KV，主要是KV。比如2000个字的文本对应的KV可能有2.4GB，而文本本身只有几十K，主要是KV节约算力。存储的是问题和答案的KV。

Q：为什么要存答案的KV？存问题的KV是为了省prefill，答案不是每次都重新生成吗？

A:当用户提出问题时，系统会先推第一个字，生成Q，然后将Q交给D节点，D节点检查是否有对应的KV。如果有，就直接抽取出来；没有则从零推理。这样可以直接找到已经回复过的内容，减少重复计算。计算分为理解问题和生成答案两个阶段，生成答案时如果有对应的KV，可以直接抽取答案。

Q：计算量正常来讲可能是1：5，但因为有一部分可以存储，所以实际算力消耗可能不到五倍，可能只需要两三倍，对吗？

A:技术手段上会避免简单的线性乘法关系，通过优化将系数压缩下来。

Q：所以存储持续涨价的原因是因为缓存和分层存储的需求吗？

A:存储涨价的一个重要原因是长链路缓存最终要落在DRAM和SSD上。SSD的价格涨得更快，因为它是瓶颈。DRAM主要做桥梁，不承接所有最终数据，最终数据会溢出到SSD，所以SSD的涨价更明显。

Q：2C和2B端agent的全部日志需要落盘吗？日志和推理数据分别存储在哪里？

A:日志存储在HDD上，包括每秒产生的session和对话，最终都写入HDD。HDD的读取延迟较高，不适合直接承接推理数据。推理产生的KV最终存储在SSD上。HDD主要存日志和原始生成的文字、图片等历史档案。

Q：存在SSD上的KV生命周期一般多久？通常会保存多长时间？

A:不同厂家策略不同，如果要做长链路，通常至少要保存90天。

Q：agent跑出来的日志明文存在HDD，中间推理过程和KV存在SSD，对吗？SSD的高频读写会不会影响寿命？

A:是的，日志明文存在HDD，中间推理过程和KV存在SSD。SSD的读写频次确实很高，但不会显著影响寿命。数据会先缓存到DRAM，再逐层上传到HBM。SSD的吞吐和寿命有一定要求，每秒可以达到几GB甚至几十GB的吞吐，设计寿命通常能达到五到六年甚至更长。

Q：据调研显示以前可能SSD这边寿命大概三四年左右，现在可能预计1年甚至半年就会报废，因为它的读写的频次是比在之前传统数据库的模式要多很多。

A:DRAM只存几个小时的数据，需要不断写入和读取，因此频次非常高。

Q：这可能也是SSD需求爆发的原因之一，一方面总量增长，另一方面频次增加，导致生命周期缩短，替换周期加快，需求持续上升。

Q：以存代算的思路是经济性考虑还是效率考虑？

A:因为从存储抽取数据回溯的速度，肯定高于每个token逐步生成的速度。以P级、T级节点为例，如果一句话要从P节点完整输出，再与KV输出相比，速度至少是1:3。速度是非常重要的，这也是效率的体现。另外，在推理成本下降的过程中，KV的选择性分离架构承担了重要责任。大模型推理成本的降低，是云厂商持续关注的重点，无论是训练还是推理环节，我们都要持续降本。以国内某头部模型为例，它强调效率优先，推理端的降本不仅仅依赖KV cache，还有多种方式。去年（2025年）年初到年末，头部模型的推理成本下降了40%到50%，甚至60%，背后正是AI基础设施技术的进步支撑了降本。未来，这项技术会成为核心竞争力，因为降本后可以通过价格调整反哺客户，让客户以更低成本使用AI，推动应用的广泛普及。如果降本不到位，客户在产品推广时推理成本过高，会影响产品的推广速度。因此，降本是赋能行业以低成本应用AI的核心驱动力。

Q：现在H200以及最新一代英伟达GPU的进口合规情况如何？当前政策是什么？以及对国产CPU和国产GPU的态度如何？

A:目前H200有明确的指导政策，即总量控制、分类管理、精准调控。分类管理是指只有头部企业、主要从事大模型训练的企业才有资格申请。精准调控则是每家企业的配额不同。现在并没有禁止购买，通道依然开放，但总量会减少。待企业拿到配额后才能采购和进口。

从国家层面来看，政策目标非常明确。第一，是要缩短国内芯片和模型与海外的差距。在总算力不及海外的情况下，允许部分企业定向采购，目的是缩小AI能力差距，包括全模态能力等。国家已经意识到国内芯片和模型与海外存在代差。第二，是保护国产芯片，不允许海外产品大规模冲击国内市场。今年（2026年）会要求大厂在采购英伟达芯片时，同时测试甚至采购国产芯片。国家对国产芯片持积极扶持态度。扶持措施包括国家采购部分国产芯片，但前提是大厂要提前完成适配，确保软硬件结合后能直接投入业务使用。整体策略是在定点支持部分英伟达芯片需求的同时，兼顾保护国产芯片。今年（2026年）到明年（2027年）上半年有一年半的窗口期，企业需完成产品迭代。部分头部企业进展会较快，整体来看，国产芯片将从“基本可用”迈向“整体好用”的里程碑。

Q：考虑到SSD价格持续上涨，涨到什么价格时以存代算会失去性价比？

A:如果SSD价格涨到当前的两倍到2.5倍，以存代算就会面临较大压力。目前来看，纯粹用存储的成本还没有超过算力，但如果价格短时间内涨到两倍以上，性价比就会受到影响。不过，即使涨到这个程度，新的技术也会不断出现，通过算法优化来控制存储成本的暴涨。例如，条件存储等新技术可以节约KV存储。因此，一方面硬件价格上涨，另一方面模型层也在通过技术手段控制存储成本的增长，两方面会同步发展。整体来看，技术端的降本是可控的，外部涨价则难以预测。我们自己的预测是，如果价格涨到2.5到3倍，相关价格体系就需要重新调整。

Q：当前价格是合约价还是现货价？

A:是现货价。

Q：现在现货价大约是多少一GB？

A:现货价因厂家不同有所差异。

Q：现在大约是0.3美金/GB，如果涨到三倍就是九毛美金，能接受SSD价格涨到九毛吗？

A:这是理论推演，实际采购肯定还要和供应链协商。

Q：如果今年（2026年）涨到四到五毛美金，会影响需求吗？

A:供应链肯定要寻求多样化，不能只依赖海外市场。即使海外价格上涨，也要同步寻找国产替代方案，至少还有一些小容量存储可以替换。因此，不会完全依赖海外市场上涨，国产替代是缓冲压力的重要手段。

Q：为什么SSD价格涨到两到三倍时以存代算就会失去性价比？背后的逻辑是什么？

A:目前通过存储优化的核心逻辑是降本。现在整体降本幅度大约在60%以上，从推理成本来看，如果节省下来的费用已经小于存储本身的成本，性价比就会下降。推理价格的计算分母是GPU和存储的成本比例。如果GPU和存储的成本比值没有明显优势，性价比逻辑就会发生变化。也就是说，当两者的推理成本差距不再明显，比如现在能做到60%的成本降低，但如果存储价格上涨后只能降低5%到10%，那以存代算就没有太大意义了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.