来源:市场资讯
(来源:纪要研报地)
Q:在Agent执行过程中,是否会做一些优化,比如调用更简单或轻量化的模型?在整个理解阶段和执行阶段,模型是如何分配和优化的?
A:在整个理解阶段,主要是规划智能体,这部分通常由最强大的模型负责。到了执行阶段,可以调用不同大小的模型来支持,同时背后有一套工具矩阵,有些面向业务流,有些面向底层模型或延伸agent。节约算力的方式主要是在推理过程中,有些KV需要存储下来,如果命中缓存,就可以直接从KV中抽取结果,无需从零计算。通过这种方式,用存储来换取算力。一般来说,最高可以命中67%的缓存,也就是100个问题中有67个可以直接从KV中获取答案,不需要重新计算。这是因为产品上线后,很多问题已经被回答过,存在大量雷同或相似的问题,即使是同一个客户,前后问的问题也可能类似,系统已经记住了这些链路,可以直接复用,不需要每次都从零计算。
Q:以存代算的思路在大厂里是普遍做法吗?
A:是的。在推理阶段会分成两种集群:prefill集群和decoding集群。存储则采用分层结构,从HBM、DRAM到SSD,实现热数据、温数据、冷数据的分层存储。这种架构已经在大厂中广泛应用。
Q:命中率会随着DAU和用户engagement的增加而上升吗?
A:随着用户量增加,命中率会相对提高,但也存在天花板,基本上达到60%到70%就接近上限了。因为AI需要提供差异化服务,不能千篇一律,即使命中缓存,也要考虑多样化的回复,兼顾共性和多样化输出。
Q:命中是用户个体命中还是全局命中?是每个用户一对一,还是所有用户放在一个池子里做命中?
A:对于C端用户,每个用户的数据是独立的,一对一建模。但也存在共性问题,比如大家都在问类似的问题时会有共性。当前建模方式主要是一对一,数据量大时会从中找出共性问题。
Q:存储的是问题本身,还是问题和答案都存?主要是为了省prefill阶段的算力,还是答案也直接存储?
A:存储的内容包括文本和KV,主要是KV。比如2000个字的文本对应的KV可能有2.4GB,而文本本身只有几十K,主要是KV节约算力。存储的是问题和答案的KV。
Q:为什么要存答案的KV?存问题的KV是为了省prefill,答案不是每次都重新生成吗?
A:当用户提出问题时,系统会先推第一个字,生成Q,然后将Q交给D节点,D节点检查是否有对应的KV。如果有,就直接抽取出来;没有则从零推理。这样可以直接找到已经回复过的内容,减少重复计算。计算分为理解问题和生成答案两个阶段,生成答案时如果有对应的KV,可以直接抽取答案。
Q:计算量正常来讲可能是1:5,但因为有一部分可以存储,所以实际算力消耗可能不到五倍,可能只需要两三倍,对吗?
A:技术手段上会避免简单的线性乘法关系,通过优化将系数压缩下来。
Q:所以存储持续涨价的原因是因为缓存和分层存储的需求吗?
A:存储涨价的一个重要原因是长链路缓存最终要落在DRAM和SSD上。SSD的价格涨得更快,因为它是瓶颈。DRAM主要做桥梁,不承接所有最终数据,最终数据会溢出到SSD,所以SSD的涨价更明显。
Q:2C和2B端agent的全部日志需要落盘吗?日志和推理数据分别存储在哪里?
A:日志存储在HDD上,包括每秒产生的session和对话,最终都写入HDD。HDD的读取延迟较高,不适合直接承接推理数据。推理产生的KV最终存储在SSD上。HDD主要存日志和原始生成的文字、图片等历史档案。
Q:存在SSD上的KV生命周期一般多久?通常会保存多长时间?
A:不同厂家策略不同,如果要做长链路,通常至少要保存90天。
Q:agent跑出来的日志明文存在HDD,中间推理过程和KV存在SSD,对吗?SSD的高频读写会不会影响寿命?
A:是的,日志明文存在HDD,中间推理过程和KV存在SSD。SSD的读写频次确实很高,但不会显著影响寿命。数据会先缓存到DRAM,再逐层上传到HBM。SSD的吞吐和寿命有一定要求,每秒可以达到几GB甚至几十GB的吞吐,设计寿命通常能达到五到六年甚至更长。
Q:据调研显示以前可能SSD这边寿命大概三四年左右,现在可能预计1年甚至半年就会报废,因为它的读写的频次是比在之前传统数据库的模式要多很多。
A:DRAM只存几个小时的数据,需要不断写入和读取,因此频次非常高。
Q:这可能也是SSD需求爆发的原因之一,一方面总量增长,另一方面频次增加,导致生命周期缩短,替换周期加快,需求持续上升。
Q:以存代算的思路是经济性考虑还是效率考虑?
A:因为从存储抽取数据回溯的速度,肯定高于每个token逐步生成的速度。以P级、T级节点为例,如果一句话要从P节点完整输出,再与KV输出相比,速度至少是1:3。速度是非常重要的,这也是效率的体现。另外,在推理成本下降的过程中,KV的选择性分离架构承担了重要责任。大模型推理成本的降低,是云厂商持续关注的重点,无论是训练还是推理环节,我们都要持续降本。以国内某头部模型为例,它强调效率优先,推理端的降本不仅仅依赖KV cache,还有多种方式。去年(2025年)年初到年末,头部模型的推理成本下降了40%到50%,甚至60%,背后正是AI基础设施技术的进步支撑了降本。未来,这项技术会成为核心竞争力,因为降本后可以通过价格调整反哺客户,让客户以更低成本使用AI,推动应用的广泛普及。如果降本不到位,客户在产品推广时推理成本过高,会影响产品的推广速度。因此,降本是赋能行业以低成本应用AI的核心驱动力。
Q:现在H200以及最新一代英伟达GPU的进口合规情况如何?当前政策是什么?以及对国产CPU和国产GPU的态度如何?
A:目前H200有明确的指导政策,即总量控制、分类管理、精准调控。分类管理是指只有头部企业、主要从事大模型训练的企业才有资格申请。精准调控则是每家企业的配额不同。现在并没有禁止购买,通道依然开放,但总量会减少。待企业拿到配额后才能采购和进口。
从国家层面来看,政策目标非常明确。第一,是要缩短国内芯片和模型与海外的差距。在总算力不及海外的情况下,允许部分企业定向采购,目的是缩小AI能力差距,包括全模态能力等。国家已经意识到国内芯片和模型与海外存在代差。第二,是保护国产芯片,不允许海外产品大规模冲击国内市场。今年(2026年)会要求大厂在采购英伟达芯片时,同时测试甚至采购国产芯片。国家对国产芯片持积极扶持态度。扶持措施包括国家采购部分国产芯片,但前提是大厂要提前完成适配,确保软硬件结合后能直接投入业务使用。整体策略是在定点支持部分英伟达芯片需求的同时,兼顾保护国产芯片。今年(2026年)到明年(2027年)上半年有一年半的窗口期,企业需完成产品迭代。部分头部企业进展会较快,整体来看,国产芯片将从“基本可用”迈向“整体好用”的里程碑。
Q:考虑到SSD价格持续上涨,涨到什么价格时以存代算会失去性价比?
A:如果SSD价格涨到当前的两倍到2.5倍,以存代算就会面临较大压力。目前来看,纯粹用存储的成本还没有超过算力,但如果价格短时间内涨到两倍以上,性价比就会受到影响。不过,即使涨到这个程度,新的技术也会不断出现,通过算法优化来控制存储成本的暴涨。例如,条件存储等新技术可以节约KV存储。因此,一方面硬件价格上涨,另一方面模型层也在通过技术手段控制存储成本的增长,两方面会同步发展。整体来看,技术端的降本是可控的,外部涨价则难以预测。我们自己的预测是,如果价格涨到2.5到3倍,相关价格体系就需要重新调整。
Q:当前价格是合约价还是现货价?
A:是现货价。
Q:现在现货价大约是多少一GB?
A:现货价因厂家不同有所差异。
Q:现在大约是0.3美金/GB,如果涨到三倍就是九毛美金,能接受SSD价格涨到九毛吗?
A:这是理论推演,实际采购肯定还要和供应链协商。
Q:如果今年(2026年)涨到四到五毛美金,会影响需求吗?
A:供应链肯定要寻求多样化,不能只依赖海外市场。即使海外价格上涨,也要同步寻找国产替代方案,至少还有一些小容量存储可以替换。因此,不会完全依赖海外市场上涨,国产替代是缓冲压力的重要手段。
Q:为什么SSD价格涨到两到三倍时以存代算就会失去性价比?背后的逻辑是什么?
A:目前通过存储优化的核心逻辑是降本。现在整体降本幅度大约在60%以上,从推理成本来看,如果节省下来的费用已经小于存储本身的成本,性价比就会下降。推理价格的计算分母是GPU和存储的成本比例。如果GPU和存储的成本比值没有明显优势,性价比逻辑就会发生变化。也就是说,当两者的推理成本差距不再明显,比如现在能做到60%的成本降低,但如果存储价格上涨后只能降低5%到10%,那以存代算就没有太大意义了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.