网易首页 > 网易号 > 正文 申请入驻

AI储存调研

0
分享至

来源:市场资讯

(来源:纪要研报地)

Q:在Agent执行过程中,是否会做一些优化,比如调用更简单或轻量化的模型?在整个理解阶段和执行阶段,模型是如何分配和优化的?

A:在整个理解阶段,主要是规划智能体,这部分通常由最强大的模型负责。到了执行阶段,可以调用不同大小的模型来支持,同时背后有一套工具矩阵,有些面向业务流,有些面向底层模型或延伸agent。节约算力的方式主要是在推理过程中,有些KV需要存储下来,如果命中缓存,就可以直接从KV中抽取结果,无需从零计算。通过这种方式,用存储来换取算力。一般来说,最高可以命中67%的缓存,也就是100个问题中有67个可以直接从KV中获取答案,不需要重新计算。这是因为产品上线后,很多问题已经被回答过,存在大量雷同或相似的问题,即使是同一个客户,前后问的问题也可能类似,系统已经记住了这些链路,可以直接复用,不需要每次都从零计算。

Q:以存代算的思路在大厂里是普遍做法吗?

A:是的。在推理阶段会分成两种集群:prefill集群和decoding集群。存储则采用分层结构,从HBM、DRAM到SSD,实现热数据、温数据、冷数据的分层存储。这种架构已经在大厂中广泛应用。

Q:命中率会随着DAU和用户engagement的增加而上升吗?

A:随着用户量增加,命中率会相对提高,但也存在天花板,基本上达到60%到70%就接近上限了。因为AI需要提供差异化服务,不能千篇一律,即使命中缓存,也要考虑多样化的回复,兼顾共性和多样化输出。

Q:命中是用户个体命中还是全局命中?是每个用户一对一,还是所有用户放在一个池子里做命中?

A:对于C端用户,每个用户的数据是独立的,一对一建模。但也存在共性问题,比如大家都在问类似的问题时会有共性。当前建模方式主要是一对一,数据量大时会从中找出共性问题。

Q:存储的是问题本身,还是问题和答案都存?主要是为了省prefill阶段的算力,还是答案也直接存储?

A:存储的内容包括文本和KV,主要是KV。比如2000个字的文本对应的KV可能有2.4GB,而文本本身只有几十K,主要是KV节约算力。存储的是问题和答案的KV。

Q:为什么要存答案的KV?存问题的KV是为了省prefill,答案不是每次都重新生成吗?

A:当用户提出问题时,系统会先推第一个字,生成Q,然后将Q交给D节点,D节点检查是否有对应的KV。如果有,就直接抽取出来;没有则从零推理。这样可以直接找到已经回复过的内容,减少重复计算。计算分为理解问题和生成答案两个阶段,生成答案时如果有对应的KV,可以直接抽取答案。

Q:计算量正常来讲可能是1:5,但因为有一部分可以存储,所以实际算力消耗可能不到五倍,可能只需要两三倍,对吗?

A:技术手段上会避免简单的线性乘法关系,通过优化将系数压缩下来。

Q:所以存储持续涨价的原因是因为缓存和分层存储的需求吗?

A:存储涨价的一个重要原因是长链路缓存最终要落在DRAM和SSD上。SSD的价格涨得更快,因为它是瓶颈。DRAM主要做桥梁,不承接所有最终数据,最终数据会溢出到SSD,所以SSD的涨价更明显。

Q:2C和2B端agent的全部日志需要落盘吗?日志和推理数据分别存储在哪里?

A:日志存储在HDD上,包括每秒产生的session和对话,最终都写入HDD。HDD的读取延迟较高,不适合直接承接推理数据。推理产生的KV最终存储在SSD上。HDD主要存日志和原始生成的文字、图片等历史档案。

Q:存在SSD上的KV生命周期一般多久?通常会保存多长时间?

A:不同厂家策略不同,如果要做长链路,通常至少要保存90天。

Q:agent跑出来的日志明文存在HDD,中间推理过程和KV存在SSD,对吗?SSD的高频读写会不会影响寿命?

A:是的,日志明文存在HDD,中间推理过程和KV存在SSD。SSD的读写频次确实很高,但不会显著影响寿命。数据会先缓存到DRAM,再逐层上传到HBM。SSD的吞吐和寿命有一定要求,每秒可以达到几GB甚至几十GB的吞吐,设计寿命通常能达到五到六年甚至更长。

Q:据调研显示以前可能SSD这边寿命大概三四年左右,现在可能预计1年甚至半年就会报废,因为它的读写的频次是比在之前传统数据库的模式要多很多。

A:DRAM只存几个小时的数据,需要不断写入和读取,因此频次非常高。

Q:这可能也是SSD需求爆发的原因之一,一方面总量增长,另一方面频次增加,导致生命周期缩短,替换周期加快,需求持续上升。

Q:以存代算的思路是经济性考虑还是效率考虑?

A:因为从存储抽取数据回溯的速度,肯定高于每个token逐步生成的速度。以P级、T级节点为例,如果一句话要从P节点完整输出,再与KV输出相比,速度至少是1:3。速度是非常重要的,这也是效率的体现。另外,在推理成本下降的过程中,KV的选择性分离架构承担了重要责任。大模型推理成本的降低,是云厂商持续关注的重点,无论是训练还是推理环节,我们都要持续降本。以国内某头部模型为例,它强调效率优先,推理端的降本不仅仅依赖KV cache,还有多种方式。去年(2025年)年初到年末,头部模型的推理成本下降了40%到50%,甚至60%,背后正是AI基础设施技术的进步支撑了降本。未来,这项技术会成为核心竞争力,因为降本后可以通过价格调整反哺客户,让客户以更低成本使用AI,推动应用的广泛普及。如果降本不到位,客户在产品推广时推理成本过高,会影响产品的推广速度。因此,降本是赋能行业以低成本应用AI的核心驱动力。

Q:现在H200以及最新一代英伟达GPU的进口合规情况如何?当前政策是什么?以及对国产CPU和国产GPU的态度如何?

A:目前H200有明确的指导政策,即总量控制、分类管理、精准调控。分类管理是指只有头部企业、主要从事大模型训练的企业才有资格申请。精准调控则是每家企业的配额不同。现在并没有禁止购买,通道依然开放,但总量会减少。待企业拿到配额后才能采购和进口。

从国家层面来看,政策目标非常明确。第一,是要缩短国内芯片和模型与海外的差距。在总算力不及海外的情况下,允许部分企业定向采购,目的是缩小AI能力差距,包括全模态能力等。国家已经意识到国内芯片和模型与海外存在代差。第二,是保护国产芯片,不允许海外产品大规模冲击国内市场。今年(2026年)会要求大厂在采购英伟达芯片时,同时测试甚至采购国产芯片。国家对国产芯片持积极扶持态度。扶持措施包括国家采购部分国产芯片,但前提是大厂要提前完成适配,确保软硬件结合后能直接投入业务使用。整体策略是在定点支持部分英伟达芯片需求的同时,兼顾保护国产芯片。今年(2026年)到明年(2027年)上半年有一年半的窗口期,企业需完成产品迭代。部分头部企业进展会较快,整体来看,国产芯片将从“基本可用”迈向“整体好用”的里程碑。

Q:考虑到SSD价格持续上涨,涨到什么价格时以存代算会失去性价比?

A:如果SSD价格涨到当前的两倍到2.5倍,以存代算就会面临较大压力。目前来看,纯粹用存储的成本还没有超过算力,但如果价格短时间内涨到两倍以上,性价比就会受到影响。不过,即使涨到这个程度,新的技术也会不断出现,通过算法优化来控制存储成本的暴涨。例如,条件存储等新技术可以节约KV存储。因此,一方面硬件价格上涨,另一方面模型层也在通过技术手段控制存储成本的增长,两方面会同步发展。整体来看,技术端的降本是可控的,外部涨价则难以预测。我们自己的预测是,如果价格涨到2.5到3倍,相关价格体系就需要重新调整。

Q:当前价格是合约价还是现货价?

A:是现货价。

Q:现在现货价大约是多少一GB?

A:现货价因厂家不同有所差异。

Q:现在大约是0.3美金/GB,如果涨到三倍就是九毛美金,能接受SSD价格涨到九毛吗?

A:这是理论推演,实际采购肯定还要和供应链协商。

Q:如果今年(2026年)涨到四到五毛美金,会影响需求吗?

A:供应链肯定要寻求多样化,不能只依赖海外市场。即使海外价格上涨,也要同步寻找国产替代方案,至少还有一些小容量存储可以替换。因此,不会完全依赖海外市场上涨,国产替代是缓冲压力的重要手段。

Q:为什么SSD价格涨到两到三倍时以存代算就会失去性价比?背后的逻辑是什么?

A:目前通过存储优化的核心逻辑是降本。现在整体降本幅度大约在60%以上,从推理成本来看,如果节省下来的费用已经小于存储本身的成本,性价比就会下降。推理价格的计算分母是GPU和存储的成本比例。如果GPU和存储的成本比值没有明显优势,性价比逻辑就会发生变化。也就是说,当两者的推理成本差距不再明显,比如现在能做到60%的成本降低,但如果存储价格上涨后只能降低5%到10%,那以存代算就没有太大意义了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
港股,突发!5分钟,暴拉32%!热门赛道,利好突袭

港股,突发!5分钟,暴拉32%!热门赛道,利好突袭

证券时报
2026-02-16 15:52:04
马斯克:未来3-7年普通人最难熬!

马斯克:未来3-7年普通人最难熬!

罗sir财话
2026-02-16 14:11:30
明日大年初一是“凶日”,记得:1不去、2不回、3不拜,4要吃

明日大年初一是“凶日”,记得:1不去、2不回、3不拜,4要吃

瓜哥的动物日记
2026-02-16 16:56:34
马斯克向全球80亿人,发出了直击灵魂的拷问! 大家这是怎么了

马斯克向全球80亿人,发出了直击灵魂的拷问! 大家这是怎么了

网络易不易
2026-02-16 10:05:18
第9艘!美军又扣押中国油轮,没完了?

第9艘!美军又扣押中国油轮,没完了?

兵国大事
2026-02-16 13:29:55
电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

小李车评李建红
2026-02-16 09:00:03
河南小伙王一博第三次登上央视春晚,与61岁郭富城同台,被赞“法拉利遇上兰博基尼”

河南小伙王一博第三次登上央视春晚,与61岁郭富城同台,被赞“法拉利遇上兰博基尼”

大象新闻
2026-02-16 18:43:09
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
马年春晚主持人状态好真实!刘心悦小虎牙抢镜,撒贝宁晒黑了

马年春晚主持人状态好真实!刘心悦小虎牙抢镜,撒贝宁晒黑了

萌神木木
2026-02-16 20:42:35
约基奇回应杨瀚森想亲他:可能是语言误会 下次对位会给他拥抱

约基奇回应杨瀚森想亲他:可能是语言误会 下次对位会给他拥抱

醉卧浮生
2026-02-16 13:48:59
彻底沸腾!刚刚,暴涨90%!整个板块,集体狂飙!

彻底沸腾!刚刚,暴涨90%!整个板块,集体狂飙!

证券时报
2026-02-16 18:04:09
X人是“四等人”、“最低贱民族”?这种言论,必须查到底!

X人是“四等人”、“最低贱民族”?这种言论,必须查到底!

西域都护
2026-02-16 19:23:54
59岁王祖贤在加拿大过年!豪宅首曝光厨房狭小,和朋友一起包饺子

59岁王祖贤在加拿大过年!豪宅首曝光厨房狭小,和朋友一起包饺子

娱乐圈圈圆
2026-02-16 18:08:54
中戏反腐爆大雷啦!当年送钱的学生,现在慌得觉都睡不着!

中戏反腐爆大雷啦!当年送钱的学生,现在慌得觉都睡不着!

达文西看世界
2026-02-16 12:10:45
中国收到以色列警告,称若协助伊朗发展核武器,将面临灾难性后果

中国收到以色列警告,称若协助伊朗发展核武器,将面临灾难性后果

纪中百大事
2026-02-16 11:29:14
中国驻日本使馆发言人就日方所谓交涉答记者问

中国驻日本使馆发言人就日方所谓交涉答记者问

环球网资讯
2026-02-16 21:46:15
内塔尼亚胡宣布:十年时间切断美国军事援助

内塔尼亚胡宣布:十年时间切断美国军事援助

看看新闻Knews
2026-02-16 14:36:18
断层收视第一,骂声全网刷屏!2026辽视春晚,烂得彻头彻尾

断层收视第一,骂声全网刷屏!2026辽视春晚,烂得彻头彻尾

另子维爱读史
2026-02-16 12:49:32
春晚49个节目,仅3个小品无相声:为何我们最想看的,反而最少?

春晚49个节目,仅3个小品无相声:为何我们最想看的,反而最少?

补两刀
2026-02-16 19:12:21
2月16日俄乌最新:惊人的转变

2月16日俄乌最新:惊人的转变

西楼饮月
2026-02-16 17:08:41
2026-02-16 22:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2224096文章数 5488关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

伊朗抛出新谈判手段:联合开发油气田 采购美民用飞机

头条要闻

伊朗抛出新谈判手段:联合开发油气田 采购美民用飞机

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

2026春晚开始 蔡明和机器人蔡明同框

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

时尚
手机
数码
游戏
公开课

记录最近收获很大的一次深度链接

手机要闻

苹果官网下线iWork介绍页,iOS 26升级率公布

数码要闻

荣耀介绍 MagicPad 3 Pro「极客中心」,开放核心底层调校能力

战神新作立功了!索尼2月发布会热度破纪录

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版