网易首页 > 网易号 > 正文 申请入驻

存储技术在AI推理中的具体应用有哪些?

0
分享至

存储技术在AI推理中的应用已远超传统“数据存放”角色,正深度融入推理全流程,成为提升性能、降低成本、保障实时性的关键支撑。以下是其在AI推理中的几类具体应用场景:



1.高带宽内存(HBM):突破“内存墙”,加速大模型推理

  • 应用场景:部署千亿参数大模型(如Llama 3、Qwen-Max)的推理服务器。
  • 作用机制:HBM通过3D堆叠DRAM与GPU/CPU紧密集成,提供高达数TB/s的带宽(如HBM3e达1.2TB/s,HBM4预计超10TB/s),极大缓解权重加载瓶颈。
  • 实际效果:英伟达Blackwell GPU搭配HBM3e后,Llama 3-70B推理吞吐量提升3倍以上,延迟降低50%。

2.CXL(Compute Express Link)内存池化:实现弹性、高效的内存扩展

  • 应用场景:多租户AI云服务、动态负载变化的推理集群。
  • 作用机制:CXL允许CPU/GPU通过高速互连共享远程内存资源,构建“内存池”。当单卡显存不足时,可无缝调用池化内存,避免频繁换入换出到慢速SSD。
  • 实际效果:微软Azure已部署CXL内存池支持AI推理,使单节点可承载更大模型,资源利用率提升40%。

3.存内计算(Processing-in-Memory, PIM)与存算一体芯片

  • 应用场景:边缘AI设备(如自动驾驶、工业机器人)、低功耗终端。
  • 作用机制:将计算单元嵌入存储阵列(如SRAM或ReRAM),直接在存储位置执行矩阵乘加运算,避免数据搬运能耗。
  • 代表案例:三星HBM-PIM、阿里巴巴含光800NPU均采用存算融合架构,在INT8推理任务中能效比提升5–10倍。

4.分层存储调度:智能缓存热点权重与KV Cache

  • 应用场景:长上下文对话、RAG(检索增强生成)系统。
  • 作用机制
    • 热数据缓存:将高频访问的模型权重或用户历史上下文缓存在DRAM或Optane持久内存中;
    • KV Cache管理:推理过程中生成的Key-Value缓存对延迟敏感,需驻留高速存储(如LPDDR5X);
    • 冷数据下沉:低频权重或旧会话数据自动迁移至QLC SSD或对象存储。
  • 优化工具:DeepSeek的Engram系统、vLLM的PagedAttention均依赖精细的存储分层策略。

5.持久化存储(NVMe SSD / CXL-attached SSD)支持模型快速加载与热切换

  • 应用场景:多模型在线服务(如广告推荐、客服机器人需切换不同领域模型)。
  • 作用机制:利用高性能NVMe SSD(如PCIe 5.0,读取速度14GB/s)实现秒级模型加载;结合CXL可将SSD作为“扩展内存”直接映射地址空间。
  • 优势:避免GPU显存常驻多个模型造成的浪费,实现“按需加载、即时推理”。

6.新型非易失存储(如MRAM、ReRAM)赋能边缘推理

  • 应用场景:物联网设备、可穿戴AI终端。
  • 特点:兼具DRAM的速度与Flash的非易失性,断电不丢模型参数,启动即用。
  • 进展:Everspin的STT-MRAM已用于车载AI模块,实现毫秒级唤醒与推理。

总结:存储不再是“后台”,而是AI推理系统的“神经突触”

在AI推理时代,存储技术已从被动的数据容器,演变为决定系统性能上限、能效比和部署灵活性的核心要素。未来,随着模型规模持续膨胀、推理场景日益碎片化,“以存为中心”的架构设计(Memory-Centric AI)将成为主流。谁能在HBM、CXL、存算一体、智能分层等方向取得突破,谁就将在AI推理的下一阶段占据战略制高点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗出手,监控石油“咽喉”通道!伊立巨幅画暗指美航母被炸,配文“煽风者将得到风暴”!伊朗将领:邻国领土不得用于攻击伊朗

伊朗出手,监控石油“咽喉”通道!伊立巨幅画暗指美航母被炸,配文“煽风者将得到风暴”!伊朗将领:邻国领土不得用于攻击伊朗

每日经济新闻
2026-01-28 09:35:07
“全班没几个善茬”,技校女生面相走红,隔着屏幕感到被欺负了

“全班没几个善茬”,技校女生面相走红,隔着屏幕感到被欺负了

泽泽先生
2026-01-28 21:04:27
外媒:伊朗总统启动紧急措施“备战”

外媒:伊朗总统启动紧急措施“备战”

参考消息
2026-01-28 20:05:24
万科原董事长郁亮失联

万科原董事长郁亮失联

地产微资讯
2026-01-28 10:28:07
花椒立大功?浙大研究发现:花椒可在36小时清除70%老化细胞?

花椒立大功?浙大研究发现:花椒可在36小时清除70%老化细胞?

蜉蝣说
2026-01-28 11:09:12
金正恩:朝鲜火箭炮遥遥领先,任何国家目前都赶不上

金正恩:朝鲜火箭炮遥遥领先,任何国家目前都赶不上

IN朝鲜
2026-01-28 13:18:28
刘强东回农村发钱,出手太阔绰

刘强东回农村发钱,出手太阔绰

电商派Pro
2026-01-27 17:37:55
解放军上将廖锡龙在京逝世:对越自卫战立下大功,其弟弟身份曝光

解放军上将廖锡龙在京逝世:对越自卫战立下大功,其弟弟身份曝光

博士观察
2026-01-28 20:12:55
官方紧急预警:深圳已连续发案多起!有人钱款秒被转走

官方紧急预警:深圳已连续发案多起!有人钱款秒被转走

椰青美食分享
2026-01-27 08:22:04
性行为竟能抗癌?华科大研究让人震惊!

性行为竟能抗癌?华科大研究让人震惊!

特约前排观众
2026-01-28 00:20:03
CBA官宣:山西注册NBA旧将盖伊首秀战浙江 取消诺威尔注册

CBA官宣:山西注册NBA旧将盖伊首秀战浙江 取消诺威尔注册

醉卧浮生
2026-01-28 17:31:50
老家河南:现在流行的这种习俗,让结婚难上加难

老家河南:现在流行的这种习俗,让结婚难上加难

豫见老家河南
2026-01-28 07:13:11
“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

现代小青青慕慕
2026-01-28 08:54:56
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
新加坡做出了关键抉择!存续50年的驻军终于要撤走,台海大局已定

新加坡做出了关键抉择!存续50年的驻军终于要撤走,台海大局已定

通文知史
2026-01-27 23:30:03
U23国足三大核心球员去向已定 徐彬去英超 李昊和杨希锁定下家

U23国足三大核心球员去向已定 徐彬去英超 李昊和杨希锁定下家

篮球看比赛
2026-01-28 09:57:40
花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

花200万补课后续:380分儿子执意补课,母亲重病陪读,曝更痛隐情

阿讯说天下
2026-01-27 13:45:23
卢山,履新上海市领导

卢山,履新上海市领导

极目新闻
2026-01-28 10:05:08
20年来首次!特朗普发现:亚洲刺头不止中国一个,美5年阴谋泡汤

20年来首次!特朗普发现:亚洲刺头不止中国一个,美5年阴谋泡汤

军机Talk
2026-01-28 14:26:48
苹果新品上架:1 月 28 日,正式首销

苹果新品上架:1 月 28 日,正式首销

科技堡垒
2026-01-28 12:11:08
2026-01-29 01:44:49
音乐自习室
音乐自习室
安静听歌,认真学习
64文章数 0关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

家居
艺术
旅游
游戏
手机

家居要闻

跃式别墅 包络石木为生

艺术要闻

沙特醒悟,“全球最大单体建筑”停止施工!

旅游要闻

普陀:城市亲水公园美丽景色等你来解锁

《怪猎荒野》PC性能大提升!Steam掌机也终于能玩了

手机要闻

HyperOS 3.1淘汰名单:REDMI K60、POCO F5在列,有你的手机吗

无障碍浏览 进入关怀版