网易首页 > 网易号 > 正文 申请入驻

弹性内存存储 EMS|以存代算,降低推理时延迟

0
分享至



AI场景中的3大存力痛点

1.持久化存储性能不足

随着AI大模型和AI系统技术的迅速发展,传统的持久化存储介质已难以满足大模型训练和推理的高性能需求。

2.DRAM利用率

AI服务器上的DRAM资源按各类场景的需求配置,在LLM负载主导的场景中DRAM的整体利用率普遍偏低。

3.HBM内存墙

AI加速器(如GPU、NPU、TPU等)的HBM容量增长速度远落后于大模型存储需求的增长速度。

以存代算,降低推理时延迟

弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存(动态随机存取存储器)为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中,通过以存代算,减少了冗余计算,提升推理吞吐量,大幅节省AI推理算力资源,同时可降低推理首Token时延(Time To First Token,TTFT),提升LLM推理对话体验。

1.以存代算

以存代算技术将多轮对话的历史KV Cache保存至EMS,在后续对话中直接重复使用,实现AI推理的首Token时延降低80%,降低端到端的推理成本。

2.显著扩展

显存扩展技术将模型分层存储在显存和EMS中,无需堆砌NPU可存下TB级大模型,使NPU算力节省超50%。

3.算力卸载

算力卸载技术将KV相关的计算卸载至EMS中的CPU,模型计算在NPU中进行,实现AI推理吞吐量提升100%。

直面LLM难题,释放推理算力

随着LLM推理的飞速发展,LLM推理需求急速增加,但也面临多重难题。

  • 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
  • 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI显存内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。
  • 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。

华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。

  • EMS缓存多轮对话的历史KV Cache,历史KV Cache命中时无需重新做推理计算,通过以存代算,可提升推理吞吐,节省AI推理算力资源。
  • EMS采用半托管融合部署,EMS数据面部署在AI节点本地,高效纳管AI节点空闲内存资源,提供加速服务、降低存储成本。

注:本文内容参考华为云官方,版权归作者所有



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
即将降级!37岁国足名将采访道歉+快哭了 压哨进球被吹无缘创纪录

即将降级!37岁国足名将采访道歉+快哭了 压哨进球被吹无缘创纪录

我爱英超
2025-11-01 18:25:09
很“友好”!东契奇和里夫斯赛后互相竖中指

很“友好”!东契奇和里夫斯赛后互相竖中指

雷速体育
2025-11-01 12:42:26
不是胰脏癌!坣娜真正死因曝光..老公心碎发声:在床边抱着她离世

不是胰脏癌!坣娜真正死因曝光..老公心碎发声:在床边抱着她离世

ETtoday星光云
2025-10-31 11:22:10
刘昊然喜当爹?33岁周冬雨两次被曝怀孕,素颜照鼻头红肿孕相明显

刘昊然喜当爹?33岁周冬雨两次被曝怀孕,素颜照鼻头红肿孕相明显

八星人
2025-11-01 15:35:14
阿马德:大家对结果很失望,但都十分相信主教练和他的体系

阿马德:大家对结果很失望,但都十分相信主教练和他的体系

懂球帝
2025-11-02 02:30:19
秦雯袭警冲上热搜!向王家卫炫耀后台硬能捞人,网友要求严查特权

秦雯袭警冲上热搜!向王家卫炫耀后台硬能捞人,网友要求严查特权

萌神木木
2025-10-31 21:33:21
订单破纪录、产能全开!三季报高增长龙头股掘金名单

订单破纪录、产能全开!三季报高增长龙头股掘金名单

K线论势
2025-11-01 22:49:44
为西贝出谋划策的华与华,到底什么水平?

为西贝出谋划策的华与华,到底什么水平?

圈内师老师
2025-10-31 18:39:21
郑丽文正式就职国民党主席,朱立伦率队离任,卢秀燕、侯友宜缺席

郑丽文正式就职国民党主席,朱立伦率队离任,卢秀燕、侯友宜缺席

策略述
2025-11-01 15:25:35
悉尼妹红毯杀疯了!银色透视裙尽显性感,自信气场碾压全场

悉尼妹红毯杀疯了!银色透视裙尽显性感,自信气场碾压全场

述家娱记
2025-10-31 14:04:50
威廉王子将亲叔安德鲁贬为庶民踢出王室?大义灭亲为凯特复仇,手段超狠!

威廉王子将亲叔安德鲁贬为庶民踢出王室?大义灭亲为凯特复仇,手段超狠!

英国报姐
2025-10-31 22:05:56
齐豫演唱会键盘手、著名编曲家屠颖在广州去世

齐豫演唱会键盘手、著名编曲家屠颖在广州去世

南方都市报
2025-11-01 19:42:10
把七万公里走成一首长诗,68岁儿子与91岁母亲“慢半拍”环游中国

把七万公里走成一首长诗,68岁儿子与91岁母亲“慢半拍”环游中国

极目新闻
2025-10-31 18:33:04
人民日报发声!物业改革多地落地:物业费真降了,这4笔费可拒交

人民日报发声!物业改革多地落地:物业费真降了,这4笔费可拒交

振华观史
2025-10-30 08:27:30
马斯克回应奥尔特曼Roadster退订争议:24小时内已退款

马斯克回应奥尔特曼Roadster退订争议:24小时内已退款

IT之家
2025-11-01 23:29:06
杨威儿子和吴镇宇儿子聚会,15岁杨阳洋好显老,费曼像“社会人”

杨威儿子和吴镇宇儿子聚会,15岁杨阳洋好显老,费曼像“社会人”

心静物娱
2025-11-01 14:41:28
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
搞笑,湖人队东契奇与里夫斯的互动在灰熊队比赛后迅速走红

搞笑,湖人队东契奇与里夫斯的互动在灰熊队比赛后迅速走红

好火子
2025-11-02 07:25:49
最新研究发现:宇宙不可能是,也永远不可能是计算机模拟!

最新研究发现:宇宙不可能是,也永远不可能是计算机模拟!

徐德文科学频道
2025-11-01 15:06:36
带小三产检遇原配后续:曝男子是律师,吃软饭上位,小三也不简单

带小三产检遇原配后续:曝男子是律师,吃软饭上位,小三也不简单

银河史记
2025-11-01 21:13:54
2025-11-02 08:36:49
龙田科技
龙田科技
ICT解决方案与服务供应商
398文章数 21关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
健康
亲子
教育
军事航空

《GTA》为什么经久不衰?丹·豪瑟透露制作理念

核磁VS肌骨超声,谁更胜一筹?

亲子要闻

父母对孩子的爱,孩子能感受 领域 感激,不接受的只是方法

教育要闻

2026高考报名,这八处变化一定要了解!

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版