网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

弹性内存存储 EMS｜以存代算，降低推理时延迟

2025-08-07 15:55:19　来源: 龙田科技

上海举报

0

分享至

AI场景中的3大存力痛点

1.持久化存储性能不足

随着AI大模型和AI系统技术的迅速发展，传统的持久化存储介质已难以满足大模型训练和推理的高性能需求。

2.DRAM利用率

AI服务器上的DRAM资源按各类场景的需求配置，在LLM负载主导的场景中DRAM的整体利用率普遍偏低。

3.HBM内存墙

AI加速器（如GPU、NPU、TPU等）的HBM容量增长速度远落后于大模型存储需求的增长速度。

以存代算，降低推理时延迟

弹性内存存储（Elastic Memory Service，EMS）是一种以DRAM内存（动态随机存取存储器）为主要存储介质的云基础设施服务，为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理，将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中，通过以存代算，减少了冗余计算，提升推理吞吐量，大幅节省AI推理算力资源，同时可降低推理首Token时延（Time To First Token，TTFT），提升LLM推理对话体验。

1.以存代算

以存代算技术将多轮对话的历史KV Cache保存至EMS，在后续对话中直接重复使用，实现AI推理的首Token时延降低80%，降低端到端的推理成本。

2.显著扩展

显存扩展技术将模型分层存储在显存和EMS中，无需堆砌NPU可存下TB级大模型，使NPU算力节省超50%。

3.算力卸载

算力卸载技术将KV相关的计算卸载至EMS中的CPU，模型计算在NPU中进行，实现AI推理吞吐量提升100%。

直面LLM难题，释放推理算力

随着LLM推理的飞速发展，LLM推理需求急速增加，但也面临多重难题。

保持连贯性：受限于显存容量原因，多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
推理吞吐性能低：LLM在线推理需要满足大量消费者用户同时使用，受限于AI显存内存墙瓶颈，单卡推理吞吐性能低，大量用户并发访问时时延高，导致用户需要部署大量AI推理算力资源，推理吞吐资源成本高。
推理延迟高：在大模型推理过程中，从输入指令到模型产生预测并输出内容的时间过高，严重影响用户体验，尤其是和智能助手进行多轮对话时。

华为云通过EMS加速推理业务，提升推理业务吞吐，降低推理时延，降低推理资源部署成本。

EMS缓存多轮对话的历史KV Cache，历史KV Cache命中时无需重新做推理计算，通过以存代算，可提升推理吞吐，节省AI推理算力资源。
EMS采用半托管融合部署，EMS数据面部署在AI节点本地，高效纳管AI节点空闲内存资源，提供加速服务、降低存储成本。

注：本文内容参考华为云官方，版权归作者所有

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

河南瓜农含泪发声，2200斤西瓜，瓜贩只愿给20元

点时新闻 2026-07-11 13:11:03
391 跟贴 391
"梅超锋"大赛已上演三次绝杀送走克罗斯C罗德布劳内

红星新闻 2026-07-11 07:45:13
1318 跟贴 1318

河南老君山月薪6万招人每天看云海，需在山顶住30天，每天至少发一条短视频，景区：咨询报名者众多，全国仅选一人

极目新闻 2026-07-08 14:01:25
7514 跟贴 7514

亚马尔赛后发声

扬子晚报 2026-07-11 09:25:00
1806 跟贴 1806
35岁女高管立遗赠，千万资产全部赠予小姨

极目新闻 2026-07-11 09:37:18
866 跟贴 866

英挪大战未开打，英格兰与挪威两国航空公司“开战了”：输的换LOGO一天

红星新闻 2026-07-11 15:52:31
61 跟贴 61

中方投了反对票

澎湃新闻 2026-07-11 19:56:08
148 跟贴 148
“草帽当安全帽”？考核巡查组连说6个“乱”

环球网资讯 2026-07-11 08:43:28
82 跟贴 82

“两倍的价格，我买100吨西瓜！”

环球网资讯 2026-07-11 18:49:32
8 跟贴 8
一年辐射≈650次胸片，身边2个隐形辐射源，很多人忽略

大象新闻 2026-07-11 15:46:04
17 跟贴 17
受巴威影响瀑布惊现飞瀑倒流景象

潇湘晨报 2026-07-11 16:14:28
1099 跟贴 1099
行业大变革！证券经纪人，或将全面清零！

证券时报 2026-07-11 19:26:02
38 跟贴 38
中国代表：中方将继续推动全球互联互通

环球网资讯 2026-07-11 06:26:07
669 跟贴 669
山姆68元“一份”凉拌牛肉找不到克重？市场监管局：如现场制售，不强制适用完整标签规定

扬子晚报 2026-07-11 16:53:43
40 跟贴 40
张家界大庸古城焕新开业

潇湘晨报 2026-07-10 11:01:31
106 跟贴 106
“灾后恢复供电要交纳高额抢修费”不实（2026·07·10）

今日辟谣 2026-07-10 17:41:12
73 跟贴 73
广阔天地，大有可为——万千青年在基层淬炼别样青春

环球网资讯 2026-07-11 19:33:26
16 跟贴 16
“川超”收官，不说再见

封面新闻 2026-07-11 23:31:03
23 跟贴 23

挪威偶遇杨采钰和老公看世界杯，夫妇俩互动有爱，男帅女美好养眼

挪威偶遇杨采钰和老公看世界杯，夫妇俩互动有爱，男帅女美好养眼

孤城落日

2026-07-12 04:21:08

2026年，结婚人数又破纪录了！

2026年，结婚人数又破纪录了！

巢客HOME

2026-06-21 07:20:07

兆易创新遭暴击：预计上半年利润69亿同比增1099% 港股却大跌21%

兆易创新遭暴击：预计上半年利润69亿同比增1099% 港股却大跌21%

雷递

2026-07-11 19:06:48

穆谢奎一球一助，大连鲲城2-0完胜高排名劲旅，避免2连败发生

穆谢奎一球一助，大连鲲城2-0完胜高排名劲旅，避免2连败发生

侧身凌空斩

2026-07-11 20:52:44

泽连斯基：有意与日本三菱公司合作造“爱国者”导弹

泽连斯基：有意与日本三菱公司合作造“爱国者”导弹

澎湃新闻

2026-07-11 00:05:54

周至柔极清醒，54年拒绝老蒋连任特令，活到88岁，继任者44天暴毙

周至柔极清醒，54年拒绝老蒋连任特令，活到88岁，继任者44天暴毙

黑句本

2026-07-03 10:41:52

伊朗一纸任免令通告全国，消失数月的内贾德等来东山再起的机会？

伊朗一纸任免令通告全国，消失数月的内贾德等来东山再起的机会？

全球风情大揭秘

2026-07-11 13:49:50

国务院安委会对福建泉州“7·9”重大火灾查处挂牌督办

国务院安委会对福建泉州“7·9”重大火灾查处挂牌督办

界面新闻

2026-07-11 09:42:19

连场绝杀的“梅超锋”专业操办谢幕仪式！大赛三次绝杀分别送走克罗斯、C罗、德布劳内

连场绝杀的“梅超锋”专业操办谢幕仪式！大赛三次绝杀分别送走克罗斯、C罗、德布劳内

红星新闻

2026-07-11 07:45:13

世界杯 2 场对攻大战！场均进球至少 5 球，阿根廷、挪威将晋级？

世界杯 2 场对攻大战！场均进球至少 5 球，阿根廷、挪威将晋级？

体坛狗哥

2026-07-11 22:21:33

欧民众吹着中国空调，德总理却要求中国大使紧急会谈，理由很荒唐

欧民众吹着中国空调，德总理却要求中国大使紧急会谈，理由很荒唐

阿丰聊娱

2026-07-11 14:54:54

长沙车位事件大结局？调解现场离谱操作，全网炸锅

长沙车位事件大结局？调解现场离谱操作，全网炸锅

天天热点见闻

2026-07-10 18:50:00

报应来得太快！大陆仅仅是关停关税优惠

报应来得太快！大陆仅仅是关停关税优惠

小马姨

2026-07-08 15:21:57

泽连斯基恍然大悟：难怪普京不敢下狠手，原来是中国在背后罩着？

泽连斯基恍然大悟：难怪普京不敢下狠手，原来是中国在背后罩着？

真实世界

2026-07-11 19:52:38

郭涵煜搭档梅拉德诺维奇2-0击败赛西尼亚科娃和汤森德组合

郭涵煜搭档梅拉德诺维奇2-0击败赛西尼亚科娃和汤森德组合

环球体坛啄木鸟

2026-07-11 11:50:19

你们都是什么时候对男女之事开窍的？网友：果然还是拦不住有心人

你们都是什么时候对男女之事开窍的？网友：果然还是拦不住有心人

夜深爱杂谈

2026-02-21 21:37:02

深棕比基尼，自由调节松紧，让饱满身材不勒肉

深棕比基尼，自由调节松紧，让饱满身材不勒肉

飛尚日记

2026-07-02 06:12:41

赵勇现卧底用人！无脑信赖张籽萱陈厚羽，死薅龚翔宇，引关键送分

赵勇现卧底用人！无脑信赖张籽萱陈厚羽，死薅龚翔宇，引关键送分

篮球资讯达人

2026-07-11 23:52:54

女网约车司机优先接女客，结果一月新增50多条差评，直接干到失业

女网约车司机优先接女客，结果一月新增50多条差评，直接干到失业

三农老历

2026-07-11 13:04:37

广州24岁准教师黄丽芬去世！名校毕业，喜欢吃辣，花光所有积蓄

广州24岁准教师黄丽芬去世！名校毕业，喜欢吃辣，花光所有积蓄

王楔晓

2026-07-11 08:36:56

ICT解决方案与服务供应商

519文章数 21关注度

往期回顾全部

科技要闻

苹果起诉OpenAI系统性窃密，挖超400前员工

头条要闻

长沙通报体育局女干部占车位事件：涉事干部被停职

头条要闻

长沙通报体育局女干部占车位事件：涉事干部被停职

体育要闻

燃尽的比利时黄金一代，逃不过厄运诅咒

娱乐要闻

周星驰官宣星女郎纯素人无拍戏经验

财经要闻

一封举报信引发小红书IPO合规考验

汽车要闻

预售权益价11.78万起五菱星光L将于7月16日上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

本地

房产

亲子

公开课

手机要闻

荷兰弟手持折叠屏iPhone照片被刷屏网友扒出多处破绽：系AI生成

本地新闻

重庆人有自己的避暑桃花源 | 夏天就去「酉」风的地方！

房产要闻

重磅学校规划曝光！西海岸教育，正强得可怕！

亲子要闻

十二大侠赛金刚疯狂动物园版

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版