![]()
AI场景中的3大存力痛点
1.持久化存储性能不足
随着AI大模型和AI系统技术的迅速发展,传统的持久化存储介质已难以满足大模型训练和推理的高性能需求。
2.DRAM利用率
AI服务器上的DRAM资源按各类场景的需求配置,在LLM负载主导的场景中DRAM的整体利用率普遍偏低。
3.HBM内存墙
AI加速器(如GPU、NPU、TPU等)的HBM容量增长速度远落后于大模型存储需求的增长速度。
以存代算,降低推理时延迟
弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存(动态随机存取存储器)为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中,通过以存代算,减少了冗余计算,提升推理吞吐量,大幅节省AI推理算力资源,同时可降低推理首Token时延(Time To First Token,TTFT),提升LLM推理对话体验。
1.以存代算
以存代算技术将多轮对话的历史KV Cache保存至EMS,在后续对话中直接重复使用,实现AI推理的首Token时延降低80%,降低端到端的推理成本。
2.显著扩展
显存扩展技术将模型分层存储在显存和EMS中,无需堆砌NPU可存下TB级大模型,使NPU算力节省超50%。
3.算力卸载
算力卸载技术将KV相关的计算卸载至EMS中的CPU,模型计算在NPU中进行,实现AI推理吞吐量提升100%。
直面LLM难题,释放推理算力
随着LLM推理的飞速发展,LLM推理需求急速增加,但也面临多重难题。
- 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。
- 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI显存内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。
- 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。
华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。
- EMS缓存多轮对话的历史KV Cache,历史KV Cache命中时无需重新做推理计算,通过以存代算,可提升推理吞吐,节省AI推理算力资源。
- EMS采用半托管融合部署,EMS数据面部署在AI节点本地,高效纳管AI节点空闲内存资源,提供加速服务、降低存储成本。
注:本文内容参考华为云官方,版权归作者所有
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.