12月4日消息,据悉,记忆张量与商汤科技近日联合宣布,成功落地业界首个国产GPGPU PD分离商用推理集群。该方案通过将PD分离架构与记忆张量的MemOS激活记忆体系深度耦合,实现了推理性价比达到同代英伟达A100的150%左右。
据介绍,这一联合解决方案在商汤大装置的国产GPGPU集群上运行,通过“记忆—计算—调度”一体化设计,将Prefill(预填充)与Decode(解码)过程进行物理分离和优化调度。P域主要负责高吞吐量的预处理任务,D域则专注于低延迟的实时交互解码,MemOS系统在此间进行精细化的记忆调度。
在严格的生产级评测中,该集群整体吞吐量提升超过75%,单卡并发能力提升约20%,并在保证首字生成时间稳定低于2秒的条件下,实现了综合推理性价比对A100的显著超越。这表明国产算力体系在大模型商业化应用方面取得了新的进展。
商汤大装置为此次合作提供了底层算力基础设施支持,包括高效的算力池和智能调度能力。这一实践为国产算力在承载复杂AI应用方面提供了新的技术路径。
记忆张量与商汤科技表示,未来将继续深化合作,围绕更大规模集群和更复杂的记忆管理任务,进一步探索国产AI基础设施的新范式。(袁雪丽)
本文来自网易科技报道,更多资讯和深度内容,关注我们。
