![]()
大模型推理的下一程,胜负手正从算力转向显存。
公司情报专家《财经涂鸦》获悉,近日,曦望Sunrise望完成适配月之暗面Mooncake,成为首批从硬件层面深度适配Mooncake的国产GPU厂商之一。
作为月之暗面和清华大学的开源项目,Mooncake已被vLLM、SGLang、Dynamo集成为PD分离场景的KV Connector,在Agent负载上实现了数倍吞吐提升。阿里云、英伟达等都在围绕这一架构构建生产能力。
据悉,曦望的适配贯穿KVCache传输与管理的完整链路,真正让分离式推理与缓存池化在国产算力上落地。
从Transfer Engine的KVCache跨节点高速传输,到Mooncake Store的分布式KVCache池化管理,其中的“第一道硬仗”,是跨节点传输KVCache
传统路径下,数据要先从设备拷到主机,再由CPU发起RDMA,对端再从主机拷回设备。两次内存跳板造成了双倍延迟。
曦望芯片原生支持GPUDirect RDMA(GDR),网卡可以直接读写GPU显存,跨节点搬运KVCache,无需经主机内存中转,令Prefill节点生成的KVCache可以以接近硬件极限的带宽直达Decode节点的显存。节点内,曦望自研的Sunrise Link片间互联提供高速跨卡通道,确保大块KVCache在卡间流转时不浪费一丝带宽——PD分离的成败,往往就在这几个毫秒之间。
第二个卡点是KVCache池化,即不仅要让显存从“独占”走向“共享”搬得快,还要存得“聪明”。
一个真实生产环境中往往运行着数十个推理实例,每个实例各自管理显存,KVCache用完即弃——即便另一个实例正在处理相同的prompt,也得从头算一遍。
Mooncake Store 将分散在各实例的显存、主机内存乃至SSD汇聚成统一的KVCache缓存池:实例间可复用同一份 KVCache,避免重复计算;流量高峰时可弹性扩容、低谷时缩容而不丢失缓存;模型迭代时可原地升级,保留已积累的缓存。
而曦望对Store层的适配,让其GPU的显存能够作为该缓存池的一部分被统一调度。在Agent多轮对话、长上下文推理成为常态的今天,这种池化能力直接决定了推理服务能不能在有限硬件下扛住更高的并发、更长的上下文、更复杂的交互链路。池化的本质,是把每一份算力都用在刀刃上。
值得一提的是,上述两项突破均根植于曦望的硬件实力。
首先,原生GDR支持要求GPU在硬件层面允许网卡通过PCIe P2P DMA直接读写显存,这并非所有国产GPU都能实现。曦望芯片原生具备这一能力,是PD分离架构能跑出实际收益的根基。
其次,曦望自研Sunrise Link片间互联架构,配合Tang Runtime软件栈,构建了从显存注册、拓扑发现到跨卡P2P拷贝的完整节点内传输能力,让多卡间的KVCache流转带宽逼近互联硬件极限。
第三,全栈软件适配能力。曦望在运行时兼容层、设备上下文管理、内存分配器、并发锁调度等多个层面做了深度适配,在厂商运行时能力不足处自行补齐、多层回退,保证系统在真实生产环境中的鲁棒性。同一份Mooncake二进制,在曦望设备上按需加载自研运行时,在其他硬件上不受影响——这种工程能力,体现的是一家芯片公司对软件栈的掌控深度。
这也侧面佐证,国产GPU不仅能在传统推理场景中跑通,更能支撑分离式推理、KV Cache池化这类下一代生产架构。
推理解耦的浪潮已经到来。而曦望与Mooncake的结合,是国产算力承接这一浪潮的一个回答——将生产级问题一个一个解决掉。当国产GPU能够深度参与定义推理架构的未来,一个不被单一厂商绑定的国产大模型算力底座,将从蓝图走向现实。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.