品玩4月20日讯,据 marktechpost 报道,Moonshot AI与清华大学研究团队联合发布Prefill-as-a-Service(PrfaaS)架构,突破大模型推理的硬件部署限制。该研究针对混合注意力模型,将长上下文预填充任务卸载至独立的高算力集群,通过通用以太网传输KVCache至本地解码集群,实现跨数据中心协同。
PrfaaS引入基于长度的阈值路由机制与双时间尺度调度器,根据请求长度动态分配资源并优化网络传输。实测数据显示,该架构使服务吞吐量较同构基线提升54%,较朴素异构配置提升32%,同时将首字生成延迟降低50%。
研究表明,混合注意力机制显著压缩KVCache体积,使其适配跨数据中心以太网传输。这一突破为未来算力网络构建提供了关键工程路径,标志着大模型推理正迈向更高效的工业化应用阶段。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.