DeepSeek-R1因其高昂的推理服务器费用和频繁宕机,成为许多中小团队的“遥不可及”。市面上的本地部署方案多为经过蒸馏的缩水版,无法满足671B MoE架构的高显存需求。
清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目突破了这一难题。该项目支持在24GB显存的硬件上运行DeepSeek-R1和V3的671B满血版,推理速度达到14 tokens/s,预处理速度可达286 tokens/s。
这事你们怎么看?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.