网易首页 > 网易号 > 正文 申请入驻

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛

0
分享至

DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s

其实早在DeepSeek-V2 时代,这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到10分之一。



△HuggingFace 的开源负责人的点赞

随着DeepSeek-R1的发布,社区的需求迅速激增,在GitHub盖起上百楼的issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的3090显卡和200GB内存进行实测,借助与Unsloth优化的组合,Q2_K_XL模型的推理速度已达到9.1 tokens/s,真正实现了千亿级模型的“家庭化”。



此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合Intel AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。



另外,KTransformers还提供了兼容Hugginface Transformers的API与ChatGPT式Web界面,极大降低了上手难度。同时,其基于YAML的“模板注入框架”能够灵活切换量化策略、内核替换等多种优化方式。

目前,KTransformers在localLLaMa社区持续位居热榜第一,有上百条开发者的讨论。



项目背后的技术细节,团队也给出了详细介绍。

利用MoE架构的稀疏性

DeepSeek-R1/V3均采用了MoE(混合专家)架构,这种架构的核心是将模型中的任务分配给不同的专家模块,每个专家模块专注于处理特定类型的任务。MoE结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。



因此,MoE架构需要大量的存储空间,但是并不需要很多的计算资源。

基于此,团队采用了GPU/CPU的异构计算划分策略:仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上并使用llamafile提供的高速算子处理,剩余稠密部分放在GPU上使用Marlin算子处理。

在这样的情况下,同样使用4bit量化,GPU上的参数只需要24GB的显存环境,这样的消耗只需要一张4090就能满足。

此外通过这样的组合,还能够大幅度提升整个推理的性能,达到286 token/s的预填充和14 token/s的生成速度,比llama.cpp快28倍。

具体到技术实现中,团队采用了基于计算强度的offload策略、高性能的CPU和GPU算子、CUDA Graph加速的多种方式来加速推理速度。

基于计算强度的offload策略

在Attention的核心,DeepSeek引入了一种新的MLA算子,它能够充分利用显卡算力,能够很大程度提升效率。然而,MLA运算符在官方开源的v2版本中,是将MLA展开成MHA进行的计算,这个过程不仅扩大了KV cache大小,还降低了推理性能。

为了真正发挥MLA的性能,在KTransformers推理框架中,团队将矩阵直接吸收到q_proj和out_proj权重中。因此,压缩表示不需要解压缩来计算Attention。

这种调整显著减少了KV缓存大小,并增加了该运算符的算术强度,这非常显著地优化了GPU计算能力的利用率。



在计算中,MLA和Expert的计算强度相差数千倍。因此,团队通过计算强度来决定划分策略,优先将计算强度高的放入GPU(MLA > Shared Expert > Routed Expert),直到GPU放不下为止。

引入CPU和GPU的高性能算子

在CPU算子中,团队使用llamafile作为CPU内核,使用expert并行和其他优化,组成高性能算子框架CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA感知等优化。

在GPU算子的使用上,团队引入Marlin算子作为GPU计算的内核,它能够非常高效地进行量化后的矩阵计算,和torch这些计算量化后的矩阵乘法的库相比,使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。

CUDA Graph的改进和优化

为了平衡推理性能和框架本身的易用性/可扩展性,基于Python构建KTransformers框架,同时使用CUDA Graph降低Python调用开销是一个必然的选择。

KTransformers中使用CUDA Graph过程中尽可能地减少了CPU/GPU通讯造成的断点,在CUDA Graph中掺杂和CPU异构算子通讯,最终实现一次decode仅有一个完整的CUDA Graph调用的结果。

灵活高效的推理实验平台

值得关注的是,KTransformers不止是一个固定的推理框架,也不只能推理DeepSeek的模型,它可以兼容各式各样的MoE模型和算子,能够集成各种各样的算子,做各种组合的测试。

此外还同时提供了Windows、Linux的平台的支持,方便运行。

当大模型不断往上卷,KTransformers用异构计算打开一条新的推理路径。基于此,科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址:https://github.com/kvcache-ai/ktransformers
具体技术细节指路:https://zhuanlan.zhihu.com/p/714877271

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美还是没有谈拢,戴恩斯仓促回国,给中方留下两句“强硬言论”

中美还是没有谈拢,戴恩斯仓促回国,给中方留下两句“强硬言论”

明月文史
2025-03-27 10:06:44
意大利前副部长:美国限制中国是搬起石头砸自己的脚

意大利前副部长:美国限制中国是搬起石头砸自己的脚

环球网资讯
2025-03-26 12:36:04
“我不强奸你,你怎么当明星啊!”

“我不强奸你,你怎么当明星啊!”

书画艺术收藏
2025-03-26 19:30:03
恭喜张维迎教授!

恭喜张维迎教授!

难得君
2025-03-26 10:58:30
当年说出“不是你撞的,干嘛去扶”的法官,18年后,他过得怎样?

当年说出“不是你撞的,干嘛去扶”的法官,18年后,他过得怎样?

大佬日志
2024-03-26 08:00:10
王宝强靠一碗泡面打脸内娱!《棋士》这3个细节让导演集体沉默!

王宝强靠一碗泡面打脸内娱!《棋士》这3个细节让导演集体沉默!

书中自有颜如玉
2025-03-27 02:20:05
上海 个人账户21.2万 工龄41.3年 60岁退休金计算

上海 个人账户21.2万 工龄41.3年 60岁退休金计算

西莫的艺术宫殿
2025-03-27 07:34:33
曝曼联给新帝星12万周薪,希望本赛季续约!其被嘲讽为红魔阿诺德

曝曼联给新帝星12万周薪,希望本赛季续约!其被嘲讽为红魔阿诺德

罗米的曼联博客
2025-03-27 10:14:38
事态严重了!伍佰下班回家躺着刷抖音,发现自己的演唱会还没结束

事态严重了!伍佰下班回家躺着刷抖音,发现自己的演唱会还没结束

奇思妙想草叶君
2023-12-10 18:06:03
严打唱衰楼市!上海市网信办协调有关部门对98个违规“自媒体”账号予以阶段性禁言,3月以来“小阳春”势头良好

严打唱衰楼市!上海市网信办协调有关部门对98个违规“自媒体”账号予以阶段性禁言,3月以来“小阳春”势头良好

金融界
2025-03-26 15:14:46
网友:跟着导航过南京长江大桥,一路美滋滋的!结果违章短信来了

网友:跟着导航过南京长江大桥,一路美滋滋的!结果违章短信来了

明月杂谈
2025-03-26 18:24:24
打蛇打七寸!一觉醒来,中国取消美国一项资格,特朗普遭晴天霹雳

打蛇打七寸!一觉醒来,中国取消美国一项资格,特朗普遭晴天霹雳

趣观速评
2025-03-26 20:00:11
看看杜月笙的结局,你就知道李嘉诚为何落得这般田地?

看看杜月笙的结局,你就知道李嘉诚为何落得这般田地?

张老师担扑
2025-03-26 00:57:25
谢浩男一餐只花7.8元,仍习惯吃便宜菜,叫食堂阿姨只打半份肉菜

谢浩男一餐只花7.8元,仍习惯吃便宜菜,叫食堂阿姨只打半份肉菜

沧海一书客
2025-03-26 20:28:58
川普宣布进口汽车征收25%的关税,预计每辆进口车将上涨3500美元以上

川普宣布进口汽车征收25%的关税,预计每辆进口车将上涨3500美元以上

大洛杉矶LA
2025-03-27 07:08:01
失联10年,马航370传来新消息,超乎你的想象!

失联10年,马航370传来新消息,超乎你的想象!

心灵短笛
2024-03-07 11:07:06
多线联动,乌军再次打出小高潮,别州控制区扩大至200平方公里

多线联动,乌军再次打出小高潮,别州控制区扩大至200平方公里

史政先锋
2025-03-26 21:04:17
排队给姆巴佩道歉!放弃2.5亿年薪!皇马回馈送特权,C罗都没有

排队给姆巴佩道歉!放弃2.5亿年薪!皇马回馈送特权,C罗都没有

阿泰希特
2025-03-26 14:33:51
快船大胜尼克斯!哈登+伦纳德56分,鲍威尔回暖,替补正负值拉满

快船大胜尼克斯!哈登+伦纳德56分,鲍威尔回暖,替补正负值拉满

篮球资讯达人
2025-03-27 09:56:26
认输了!多张带孩子、和大S的温馨私密照片流出,黄春梅开始卖惨

认输了!多张带孩子、和大S的温馨私密照片流出,黄春梅开始卖惨

沧海一书客
2025-03-26 12:29:59
2025-03-27 11:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
10225文章数 176075关注度
往期回顾 全部

数码要闻

希捷推出大容量版 BarraCuda 酷鱼 3.5 英寸机械硬盘,至高 24TB

头条要闻

"霸道"书记落马 同事:干了30年没见过这么强势的领导

头条要闻

"霸道"书记落马 同事:干了30年没见过这么强势的领导

体育要闻

冯潇霆:我们这代人,离世界杯就差一点

娱乐要闻

闹大了 曾黎把粉丝送的礼物高价转卖

财经要闻

特朗普官宣对进口汽车加征最高25%关税

科技要闻

英伟达重挫!传微软放弃美欧新数据中心项目

汽车要闻

“打汽车工业翻身仗”东风汽车博物馆开馆

态度原创

游戏
旅游
教育
公开课
军事航空

《小机器人》曾内部迭代23次!主角原定会被斩首肢解

旅游要闻

广西三月三搜索量上涨超400%

教育要闻

最容易养出“刺猬”的家庭:凡事都跟孩子争输赢

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:俄乌将就海上停火达成一致

无障碍浏览 进入关怀版