网易首页 > 网易号 > 正文 申请入驻

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛

0
分享至

DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s

其实早在DeepSeek-V2 时代,这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到10分之一。

△HuggingFace 的开源负责人的点赞

随着DeepSeek-R1的发布,社区的需求迅速激增,在GitHub盖起上百楼的issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的3090显卡和200GB内存进行实测,借助与Unsloth优化的组合,Q2_K_XL模型的推理速度已达到9.1 tokens/s,真正实现了千亿级模型的“家庭化”。

此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合Intel AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。

另外,KTransformers还提供了兼容Hugginface Transformers的API与ChatGPT式Web界面,极大降低了上手难度。同时,其基于YAML的“模板注入框架”能够灵活切换量化策略、内核替换等多种优化方式。

目前,KTransformers在localLLaMa社区持续位居热榜第一,有上百条开发者的讨论。

项目背后的技术细节,团队也给出了详细介绍。

利用MoE架构的稀疏性

DeepSeek-R1/V3均采用了MoE(混合专家)架构,这种架构的核心是将模型中的任务分配给不同的专家模块,每个专家模块专注于处理特定类型的任务。MoE结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。

因此,MoE架构需要大量的存储空间,但是并不需要很多的计算资源。

基于此,团队采用了GPU/CPU的异构计算划分策略:仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上并使用llamafile提供的高速算子处理,剩余稠密部分放在GPU上使用Marlin算子处理。

在这样的情况下,同样使用4bit量化,GPU上的参数只需要24GB的显存环境,这样的消耗只需要一张4090就能满足。

此外通过这样的组合,还能够大幅度提升整个推理的性能,达到286 token/s的预填充和14 token/s的生成速度,比llama.cpp快28倍。

具体到技术实现中,团队采用了基于计算强度的offload策略、高性能的CPU和GPU算子、CUDA Graph加速的多种方式来加速推理速度。

基于计算强度的offload策略

在Attention的核心,DeepSeek引入了一种新的MLA算子,它能够充分利用显卡算力,能够很大程度提升效率。然而,MLA运算符在官方开源的v2版本中,是将MLA展开成MHA进行的计算,这个过程不仅扩大了KV cache大小,还降低了推理性能。

为了真正发挥MLA的性能,在KTransformers推理框架中,团队将矩阵直接吸收到q_proj和out_proj权重中。因此,压缩表示不需要解压缩来计算Attention。

这种调整显著减少了KV缓存大小,并增加了该运算符的算术强度,这非常显著地优化了GPU计算能力的利用率。

在计算中,MLA和Expert的计算强度相差数千倍。因此,团队通过计算强度来决定划分策略,优先将计算强度高的放入GPU(MLA > Shared Expert > Routed Expert),直到GPU放不下为止。

引入CPU和GPU的高性能算子

在CPU算子中,团队使用llamafile作为CPU内核,使用expert并行和其他优化,组成高性能算子框架CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA感知等优化。

在GPU算子的使用上,团队引入Marlin算子作为GPU计算的内核,它能够非常高效地进行量化后的矩阵计算,和torch这些计算量化后的矩阵乘法的库相比,使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。

CUDA Graph的改进和优化

为了平衡推理性能和框架本身的易用性/可扩展性,基于Python构建KTransformers框架,同时使用CUDA Graph降低Python调用开销是一个必然的选择。

KTransformers中使用CUDA Graph过程中尽可能地减少了CPU/GPU通讯造成的断点,在CUDA Graph中掺杂和CPU异构算子通讯,最终实现一次decode仅有一个完整的CUDA Graph调用的结果。

灵活高效的推理实验平台

值得关注的是,KTransformers不止是一个固定的推理框架,也不只能推理DeepSeek的模型,它可以兼容各式各样的MoE模型和算子,能够集成各种各样的算子,做各种组合的测试。

此外还同时提供了Windows、Linux的平台的支持,方便运行。

当大模型不断往上卷,KTransformers用异构计算打开一条新的推理路径。基于此,科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址:https://github.com/kvcache-ai/ktransformers
具体技术细节指路:https://zhuanlan.zhihu.com/p/714877271

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗最高领袖穆杰塔巴伤情披露:遭爆炸波冲击摔倒,膝盖、背部及耳朵受伤,现已基本痊愈,身体非常健康

伊朗最高领袖穆杰塔巴伤情披露:遭爆炸波冲击摔倒,膝盖、背部及耳朵受伤,现已基本痊愈,身体非常健康

扬子晚报
2026-05-09 12:07:21
我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

千秋文化
2026-05-08 10:29:06
恒大原总裁夏海钧广州豪宅被拍卖,428平方米顶层复式评估价7062万元,其曾因年薪超2亿被誉为地产界“打工皇帝”

恒大原总裁夏海钧广州豪宅被拍卖,428平方米顶层复式评估价7062万元,其曾因年薪超2亿被誉为地产界“打工皇帝”

极目新闻
2026-05-09 12:31:29
国乒男队复仇成功3-0韩国,半决赛直播时间变更了,请注意

国乒男队复仇成功3-0韩国,半决赛直播时间变更了,请注意

开成运动会
2026-05-08 23:36:11
文班亚马:我和波波教练每天都会沟通 马刺有能力一路冲到最顶峰

文班亚马:我和波波教练每天都会沟通 马刺有能力一路冲到最顶峰

罗说NBA
2026-05-09 13:21:57
国际油价本周大跌7%

国际油价本周大跌7%

每日经济新闻
2026-05-09 09:16:42
世乒赛半决赛将战法国!中国男团有几成把握?CCTV5全程直播!

世乒赛半决赛将战法国!中国男团有几成把握?CCTV5全程直播!

好乒乓
2026-05-09 11:31:23
李嘉诚次子1.7亿买下时间最差世界杯

李嘉诚次子1.7亿买下时间最差世界杯

三言科技
2026-05-09 09:52:05
特朗普即将访华,启程前提了个要求,向中方点名要这个人

特朗普即将访华,启程前提了个要求,向中方点名要这个人

带你领略世界风采
2026-05-08 18:05:23
3人去世、2人失业、3人勉力糊口!80后吐槽宿舍8人,评论哭声一片

3人去世、2人失业、3人勉力糊口!80后吐槽宿舍8人,评论哭声一片

火山詩话
2026-05-08 22:09:53
离谱!享界座椅被指夹人,多名车主拿自己孩子当实验品,有孩子一脸痛苦

离谱!享界座椅被指夹人,多名车主拿自己孩子当实验品,有孩子一脸痛苦

可达鸭面面观
2026-05-08 18:42:02
乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

乌克兰的“机器狗”们已实战,单次俘虏多名俄士兵,摧毁俄军坦克

网易新闻出品
2026-05-09 11:37:34
外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

闪电新闻
2026-05-09 09:31:06
特朗普“密友”,访华了

特朗普“密友”,访华了

中国新闻周刊
2026-05-09 07:29:04
不尊重人!罗马尼亚女队击败法国,集体跳上球桌庆祝,结局没想到

不尊重人!罗马尼亚女队击败法国,集体跳上球桌庆祝,结局没想到

梅亭谈
2026-05-09 12:23:06
以游客身份入境,未经许可拍摄!8名中国人在泰国拍短剧被捕

以游客身份入境,未经许可拍摄!8名中国人在泰国拍短剧被捕

大象新闻
2026-05-09 13:54:19
伯克希尔等着捡尸体

伯克希尔等着捡尸体

贩财局
2026-05-08 14:52:06
国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

国乒幕后功臣浮出水面!能战胜韩国有原因,王皓躲过一劫太幸运

三十年莱斯特城球迷
2026-05-08 22:57:55
农夫和蛇新版!女子带娃在景区爬山受伤,大叔好心帮忙被举报抽烟

农夫和蛇新版!女子带娃在景区爬山受伤,大叔好心帮忙被举报抽烟

火山詩话
2026-05-09 06:19:41
昨晚涨到想辞职了

昨晚涨到想辞职了

贩财局
2026-05-09 09:21:00
2026-05-09 15:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
12594文章数 176461关注度
往期回顾 全部

数码要闻

苹果Mac缺货加剧,Mac Studio最长等84天

头条要闻

恒大原总裁夏海钧豪宅被拍卖 年薪2亿被誉"打工皇帝"

头条要闻

恒大原总裁夏海钧豪宅被拍卖 年薪2亿被誉"打工皇帝"

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
本地
旅游
公开课
军事航空

艺术要闻

齐白石 紫藤蜜蜂

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

5月15日至10月15日,东、西佘山园延长开放时间→

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版