网易首页 > 网易号 > 正文 申请入驻

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛

0
分享至

DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s

其实早在DeepSeek-V2 时代,这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到10分之一。

△HuggingFace 的开源负责人的点赞

随着DeepSeek-R1的发布,社区的需求迅速激增,在GitHub盖起上百楼的issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的3090显卡和200GB内存进行实测,借助与Unsloth优化的组合,Q2_K_XL模型的推理速度已达到9.1 tokens/s,真正实现了千亿级模型的“家庭化”。

此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合Intel AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。

另外,KTransformers还提供了兼容Hugginface Transformers的API与ChatGPT式Web界面,极大降低了上手难度。同时,其基于YAML的“模板注入框架”能够灵活切换量化策略、内核替换等多种优化方式。

目前,KTransformers在localLLaMa社区持续位居热榜第一,有上百条开发者的讨论。

项目背后的技术细节,团队也给出了详细介绍。

利用MoE架构的稀疏性

DeepSeek-R1/V3均采用了MoE(混合专家)架构,这种架构的核心是将模型中的任务分配给不同的专家模块,每个专家模块专注于处理特定类型的任务。MoE结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。

因此,MoE架构需要大量的存储空间,但是并不需要很多的计算资源。

基于此,团队采用了GPU/CPU的异构计算划分策略:仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上并使用llamafile提供的高速算子处理,剩余稠密部分放在GPU上使用Marlin算子处理。

在这样的情况下,同样使用4bit量化,GPU上的参数只需要24GB的显存环境,这样的消耗只需要一张4090就能满足。

此外通过这样的组合,还能够大幅度提升整个推理的性能,达到286 token/s的预填充和14 token/s的生成速度,比llama.cpp快28倍。

具体到技术实现中,团队采用了基于计算强度的offload策略、高性能的CPU和GPU算子、CUDA Graph加速的多种方式来加速推理速度。

基于计算强度的offload策略

在Attention的核心,DeepSeek引入了一种新的MLA算子,它能够充分利用显卡算力,能够很大程度提升效率。然而,MLA运算符在官方开源的v2版本中,是将MLA展开成MHA进行的计算,这个过程不仅扩大了KV cache大小,还降低了推理性能。

为了真正发挥MLA的性能,在KTransformers推理框架中,团队将矩阵直接吸收到q_proj和out_proj权重中。因此,压缩表示不需要解压缩来计算Attention。

这种调整显著减少了KV缓存大小,并增加了该运算符的算术强度,这非常显著地优化了GPU计算能力的利用率。

在计算中,MLA和Expert的计算强度相差数千倍。因此,团队通过计算强度来决定划分策略,优先将计算强度高的放入GPU(MLA > Shared Expert > Routed Expert),直到GPU放不下为止。

引入CPU和GPU的高性能算子

在CPU算子中,团队使用llamafile作为CPU内核,使用expert并行和其他优化,组成高性能算子框架CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA感知等优化。

在GPU算子的使用上,团队引入Marlin算子作为GPU计算的内核,它能够非常高效地进行量化后的矩阵计算,和torch这些计算量化后的矩阵乘法的库相比,使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。

CUDA Graph的改进和优化

为了平衡推理性能和框架本身的易用性/可扩展性,基于Python构建KTransformers框架,同时使用CUDA Graph降低Python调用开销是一个必然的选择。

KTransformers中使用CUDA Graph过程中尽可能地减少了CPU/GPU通讯造成的断点,在CUDA Graph中掺杂和CPU异构算子通讯,最终实现一次decode仅有一个完整的CUDA Graph调用的结果。

灵活高效的推理实验平台

值得关注的是,KTransformers不止是一个固定的推理框架,也不只能推理DeepSeek的模型,它可以兼容各式各样的MoE模型和算子,能够集成各种各样的算子,做各种组合的测试。

此外还同时提供了Windows、Linux的平台的支持,方便运行。

当大模型不断往上卷,KTransformers用异构计算打开一条新的推理路径。基于此,科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址:https://github.com/kvcache-ai/ktransformers
具体技术细节指路:https://zhuanlan.zhihu.com/p/714877271

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别了,曼城!6500万“永动机”决定转投尤文!5500万中场同意来投

别了,曼城!6500万“永动机”决定转投尤文!5500万中场同意来投

头狼追球
2026-02-05 13:53:17
真相:古巴粮食危机——体制才是根本原因

真相:古巴粮食危机——体制才是根本原因

老头和你随便聊聊
2026-02-05 08:09:49
印媒:严重遣责中国比亚迪,让印度人先付款后提车的商业行为

印媒:严重遣责中国比亚迪,让印度人先付款后提车的商业行为

我心纵横天地间
2026-02-05 19:30:09
骑士124-91快船!无解的不是大胜,而是米切尔对哈登的赛后表态

骑士124-91快船!无解的不是大胜,而是米切尔对哈登的赛后表态

鱼崖大话篮球
2026-02-05 15:48:45
反转!王石夫妇再传新料!

反转!王石夫妇再传新料!

财经要参
2026-02-05 05:57:23
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
辽宁队管理层:球队没有出售的计划,目前正在寻求新的赞助商

辽宁队管理层:球队没有出售的计划,目前正在寻求新的赞助商

体育哲人
2026-02-05 23:48:43
脸都不要了!乌度卡下课!申京驱逐!杜兰特狂打铁,火箭耻辱输球

脸都不要了!乌度卡下课!申京驱逐!杜兰特狂打铁,火箭耻辱输球

Tracy的篮球博物馆
2026-02-05 11:25:45
中国3大通血管食物,红薯排第3,第1名家家都有,很多人却不爱吃

中国3大通血管食物,红薯排第3,第1名家家都有,很多人却不爱吃

江江食研社
2026-02-03 16:30:06
攻防两端都被各种限制,但火箭还在继续让后场新星担任控卫?

攻防两端都被各种限制,但火箭还在继续让后场新星担任控卫?

稻谷与小麦
2026-02-06 00:10:34
恒大集团董事长许家印现状曝光

恒大集团董事长许家印现状曝光

地产微资讯
2026-02-05 11:44:08
大S雕像揭幕后,张兰说:回想起年初的风波,想起来还真是不容易

大S雕像揭幕后,张兰说:回想起年初的风波,想起来还真是不容易

向天祈福
2026-02-04 18:16:08
争议!WTA不和谐一幕:乌克兰女将拒合影+握手 因对手去过俄罗斯

争议!WTA不和谐一幕:乌克兰女将拒合影+握手 因对手去过俄罗斯

侃球熊弟
2026-02-05 00:10:03
全满贯后的沉默:阿尔卡拉斯与费雷罗之间发生了什么?

全满贯后的沉默:阿尔卡拉斯与费雷罗之间发生了什么?

网球之家
2026-02-04 23:09:31
西藏解放后,解放军在农奴主的家里搜出的各种法器和文物

西藏解放后,解放军在农奴主的家里搜出的各种法器和文物

乐趣纪史
2026-02-05 14:14:28
Shams:尼克斯将亚布塞莱交易至公牛,换来达伦-特里

Shams:尼克斯将亚布塞莱交易至公牛,换来达伦-特里

懂球帝
2026-02-05 23:44:03
为了一个状态不佳的新星付出1首轮3次轮,雷霆的操作让人无法理解

为了一个状态不佳的新星付出1首轮3次轮,雷霆的操作让人无法理解

稻谷与小麦
2026-02-05 22:52:37
变天了,斯诺克世界大奖赛8强中国选手占据6席,赵心童再创奇迹

变天了,斯诺克世界大奖赛8强中国选手占据6席,赵心童再创奇迹

真理是我亲戚
2026-02-05 22:44:12
网络不是法外之地,官谣谁来买单

网络不是法外之地,官谣谁来买单

涛哥锐评
2026-02-04 11:48:46
巴拿马强吞中资港口,076携神秘隐身战机就位,中国绝非软柿子

巴拿马强吞中资港口,076携神秘隐身战机就位,中国绝非软柿子

光辉与阴暗
2026-02-04 19:28:43
2026-02-06 00:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12120文章数 176372关注度
往期回顾 全部

数码要闻

小米宣布米家智能健腹轮入选红点设计博物馆展示:斩获全球5项权威设计奖

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

头条要闻

上海男子刚退休就瘫痪 小23岁女友照护崩溃:无名无分

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

科技要闻

美团买下叮咚买菜,防御还是进击?

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

房产
亲子
时尚
健康
公开课

房产要闻

新春三亚置业,看过这个热盘再说!

亲子要闻

从来没吃过饭的宝宝第一次见大席

她随手打赏就是6两黄金:人美,心善,钱多!

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版