网易首页 > 网易号 > 正文 申请入驻

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破模型推理门槛

0
分享至

DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。

而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:

支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s

其实早在DeepSeek-V2 时代,这个项目就因“专家卸载”技术而备受关注——它支持了236B的大模型在仅有24GB显存的消费级显卡上流畅运行,把显存需求砍到10分之一。



△HuggingFace 的开源负责人的点赞

随着DeepSeek-R1的发布,社区的需求迅速激增,在GitHub盖起上百楼的issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的3090显卡和200GB内存进行实测,借助与Unsloth优化的组合,Q2_K_XL模型的推理速度已达到9.1 tokens/s,真正实现了千亿级模型的“家庭化”。



此外,KTransformers团队还公布了v0.3预览版的性能指标,将通过整合Intel AMX指令集,CPU预填充速度最高至286 tokens/s,相比llama.cpp快了近28倍。对于那些需要处理上万级Token上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从“分钟级等待”瞬间迈入“秒级响应”,彻底释放CPU的算力潜能。



另外,KTransformers还提供了兼容Hugginface Transformers的API与ChatGPT式Web界面,极大降低了上手难度。同时,其基于YAML的“模板注入框架”能够灵活切换量化策略、内核替换等多种优化方式。

目前,KTransformers在localLLaMa社区持续位居热榜第一,有上百条开发者的讨论。



项目背后的技术细节,团队也给出了详细介绍。

利用MoE架构的稀疏性

DeepSeek-R1/V3均采用了MoE(混合专家)架构,这种架构的核心是将模型中的任务分配给不同的专家模块,每个专家模块专注于处理特定类型的任务。MoE结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。



因此,MoE架构需要大量的存储空间,但是并不需要很多的计算资源。

基于此,团队采用了GPU/CPU的异构计算划分策略:仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上并使用llamafile提供的高速算子处理,剩余稠密部分放在GPU上使用Marlin算子处理。

在这样的情况下,同样使用4bit量化,GPU上的参数只需要24GB的显存环境,这样的消耗只需要一张4090就能满足。

此外通过这样的组合,还能够大幅度提升整个推理的性能,达到286 token/s的预填充和14 token/s的生成速度,比llama.cpp快28倍。

具体到技术实现中,团队采用了基于计算强度的offload策略、高性能的CPU和GPU算子、CUDA Graph加速的多种方式来加速推理速度。

基于计算强度的offload策略

在Attention的核心,DeepSeek引入了一种新的MLA算子,它能够充分利用显卡算力,能够很大程度提升效率。然而,MLA运算符在官方开源的v2版本中,是将MLA展开成MHA进行的计算,这个过程不仅扩大了KV cache大小,还降低了推理性能。

为了真正发挥MLA的性能,在KTransformers推理框架中,团队将矩阵直接吸收到q_proj和out_proj权重中。因此,压缩表示不需要解压缩来计算Attention。

这种调整显著减少了KV缓存大小,并增加了该运算符的算术强度,这非常显著地优化了GPU计算能力的利用率。



在计算中,MLA和Expert的计算强度相差数千倍。因此,团队通过计算强度来决定划分策略,优先将计算强度高的放入GPU(MLA > Shared Expert > Routed Expert),直到GPU放不下为止。

引入CPU和GPU的高性能算子

在CPU算子中,团队使用llamafile作为CPU内核,使用expert并行和其他优化,组成高性能算子框架CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA感知等优化。

在GPU算子的使用上,团队引入Marlin算子作为GPU计算的内核,它能够非常高效地进行量化后的矩阵计算,和torch这些计算量化后的矩阵乘法的库相比,使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。

CUDA Graph的改进和优化

为了平衡推理性能和框架本身的易用性/可扩展性,基于Python构建KTransformers框架,同时使用CUDA Graph降低Python调用开销是一个必然的选择。

KTransformers中使用CUDA Graph过程中尽可能地减少了CPU/GPU通讯造成的断点,在CUDA Graph中掺杂和CPU异构算子通讯,最终实现一次decode仅有一个完整的CUDA Graph调用的结果。

灵活高效的推理实验平台

值得关注的是,KTransformers不止是一个固定的推理框架,也不只能推理DeepSeek的模型,它可以兼容各式各样的MoE模型和算子,能够集成各种各样的算子,做各种组合的测试。

此外还同时提供了Windows、Linux的平台的支持,方便运行。

当大模型不断往上卷,KTransformers用异构计算打开一条新的推理路径。基于此,科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址:https://github.com/kvcache-ai/ktransformers
具体技术细节指路:https://zhuanlan.zhihu.com/p/714877271

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌军收复赫尔松左岸的俄军控制区!强渡第聂伯河

乌军收复赫尔松左岸的俄军控制区!强渡第聂伯河

项鹏飞
2025-03-17 19:52:24
450名中国人被遣返!越抓越多!有人还在逃!

450名中国人被遣返!越抓越多!有人还在逃!

澳洲红领巾
2025-03-18 12:24:31
奥迪Q5L跌破16万,豪华SUV价格战白热化!

奥迪Q5L跌破16万,豪华SUV价格战白热化!

沙雕小琳琳
2025-03-18 14:17:17
中药又立功!蒲公英能在48小时内杀死98%的癌细胞?医生说出实情

中药又立功!蒲公英能在48小时内杀死98%的癌细胞?医生说出实情

奇妙的本草
2025-03-09 19:00:03
印媒曾曝料:5年前,若不是中国99A坦克及时赶到,印军可能真动手

印媒曾曝料:5年前,若不是中国99A坦克及时赶到,印军可能真动手

书中自有颜如玉
2025-03-17 20:08:49
张兰凌晨发飙硬刚S妈!大S生前预言成真,这波操作比韩剧还狠!

张兰凌晨发飙硬刚S妈!大S生前预言成真,这波操作比韩剧还狠!

柠檬有娱乐
2025-03-18 10:57:31
《周处除三害》男演员权乐去世!年仅32岁

《周处除三害》男演员权乐去世!年仅32岁

鲁中晨报
2025-03-17 22:02:03
大陆为何总是演习,迟迟不进攻台湾?看看金门岛战役就知道了!

大陆为何总是演习,迟迟不进攻台湾?看看金门岛战役就知道了!

飞杨电影
2025-03-11 00:32:06
二甲双胍长期服用,身体会出现这三好三坏的变化

二甲双胍长期服用,身体会出现这三好三坏的变化

今日养生之道
2025-03-16 19:59:01
山东女子离婚后回娘家啃老,天天给父母做饭,直言:比上班强多了

山东女子离婚后回娘家啃老,天天给父母做饭,直言:比上班强多了

阿龙美食记
2025-03-17 19:41:01
“少盐少油”是错的?医生建议:60岁后吃饭时尽量做到这6点!

“少盐少油”是错的?医生建议:60岁后吃饭时尽量做到这6点!

荷兰豆爱健康
2025-02-17 20:51:42
郭嘉璇脑死亡真相曝光:窒息错过抢救黄金期,家属被骗签下谅解书

郭嘉璇脑死亡真相曝光:窒息错过抢救黄金期,家属被骗签下谅解书

中国足球的那些事儿
2025-03-18 09:16:57
几个菜就喝成这样?俄公布6大停战条件:克拉斯诺夫只是无名小卒

几个菜就喝成这样?俄公布6大停战条件:克拉斯诺夫只是无名小卒

大风文字
2025-03-17 12:56:30
08年,大连乌蟒岛有多恐怖?科考队下崖底勘查,眼前一幕难以相信

08年,大连乌蟒岛有多恐怖?科考队下崖底勘查,眼前一幕难以相信

天梦见证
2025-03-15 16:46:12
媒体喊话谢广军:你女儿从哪里获得的隐私数据

媒体喊话谢广军:你女儿从哪里获得的隐私数据

映射生活的身影
2025-03-18 16:23:42
主力加仓!73只股票被机构大幅买入,含通信、医药、算力、机器人

主力加仓!73只股票被机构大幅买入,含通信、医药、算力、机器人

小波股事历程
2025-03-18 16:14:12
市场监管总局:不得排斥限制外地经营者参加本地政府采购

市场监管总局:不得排斥限制外地经营者参加本地政府采购

财联社
2025-03-18 16:18:07
江苏气象发布:冷空气来袭!最低-1℃

江苏气象发布:冷空气来袭!最低-1℃

环球网资讯
2025-03-18 08:30:10
悲催!网传入不敷出的东莞炒粉姐再次回归地摊,四部手机直播…

悲催!网传入不敷出的东莞炒粉姐再次回归地摊,四部手机直播…

明月杂谈
2025-03-17 07:38:16
今天全世界都在看的新闻 2025.3.18

今天全世界都在看的新闻 2025.3.18

凤凰卫视
2025-03-18 17:42:09
2025-03-18 20:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
10192文章数 176061关注度
往期回顾 全部

数码要闻

古尔曼剧透苹果 Apple TV 4K 机顶盒:10 月发布,Wi-Fi 升级

头条要闻

中国被传就李嘉诚出售海外港口开展调查 外交部回应

头条要闻

中国被传就李嘉诚出售海外港口开展调查 外交部回应

体育要闻

曾击败德约的亚洲一哥,现在咋样了?

娱乐要闻

胡杏儿老公撇下妻儿夜店嗨玩,与多名美女搂抱

财经要闻

不是机器人需要社保,是社保需要机器人

科技要闻

百度回应"开盒"事件:数据不是从百度泄露

汽车要闻

百万像素车语大灯首上车 享界S9增程版解读

态度原创

游戏
时尚
家居
艺术
公开课

《AC影》登上日本新宿大屏广告:忍者风暴席卷新宿!

时装周的 “脸蛋天才” 周也,为何一演戏就 “水土不服”?

家居要闻

都市花园 绿色极简风

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版