网易首页 > 网易号 > 正文 申请入驻

清华团队突破大模型算力瓶颈:4090单卡实现DeepSeek-R1满血运行

0
分享至

IT之家 2 月 15 日消息,现阶段用户使用 DeepSeek-R1 的主要途径无外乎云服务及“本地部署”,但官网服务器频频宕机、个人部署多为参数量缩水 90% 的蒸馏版。因此,一般用户要想在普通硬件上运行起真正的 DeepSeek-R1 满血版可以说很难很难,而租赁服务器的成本就算是开发者也倍感压力。

清华大学 KVCache.AI 团队与趋境科技联合发布 KTransformers(IT之家注:发音为 Quick Transformers)开源项目本周宣布迎来重大更新,成功破解千亿级大模型本地部署难题,突破标志着大模型推理从“云端垄断”走向“普惠化”的重要一步。

如图所示,KTransformers团队于 2 月 10 日成功在 24 GB 显存 + 382GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版,速度提高 3~28 倍。

今日,KTransformers 宣布支持更长的上下文(24GB 单卡支持 4~8K),并实现 15% 加速(每秒最多 16 个 Tokens)。

据官方介绍,KTransformers 是一个灵活的、以 Python 为中心的框架,其设计核心是可扩展性、通过用一行代码实现和注入一个优化模块,用户就能访问兼容 Transformers 的界面、符合 OpenAI 和 Ollama 标准的 RESTful API,甚至是类似 ChatGPT 的简化网页用户界面。

该技术首次支持在单张 24GB 显存的消费级显卡(如 RTX 4090D)上运行 DeepSeek-R1 / V3 的 671B 参数满血版,预处理速度最高达 286 tokens/s,推理生成速度达 14 tokens/s,彻底改写了 AI 大模型依赖昂贵云服务器的历史格局。

DeepSeek-R1 基于混合专家(MoE)架构,其核心是将任务分配给不同专家模块,每次推理仅激活部分参数。团队创新性地将非共享稀疏矩阵卸载至 CPU 内存处理,结合高速算子优化,显存需求从传统 8 卡 A100 的 320GB 压缩至单卡 24GB。

借助于 KTransformers,普通用户只需24G 显存即可在本地运行 DeepSeek-R1、V3 的 671B 满血版。预处理速度最高达到 286 tokens/s,推理生成速度最高能达到 14 tokens/s

针对 MoE 架构的特点,KTransformers 团队通过 Marlin GPU 算子实现量化矩阵计算,效率较传统方案提升 3.87 倍;再加上 CPU 端突破,采用 llamafile 实现多线程并行,结合英特尔 AMX 指令集优化,CPU 预填充速度较 llama.cpp 提升 28 倍,长序列任务响应时间从分钟级缩短至秒级。

此外,他们通过减少 CPU / GPU 通信断点,实现单次解码仅需一次完整的 CUDA Graph 调用,生成速度优化至 14 tokens/s,功耗仅 80W,整机成本约 2 万元,仅为传统 8 卡 A100 方案的 2%。

经过开发者实测,使用 RTX 3090 显卡和 200GB 内存配置,结合 Unsloth 优化,Q2_K_XL 模型推理速度达 9.1 tokens/s,实现千亿级模型的“家庭化”运行。

必须要说明的是,KTransformers 并非一个单纯的推理框架,也不限于 DeepSeek 模型,它可以兼容各式各样的 MoE 模型和算子,能够集成各种各样的算子,做各种组合的测试,同时还提供了 Windows、Linux 的平台的支持,感兴趣的用户可自行尝试。

当然,要想使用 KTransformers也有一点硬性条件,而不是说只要有一张 RTX 4090 就能无障碍运行。先决条件要保证:

  • CPU:英特尔至强 Gold 6454S 1T DRAM(2 个 NUMA 节点)

  • GPU:RTX 4090D(24G VRAM)

  • 内存:标准 DDR5-4800 服务器 DRAM(1 TB)

  • CUDA 12.1 或更高版本

RTX 4090D + 双路 Xeon Gold 实测数据:

任务类型

KTrans V0.3 (6 位专家)

KTrans V0.2 (8 位专家)

llama.cpp (FP16)

8K 上下文预填充

207.20 tokens/s

195.62 tokens/s

7.43 tokens/s

短文本解码

13.69 tokens/s

8.73 tokens/s

4.51 tokens/s

长序列吞吐量

19.8GB / 秒

15.2GB / 秒

4.8GB / 秒

对于 Linux-x86_64 系统,您需要 gcc、g++ 和 cmake 使用以下命令进行安装:

sudoapt-getupdatesudoapt-getinstallgccg++cmakeninja-build

这里强烈建议使用 Conda 创建一个包含 Python 3.11 的虚拟环境。使用以下命令创建并激活环境:

condacreate--namektransformerspython=3.11condaactivatektransformers#您可能需要运行‘condainit’

安装 PyTorch、packaging、ninja、cpufeature 和 numpy:

pipinstalltorchpackagingninjacpufeaturenumpy

安装 KTransformers

pipinstallktransformers--no-build-isolation

快速使用

python-mktransformers.local_chat--model_path--gguf_path--prompt_file--cpu_infer65--max_new_tokens1000
参数解释: model_path:模型路径。gguf_path: gguf 文件路径。 prompt_file:包含提示文本的文件路径。 cpu_infer 65:指定用于推理的 CPU 核心数。如果使用双路 CPU,因此设置为 65。 max_new_tokens 1000:设置生成 token 的最大数量。

参考资料

  • GitHub 地址:https://github.com/ kvcache-ai / ktransformers

  • 本地化671B DeepSeek-Coder-V3 / R1 教程:https://github.com/ kvcache-ai / ktransformers / blob / main / doc / en / DeepseekR1_V3_tutorial.md

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和父母同住后我才明白:再孝顺,也不能对年过70的父母做这3件事

和父母同住后我才明白:再孝顺,也不能对年过70的父母做这3件事

小马达情感故事
2025-12-21 17:55:03
绝了!C罗小蝌蚪碰卡戴珊金臀,史诗级跨界竟玩出生命哲学

绝了!C罗小蝌蚪碰卡戴珊金臀,史诗级跨界竟玩出生命哲学

罗氏八卦
2025-12-20 09:02:00
55岁钟丽缇中年发福太多!胖到180斤 胸大腚圆 满身肥肉穿吊带

55岁钟丽缇中年发福太多!胖到180斤 胸大腚圆 满身肥肉穿吊带

广西阿妹香香
2025-12-20 15:58:58
早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

诗意世界
2025-08-21 13:13:50
原来他早已离世,上影厂演员 享国家特殊津贴,却长期饮酒患癌3年

原来他早已离世,上影厂演员 享国家特殊津贴,却长期饮酒患癌3年

白面书誏
2025-12-19 13:09:07
苏格兰赛落幕!诞生5个赢家,及3个输家!韦克林+常冰玉位列其中

苏格兰赛落幕!诞生5个赢家,及3个输家!韦克林+常冰玉位列其中

球场没跑道
2025-12-22 04:43:54
“中国便利店之王”闷声发财,年入558亿,许多人不知道他的名字

“中国便利店之王”闷声发财,年入558亿,许多人不知道他的名字

毒sir财经
2025-11-24 16:17:01
丰田突然官宣:12.98万起,新车正式上市!

丰田突然官宣:12.98万起,新车正式上市!

高科技爱好者
2025-12-21 22:45:24
郭艾伦赛季首次缺席!广州送江苏4连败 徐昕27+14+4帽大爆发

郭艾伦赛季首次缺席!广州送江苏4连败 徐昕27+14+4帽大爆发

醉卧浮生
2025-12-21 21:32:25
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
用了几十年的聚酯纤维,是怎么在互联网塌房的?

用了几十年的聚酯纤维,是怎么在互联网塌房的?

差评XPIN
2025-12-08 00:06:03
继父、同母异父弟弟?坠亡女教师身世曝光,这才是她走绝路的真相

继父、同母异父弟弟?坠亡女教师身世曝光,这才是她走绝路的真相

知法而形
2025-12-19 23:33:57
“兔子警官”李语蔚入围!因执勤视频在网络上走红,可以熟练驾驶500斤的警用摩托车

“兔子警官”李语蔚入围!因执勤视频在网络上走红,可以熟练驾驶500斤的警用摩托车

环球网资讯
2025-12-21 09:27:21
中国烟花爆竹协会:是对群众节日文化需求的回应

中国烟花爆竹协会:是对群众节日文化需求的回应

观察者网
2025-12-21 11:34:31
我去了趟丰田4s店,中午留在那吃顿便饭,发现燃油车末路真到来了

我去了趟丰田4s店,中午留在那吃顿便饭,发现燃油车末路真到来了

李子橱
2025-12-21 14:41:24
又让张召忠说中了?东拼西凑550亿建的2艘航母,如今彻底成为累赘

又让张召忠说中了?东拼西凑550亿建的2艘航母,如今彻底成为累赘

天天热点见闻
2025-12-22 05:49:42
技能培训,铺就职业进阶之路(迈向“十五五”的民生图景)

技能培训,铺就职业进阶之路(迈向“十五五”的民生图景)

人民网
2025-12-21 09:04:22
78岁林子祥与64岁叶倩文武汉开唱,夫妻俩自嘲“加在一起142岁”却连唱带跳3个小时,全程未破音

78岁林子祥与64岁叶倩文武汉开唱,夫妻俩自嘲“加在一起142岁”却连唱带跳3个小时,全程未破音

极目新闻
2025-12-21 10:49:20
“宁愿她没考上大学”,父亲控诉211女儿的堕落历程,看清了现实

“宁愿她没考上大学”,父亲控诉211女儿的堕落历程,看清了现实

妍妍教育日记
2025-12-15 18:02:43
征信,已被彻底玩坏了

征信,已被彻底玩坏了

难得君
2025-06-27 12:56:14
2025-12-22 10:27:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
320783文章数 606836关注度
往期回顾 全部

科技要闻

7490亿美元!马斯克又把财富天花板捅破了

头条要闻

媒体:日本军机连续2天被照射 污蔑中国先进武器干的

头条要闻

媒体:日本军机连续2天被照射 污蔑中国先进武器干的

体育要闻

勇士火箭赢球:王牌之外的答案?

娱乐要闻

星光大赏太尴尬!抢话挡镜头,场地还小

财经要闻

人民币快涨到7了!

汽车要闻

-30℃,标致508L&凡尔赛C5 X冰雪"大考"

态度原创

游戏
亲子
数码
手机
公开课

《CodeViolet》厂商被网暴 搞双标不登PC让人不满

亲子要闻

孩子降生后,夫妻性生活如何“破冰”?

数码要闻

TCL海外推出Note A1平板,类纸屏与多功能兼具

手机要闻

卢伟冰官宣小米17 Ultra“明天见”,新机已定档本周发布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版