网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源DeepGEMM矩阵乘法加速库,最快加速2.7倍

0
分享至

DeepSeek 开源活动来到了第三天,新项目如约而至。

此次开源库名为 DeepGEMM,GitHub 地址在文末。

DeepSeek 表示,这是一个支持密集和混合专家(MoE,Mixture of Experts)通用矩阵乘法(GEMM,General Matrix Multiplication)的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。

在 Hopper GPU 上最高可达 1350+FP8 TFLOPS。其他优点包括:

✅没有过多的依赖,像教程一样简洁

✅完全即时编译

✅核心逻辑约为 300 行,但在大多数矩阵大小上均优于专家调优的内核

✅支持密集布局和两种 MoE 布局

据 DeepSeek 介绍,DeepGEMM 是一个专门设计的、干净且高效的工具库,它的核心任务是进行一种叫做 GEMM 的数学运算,这是 AI 模型训练和运行中非常常见的一种计算。

DeepGEMM 的特别之处在于,它使用了一种叫做 FP8 的超高效、低精度计算方式,能让运算速度更快,同时占用更少的内存。这种方式在 DeepSeek-V3 中被提出,并且支持精细的缩放调整(fine-grained scaling),让计算更灵活。

除了普通的矩阵乘法,DeepGEMM 还能处理混合专家矩阵乘法。

目前,DeepGEMM 只支持英伟达 Hopper 架构的张量核心。张量核心是 GPU 里的一种特殊硬件,专门用来加速矩阵运算。不过,Hopper 的张量核心在做 FP8 计算时,会出现累加(accumulation,就是把结果一点点加起来的过程)不够精确的问题。

为了解决这个问题,DeepGEMM 采用了两级累加(two-level accumulation)的办法。它借助 CUDA 核心来做更精确的累加,确保结果不会因为硬件限制而出错。

DeepGEMM 借鉴了一些来自 CUTLASS 和 CuTe 的概念。这两个也是 NVIDIA 的高性能矩阵运算库。不过,DeepGEMM 没有完全依赖它们的复杂模板或数学系统。

相反,该库的设计非常简单,只有一个核心内核函数,包含大约 300 行代码。这使其成为学习 Hopper FP8 矩阵乘法和优化技术的、干净且易于访问的资源。

尽管 DeepGEMM 设计轻量,但它的性能足以媲美那些由专家精心调优的库,甚至在某些矩阵形状(matrix shapes,指矩阵的大小和结构)上表现得更好。

在性能方面,DeepSeek 在搭载 NVCC 12.8 的 H800 上测试了 DeepSeek-V3/R1 推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。

从性能对比表格上可见,DeepGEMM 最高能加速 2.7 倍。

所有加速指标都是与 DeepSeek 基于 CUTLASS 3.6 的内部精心优化的实现进行比较计算的。

鉴于 DeepGEMM 在某些矩阵形状上的表现并不是很好,DeepSeek 也邀请各路大神帮助优化这个开源库。

在优化方面,DeepSeek 实现了一些 CUTLASS 设计之外的优化。这些也是 DeepGEMM 最具创新的地方。

首先是完全 JIT 设计,安装时无需编译。所有内核均使用轻量级 JIT 实现在运行时进行编译。这种方法的优点包括:

  • GEMM 形状、块大小和管道阶段数被视为编译时常量
  • 自动选择块大小、warpgroups 数量、最佳管道阶段和 TMA 集群大小
  • 全面展开 MMA 管道,为编译器提供更多优化机会

其次是支持非对齐的块大小。在做矩阵乘法时,矩阵会被分成一个个小块(block)来计算。块的大小通常是固定的,比如 128×128(因为 128 是 2 的幂,计算机喜欢这种数字)。但有时候,矩阵的尺寸跟这些块大小不完全匹配,就会浪费计算资源。

举个例子:

假设矩阵的行数(M)是 256,列数(N)是 7168。如果用常见的块大小 BLOCK_M=128(行)和 BLOCK_N=128(列),那么行方向可以分成 256÷128=2 个块,列方向可以分成 7168÷128=56 个块。总共用到的 SM(GPU 的计算单元)是 2×56=112 个。

GPU 通常有更多 SM(比如 128 个),但这里只用了 112 个,剩下的就闲着了,没充分利用。

DeepGEMM 的办法是支持非对齐的块大小,也就是不一定非要是 2 的幂(比如 128),可以根据矩阵尺寸灵活调整。

还是上面的例子,如果把 BLOCK_N 改成 112(而不是 128,不是 2 的幂),行方向还是 256÷128=2 个块,列方向变成了 7168÷112=64 个块。总共用到的 SM 变成 2×64=128 个。

这下正好把 128 个 SM 全用上,没有浪费。

最后一点是,DeepSeek 通过观察和修改底层代码(SASS 汇编指令)实现了性能优化。

简单来说,DeepSeek 发现新版编译器(NVCC 12.3)里有些底层代码变了,性能变得更好。深入研究后,他们觉得这是因为线程调度(yield)的方式变了,能让 GPU 同时干更多工作。

于是,他们模仿这个变化,写了个脚本修改自己的代码(调整 FFMA 指令的某些位),让 MMA 指令(矩阵乘累加)和提升指令更高效地“重叠在一起执行”。

结果是 DeepGEMM 在某些场景下快了 10% 以上,特别适合那种需要灵活调整的 FP8 矩阵乘法。

最后,DeepSeek 致谢了 CUTLASS 项目,称其是 DeepGEMM 的灵感来源。

参考资料:

https://x.com/deepseek_ai/status/1894553164235640933

https://github.com/deepseek-ai/DeepGEMM

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚被勇士交易就爆发!16分钟砍两双,本赛季联盟最快,科尔太坑了

刚被勇士交易就爆发!16分钟砍两双,本赛季联盟最快,科尔太坑了

你的篮球频道
2026-02-09 10:22:41
工龄44年,60岁江苏退休,养老金还不错吧?

工龄44年,60岁江苏退休,养老金还不错吧?

乐天果果
2026-02-09 13:03:08
上海小南国多家门店突然停业,消费者年夜饭订金储值卡退款难,此前“白菜价”甩卖核心业务

上海小南国多家门店突然停业,消费者年夜饭订金储值卡退款难,此前“白菜价”甩卖核心业务

蓝鲸新闻
2026-02-08 13:26:04
2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

2013年,潘玮柏35万收购篮网0.067%股份,如今升值多少?

天光破云来
2026-01-17 03:39:55
有一说一,火箭破局关键就这一条:拆掉阿门+申京的空间死结!

有一说一,火箭破局关键就这一条:拆掉阿门+申京的空间死结!

田先生篮球
2026-02-08 17:58:16
辽宁退休法医买羊肉串吃,吃一口发觉不对劲,立马报警:不是羊肉

辽宁退休法医买羊肉串吃,吃一口发觉不对劲,立马报警:不是羊肉

第四思维
2025-08-22 09:24:58
海哈金喜住上300平大房子,家中摆着李嫣的画,还给李亚鹏补裤子

海哈金喜住上300平大房子,家中摆着李嫣的画,还给李亚鹏补裤子

疯说时尚
2026-02-09 16:01:04
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
强烈不满!香港特区政府再次召见

强烈不满!香港特区政府再次召见

环球时报国际
2026-02-09 00:16:05
换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

换心风波仅1个月,李连杰再传噩耗,沦落到如今的下场怪不了别人

乡野小珥
2026-02-05 15:03:34
奖金刚揣兜里还没捂热乎呢,王曼昱转头就给捐出去了。

奖金刚揣兜里还没捂热乎呢,王曼昱转头就给捐出去了。

小光侃娱乐
2025-12-22 16:50:06
终于认栽!特朗普签紧急总统令,英媒认为:他再嚣张,就访不了华

终于认栽!特朗普签紧急总统令,英媒认为:他再嚣张,就访不了华

头条爆料007
2026-02-09 12:28:43
虽然知道日本被中国全面禁运制裁的很惨,但没想到这么惨!

虽然知道日本被中国全面禁运制裁的很惨,但没想到这么惨!

大又元
2026-02-08 18:16:55
一旦中日爆发战争,日本结局会是如何?美俄的看法罕见一致!

一旦中日爆发战争,日本结局会是如何?美俄的看法罕见一致!

智慧天气通
2026-02-09 07:22:32
惨遭横扫,无缘卫冕!国羽男团0-3不敌日本,亚洲羽坛格局生变!

惨遭横扫,无缘卫冕!国羽男团0-3不敌日本,亚洲羽坛格局生变!

田先生篮球
2026-02-08 23:04:19
曼城2-1逆天改命!瓜帅豪赌1人成就89年神迹,保留争冠希望!

曼城2-1逆天改命!瓜帅豪赌1人成就89年神迹,保留争冠希望!

落夜足球
2026-02-09 12:44:54
炸锅了!春节前夜茅台价格“大崩盘”,一天跌出一台红米K70

炸锅了!春节前夜茅台价格“大崩盘”,一天跌出一台红米K70

小鬼头体育
2026-02-09 03:52:12
轰29+5+9!请把球给哈登,米切尔赛后摊牌,他已经憋了太久

轰29+5+9!请把球给哈登,米切尔赛后摊牌,他已经憋了太久

巴叔GO聊体育
2026-02-09 16:09:37
上海消保委实测:你家待客的一次性杯子可能“有毒”,这款致癌物超标3倍!

上海消保委实测:你家待客的一次性杯子可能“有毒”,这款致癌物超标3倍!

上观新闻
2026-02-09 16:42:32
南越王遗骨只剩一堆土,他留下的“蓝玻璃”,2000多年却光亮如新

南越王遗骨只剩一堆土,他留下的“蓝玻璃”,2000多年却光亮如新

收藏大视界
2026-01-20 16:43:43
2026-02-09 18:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16242文章数 514598关注度
往期回顾 全部

科技要闻

马斯克终于想通了:先去月球“刷经验”

头条要闻

女子1个月结2次婚周旋在俩"老公"之间 孩子是第3人的

头条要闻

女子1个月结2次婚周旋在俩"老公"之间 孩子是第3人的

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

李亚鹏暂停直播:将投入嫣然医院工作

财经要闻

文玩假拍骗局调查:3500元瓷瓶估值300万

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

家居
健康
教育
数码
公开课

家居要闻

山院焕新 雅聚悦亲朋

转头就晕的耳石症,能开车上班吗?

教育要闻

别只等3月内卷,抓住“春招提前批”的黄金窗口!

数码要闻

小米手表5开启新版本内测招募,修复手势失灵、闹钟偶发不响等

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版