网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西2月26日报道,刚刚,DeepSeek开源周第三弹发布——DeepGEMM,一个支持密集和MoE GEMM的FP8 GEMM库,为V3/R1训练和推理提供动力。

  • ⚡ Hopper GPU上性能高达1350+ FP8 TFLOPS
  • ✅ 没有过多的依赖,像教程一样干净
  • ✅ 完全JIT即时编译(安装不用预编译)
  • ✅ 极简设计:核心逻辑约为300行– 在大多数矩阵大小上都优于专家调整的kernels
  • ✅ 支持密集(Dense)布局两种MoE布局


GitHub:https://github.com/deepseek-ai/DeepGEMM

眼尖的网友已经在项目贡献者名单中捕捉到了一个“Liang”,并在DeepSeek推文评论区发问:“是梁文锋(DeepSeek创始人)吗?”


DeepGEMM是一个专为干净、高效的FP8通用矩阵乘法(GEMM)而设计的库,具有细粒度扩展功能,如DeepSeek-V3中所述。它支持普通和混合专家(MoE)分组GEMM。该库用CUDA编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有kernel。

根据DeepSeek晒出的数据,普通GEMM(密集模型)中矩阵运算可提速多达2.7倍,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍

目前,DeepGEMM仅支持英伟达Hopper Tensor Core。为了解决不精确的FP8 Tensor Core累积问题,它采用了CUDA核心两级累积(提升)。

虽然它利用了CUTLASS和CuTe的一些概念,但它避免了对其模板或代数的过度依赖。相反,该库的设计非常简单,只有一个核心kernel函数,包含大约300行代码。这使其成为学习Hopper FP8矩阵乘法和优化技术的干净且易于访问的资源。

尽管DeepGEMM设计轻量,但其性能却与各种矩阵形状的专家调整库相当或超过后者。

DeepSeek在搭载NVCC 12.8的H800上测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。所有加速指标都是与其基于CUTLASS 3.6的内部精心优化的实现进行比较计算的。

DeepGEMM在有些形状上的表现并不是很好,因此DeepSeek欢迎开发者来优化PR。在普通GEMM(密集模型)中,矩阵运算最高提速达到2.7倍。


在分组GEMM(MoE模型)中,连续性布局、掩码布局下速度可提升1.1倍~1.2倍。


DeepGEMM一发布,DeepSeek的推文评论区好评如潮。有人为英伟达股票发愁:


有人热情夸赞新代码库和DeepSeek工程师:







DeepSeek分享了清晰的上手指南,需要Hopper架构GPU、必须支持sm_90a,要求是Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本。DeepSeek强烈推荐CUDA 12.8或更高的版本以获得最佳性能。



安装:


将deep_gemm导入Python项目,就可以开始享用了。

这个代码库仅包含GEMM kernel。它要求LHS扩展因子进行TMA对齐和转置,并且仅支持NT格式(非转置LHS和转置RHS)。对于转置或其他FP8转换操作,需单独实现或将它们融合到先前的kernel中。虽然该库提供了一些简单的PyTorch实用函数,但这些函数可能会导致性能下降。DeepSeek的主要重点是优化GEMM kernels本身。

除了kernel外,该代码库还提供了一些实用函数和环境变量。

DeepSeek用表示CUTLASS中排除的技术。按照CUTLASS设计,DeepGEMM中的内核经过了warp专门化,可实现重叠数据移动、张量核心MMA指令和CUDA核心提升。下图是说明此过程的简化图:

1、Hopper TMA功能

张量内存加速器(TMA)是Hopper架构引入的一项新硬件功能,旨在实现更快、异步的数据移动。具体来说,DeepSeek利用TMA来实现以下目的:

  • LHS、LHS扩展因子和RHS矩阵的TMA负载
  • TMA存储输出矩阵
  • TMA multicast组播(LHS矩阵独有)
  • TMA描述符预取

2、常见细节优化

  • 使用stmatrix PTX指令
  • 针对不同的warpgroups定制的寄存器计数控制
  • 尽可能重叠,例如重叠TMA存储和非TMA RHS扩展因子加载

3、统一优化的块调度器

  • 一个调度程序适用于所有非分组和分组内核
  • 光栅化以增强L2缓存重用

4、完全JIT设计

DeepGEMM采用完全即时(JIT)设计,安装时无需编译。所有内核均使用轻量级JIT实现在运行时进行编译。这种方法具有以下几个优点:

  • GEMM形状、块大小和管道阶段数被视为编译时常量
    • 保存寄存器
    • 编译器可能会做更多优化
  • 自动选择块大小、warpgroups数量、最佳流程阶段和TMA集群大小
    • 但如果没有自动调整,最佳方案就会被确定地选择
  • 全面展开MMA流程,为编译器提供更多优化机会
    • 对于小形状非常重要
    • 详情请参阅launch_k_iterations kernel文件

总体而言,JIT显著提高了小形状的性能,类似于Triton编译器的方法。

5、块大小不对齐

对于某些形状,与2的幂对齐的块大小可能会导致SM未得到充分利用。例如,对于M=256, N=7168,典型的块大小分配会BLOCK_M=128, BLOCK_N=128导致只有(256 / 128) * (7168 / 128) = 112132个SM得到利用。

为了解决这个问题,DeepSeek支持未对齐的块大小(如 112),使(256 / 128) * (7168 / 112) = 128SM能够在这种场景中工作。在细粒度扩展的同时实施此技术需要仔细优化,但最终可以提高性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
OpenAI宣布关闭Sora视频应用,终止与迪士尼10亿美元合作

OpenAI宣布关闭Sora视频应用,终止与迪士尼10亿美元合作

澎湃新闻
2026-03-25 09:38:08
先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

先被里瓦尔多全面逆袭,后遭齐达内强势碾压,全能战士时运不济

足篮大世界
2026-03-26 10:52:09
程潇不愧是“奶潇”

程潇不愧是“奶潇”

情感大头说说
2026-03-16 00:19:50
最高奖10万!虹口这波拆迁户,赚翻了!

最高奖10万!虹口这波拆迁户,赚翻了!

新浪财经
2026-03-26 13:07:51
德云社上海开业三天遭抵制,郭德纲押宝失误引担忧

德云社上海开业三天遭抵制,郭德纲押宝失误引担忧

史鹷的生活科普
2026-03-24 22:55:38
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
陈熠又输了,王艺迪女单夺冠直通伦敦?世乒赛国乒女队5人名单出炉!

陈熠又输了,王艺迪女单夺冠直通伦敦?世乒赛国乒女队5人名单出炉!

乒乓助手
2026-03-27 00:05:01
全球污染最严重30城市:印度上榜14座、巴基斯坦10座,那我国呢?

全球污染最严重30城市:印度上榜14座、巴基斯坦10座,那我国呢?

南生今世说
2026-03-26 10:37:09
“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

“老师最烦这种现眼包家长”,宝妈运动会穿紧身裙,被嘲故作娇弱

妍妍教育日记
2026-03-17 20:29:16
京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

京华城案一审宣判不只柯文哲,应晓薇被判15年半,沈庆京10年

海峡导报社
2026-03-26 15:29:03
AI冲击来得太快!加州大学系统面临史上最大挑战

AI冲击来得太快!加州大学系统面临史上最大挑战

留学咖啡馆
2026-03-25 08:33:07
身中29枪!台“百亿赌王”遛狗遇伏,在柬埔寨遭枪杀

身中29枪!台“百亿赌王”遛狗遇伏,在柬埔寨遭枪杀

元宝课堂
2026-03-25 20:40:59
2026新门澳今晚最新内幕特马精选一肖一码一特码资料三中三

2026新门澳今晚最新内幕特马精选一肖一码一特码资料三中三

寰域展览
2026-03-26 22:11:26
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

这才叫杀疯了!烂番茄100%动作神片,这不直接碾压《镖人》?

动物奇奇怪怪
2026-03-26 17:48:01
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

懂球帝
2026-03-26 15:47:08
马卡:马竞计划将阿尔瓦雷斯的年薪提高至1000万欧

马卡:马竞计划将阿尔瓦雷斯的年薪提高至1000万欧

懂球帝
2026-03-26 20:46:05
小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

爱范儿
2026-03-26 15:27:20
2026-03-27 02:12:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
数码
手机
房产
公开课

家居要闻

傍海而居 静观蝴蝶海

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版