网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西2月26日报道,刚刚,DeepSeek开源周第三弹发布——DeepGEMM,一个支持密集和MoE GEMM的FP8 GEMM库,为V3/R1训练和推理提供动力。

  • ⚡ Hopper GPU上性能高达1350+ FP8 TFLOPS
  • ✅ 没有过多的依赖,像教程一样干净
  • ✅ 完全JIT即时编译(安装不用预编译)
  • ✅ 极简设计:核心逻辑约为300行– 在大多数矩阵大小上都优于专家调整的kernels
  • ✅ 支持密集(Dense)布局两种MoE布局


GitHub:https://github.com/deepseek-ai/DeepGEMM

眼尖的网友已经在项目贡献者名单中捕捉到了一个“Liang”,并在DeepSeek推文评论区发问:“是梁文锋(DeepSeek创始人)吗?”


DeepGEMM是一个专为干净、高效的FP8通用矩阵乘法(GEMM)而设计的库,具有细粒度扩展功能,如DeepSeek-V3中所述。它支持普通和混合专家(MoE)分组GEMM。该库用CUDA编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有kernel。

根据DeepSeek晒出的数据,普通GEMM(密集模型)中矩阵运算可提速多达2.7倍,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍

目前,DeepGEMM仅支持英伟达Hopper Tensor Core。为了解决不精确的FP8 Tensor Core累积问题,它采用了CUDA核心两级累积(提升)。

虽然它利用了CUTLASS和CuTe的一些概念,但它避免了对其模板或代数的过度依赖。相反,该库的设计非常简单,只有一个核心kernel函数,包含大约300行代码。这使其成为学习Hopper FP8矩阵乘法和优化技术的干净且易于访问的资源。

尽管DeepGEMM设计轻量,但其性能却与各种矩阵形状的专家调整库相当或超过后者。

DeepSeek在搭载NVCC 12.8的H800上测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。所有加速指标都是与其基于CUTLASS 3.6的内部精心优化的实现进行比较计算的。

DeepGEMM在有些形状上的表现并不是很好,因此DeepSeek欢迎开发者来优化PR。在普通GEMM(密集模型)中,矩阵运算最高提速达到2.7倍。


在分组GEMM(MoE模型)中,连续性布局、掩码布局下速度可提升1.1倍~1.2倍。


DeepGEMM一发布,DeepSeek的推文评论区好评如潮。有人为英伟达股票发愁:


有人热情夸赞新代码库和DeepSeek工程师:







DeepSeek分享了清晰的上手指南,需要Hopper架构GPU、必须支持sm_90a,要求是Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本。DeepSeek强烈推荐CUDA 12.8或更高的版本以获得最佳性能。



安装:


将deep_gemm导入Python项目,就可以开始享用了。

这个代码库仅包含GEMM kernel。它要求LHS扩展因子进行TMA对齐和转置,并且仅支持NT格式(非转置LHS和转置RHS)。对于转置或其他FP8转换操作,需单独实现或将它们融合到先前的kernel中。虽然该库提供了一些简单的PyTorch实用函数,但这些函数可能会导致性能下降。DeepSeek的主要重点是优化GEMM kernels本身。

除了kernel外,该代码库还提供了一些实用函数和环境变量。

DeepSeek用表示CUTLASS中排除的技术。按照CUTLASS设计,DeepGEMM中的内核经过了warp专门化,可实现重叠数据移动、张量核心MMA指令和CUDA核心提升。下图是说明此过程的简化图:

1、Hopper TMA功能

张量内存加速器(TMA)是Hopper架构引入的一项新硬件功能,旨在实现更快、异步的数据移动。具体来说,DeepSeek利用TMA来实现以下目的:

  • LHS、LHS扩展因子和RHS矩阵的TMA负载
  • TMA存储输出矩阵
  • TMA multicast组播(LHS矩阵独有)
  • TMA描述符预取

2、常见细节优化

  • 使用stmatrix PTX指令
  • 针对不同的warpgroups定制的寄存器计数控制
  • 尽可能重叠,例如重叠TMA存储和非TMA RHS扩展因子加载

3、统一优化的块调度器

  • 一个调度程序适用于所有非分组和分组内核
  • 光栅化以增强L2缓存重用

4、完全JIT设计

DeepGEMM采用完全即时(JIT)设计,安装时无需编译。所有内核均使用轻量级JIT实现在运行时进行编译。这种方法具有以下几个优点:

  • GEMM形状、块大小和管道阶段数被视为编译时常量
    • 保存寄存器
    • 编译器可能会做更多优化
  • 自动选择块大小、warpgroups数量、最佳流程阶段和TMA集群大小
    • 但如果没有自动调整,最佳方案就会被确定地选择
  • 全面展开MMA流程,为编译器提供更多优化机会
    • 对于小形状非常重要
    • 详情请参阅launch_k_iterations kernel文件

总体而言,JIT显著提高了小形状的性能,类似于Triton编译器的方法。

5、块大小不对齐

对于某些形状,与2的幂对齐的块大小可能会导致SM未得到充分利用。例如,对于M=256, N=7168,典型的块大小分配会BLOCK_M=128, BLOCK_N=128导致只有(256 / 128) * (7168 / 128) = 112132个SM得到利用。

为了解决这个问题,DeepSeek支持未对齐的块大小(如 112),使(256 / 128) * (7168 / 112) = 128SM能够在这种场景中工作。在细粒度扩展的同时实施此技术需要仔细优化,但最终可以提高性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
挥泪斩马谡!皇马同意,亿元先生转投曼联!1.8亿“顶星”空降

挥泪斩马谡!皇马同意,亿元先生转投曼联!1.8亿“顶星”空降

头狼追球
2026-07-04 17:34:56
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
世界杯16强格局:欧洲+美洲独占14席,亚洲球队全军覆没

世界杯16强格局:欧洲+美洲独占14席,亚洲球队全军覆没

橙汁的味道123
2026-07-04 11:32:26
世界杯16强最新夺冠赔率:法国断层领跑!葡萄牙仅第5 巴拉圭垫底

世界杯16强最新夺冠赔率:法国断层领跑!葡萄牙仅第5 巴拉圭垫底

我爱英超
2026-07-04 12:33:41
娃哈哈冰红茶测出甜蜜素遭美国扣押,该添加剂被当地禁用

娃哈哈冰红茶测出甜蜜素遭美国扣押,该添加剂被当地禁用

映射生活的身影
2026-07-03 19:55:02
崩了!欧美订单取消!关闭4座工厂!10万人失业!

崩了!欧美订单取消!关闭4座工厂!10万人失业!

财经要参
2026-07-04 17:09:25
起猛了!岳云鹏再次登上苹果官网,网友炸了

起猛了!岳云鹏再次登上苹果官网,网友炸了

新浪财经
2026-07-04 08:43:13
利马:几乎所有球员都抽筋了,但没人放弃也没人主动要求下场

利马:几乎所有球员都抽筋了,但没人放弃也没人主动要求下场

懂球帝
2026-07-04 18:28:46
0时0分准时生效,中国领空收费,日本财政恐爆雷,高市开始自救

0时0分准时生效,中国领空收费,日本财政恐爆雷,高市开始自救

小兰聊历史
2026-07-04 10:22:32
牺牲太大!王亚平曾谈太空之旅的辛酸,落地后身体弱连走路都困难

牺牲太大!王亚平曾谈太空之旅的辛酸,落地后身体弱连走路都困难

无处遁形
2026-06-04 23:20:54
LV曾起诉南京一鸭血粉丝店商标侵权,店家最新回应:案件判赔11万元,但侵权与我们无关

LV曾起诉南京一鸭血粉丝店商标侵权,店家最新回应:案件判赔11万元,但侵权与我们无关

扬子晚报
2026-07-04 20:01:47
“最后悔学电气工程及其自动化!”大三女生自述火了,理由太真实

“最后悔学电气工程及其自动化!”大三女生自述火了,理由太真实

林林先生
2026-07-04 09:25:07
伊朗葬礼暗藏杀机,中方出席不止吊唁,还能镇住美以斩首阴谋?

伊朗葬礼暗藏杀机,中方出席不止吊唁,还能镇住美以斩首阴谋?

阿芒娱乐说
2026-07-04 15:23:49
哈梅内伊葬礼:主角最高精神领袖穆杰塔巴以纸板人身份出席

哈梅内伊葬礼:主角最高精神领袖穆杰塔巴以纸板人身份出席

微评社
2026-07-04 15:21:06
世界杯16强全出炉!欧洲7队+南美4强 1/8决赛对阵确定:3场焦点战

世界杯16强全出炉!欧洲7队+南美4强 1/8决赛对阵确定:3场焦点战

我爱英超
2026-07-04 11:34:18
宋喆现状:隐居县城,双眼无神生活落魄,前妻杨慧早已经过新生活

宋喆现状:隐居县城,双眼无神生活落魄,前妻杨慧早已经过新生活

草莓信箱
2026-07-03 10:46:38
又来,冯德莱恩给中方“下最后通牒”

又来,冯德莱恩给中方“下最后通牒”

观察者网
2026-07-04 13:24:18
别硬扛高温!1.5匹空调开24小时,电费真相让你大跌眼镜

别硬扛高温!1.5匹空调开24小时,电费真相让你大跌眼镜

小兔子发现大事情
2026-07-04 16:22:21
惨败日本后!男篮作出重大决定,郭士强被迫辞职,杜锋接任新帅?

惨败日本后!男篮作出重大决定,郭士强被迫辞职,杜锋接任新帅?

绯雨儿
2026-07-04 11:55:40
粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

都市快报橙柿互动
2026-07-04 13:23:28
2026-07-04 20:51:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12176文章数 117119关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

数百人在开放水域体验桨板 专家:再不治理迟早出大事

头条要闻

数百人在开放水域体验桨板 专家:再不治理迟早出大事

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
时尚
艺术
手机
数码

家居要闻

传奇筑 日常诗

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

艺术要闻

风格独特,美国具象画家Alan Feltus

手机要闻

W26排名分析:vivo、OPPO位置互换,华为、苹果霸占前二

数码要闻

曜越推出Dr. Power III Pro电源检测仪可检测显卡供电接口

无障碍浏览 进入关怀版