网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源第三弹!极致榨干GPU,FP8训推秘籍公开

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西2月26日报道,刚刚,DeepSeek开源周第三弹发布——DeepGEMM,一个支持密集和MoE GEMM的FP8 GEMM库,为V3/R1训练和推理提供动力。

  • ⚡ Hopper GPU上性能高达1350+ FP8 TFLOPS
  • ✅ 没有过多的依赖,像教程一样干净
  • ✅ 完全JIT即时编译(安装不用预编译)
  • ✅ 极简设计:核心逻辑约为300行– 在大多数矩阵大小上都优于专家调整的kernels
  • ✅ 支持密集(Dense)布局两种MoE布局


GitHub:https://github.com/deepseek-ai/DeepGEMM

眼尖的网友已经在项目贡献者名单中捕捉到了一个“Liang”,并在DeepSeek推文评论区发问:“是梁文锋(DeepSeek创始人)吗?”


DeepGEMM是一个专为干净、高效的FP8通用矩阵乘法(GEMM)而设计的库,具有细粒度扩展功能,如DeepSeek-V3中所述。它支持普通和混合专家(MoE)分组GEMM。该库用CUDA编写,在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有kernel。

根据DeepSeek晒出的数据,普通GEMM(密集模型)中矩阵运算可提速多达2.7倍,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍

目前,DeepGEMM仅支持英伟达Hopper Tensor Core。为了解决不精确的FP8 Tensor Core累积问题,它采用了CUDA核心两级累积(提升)。

虽然它利用了CUTLASS和CuTe的一些概念,但它避免了对其模板或代数的过度依赖。相反,该库的设计非常简单,只有一个核心kernel函数,包含大约300行代码。这使其成为学习Hopper FP8矩阵乘法和优化技术的干净且易于访问的资源。

尽管DeepGEMM设计轻量,但其性能却与各种矩阵形状的专家调整库相当或超过后者。

DeepSeek在搭载NVCC 12.8的H800上测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行性)。所有加速指标都是与其基于CUTLASS 3.6的内部精心优化的实现进行比较计算的。

DeepGEMM在有些形状上的表现并不是很好,因此DeepSeek欢迎开发者来优化PR。在普通GEMM(密集模型)中,矩阵运算最高提速达到2.7倍。


在分组GEMM(MoE模型)中,连续性布局、掩码布局下速度可提升1.1倍~1.2倍。


DeepGEMM一发布,DeepSeek的推文评论区好评如潮。有人为英伟达股票发愁:


有人热情夸赞新代码库和DeepSeek工程师:







DeepSeek分享了清晰的上手指南,需要Hopper架构GPU、必须支持sm_90a,要求是Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本。DeepSeek强烈推荐CUDA 12.8或更高的版本以获得最佳性能。



安装:


将deep_gemm导入Python项目,就可以开始享用了。

这个代码库仅包含GEMM kernel。它要求LHS扩展因子进行TMA对齐和转置,并且仅支持NT格式(非转置LHS和转置RHS)。对于转置或其他FP8转换操作,需单独实现或将它们融合到先前的kernel中。虽然该库提供了一些简单的PyTorch实用函数,但这些函数可能会导致性能下降。DeepSeek的主要重点是优化GEMM kernels本身。

除了kernel外,该代码库还提供了一些实用函数和环境变量。

DeepSeek用表示CUTLASS中排除的技术。按照CUTLASS设计,DeepGEMM中的内核经过了warp专门化,可实现重叠数据移动、张量核心MMA指令和CUDA核心提升。下图是说明此过程的简化图:

1、Hopper TMA功能

张量内存加速器(TMA)是Hopper架构引入的一项新硬件功能,旨在实现更快、异步的数据移动。具体来说,DeepSeek利用TMA来实现以下目的:

  • LHS、LHS扩展因子和RHS矩阵的TMA负载
  • TMA存储输出矩阵
  • TMA multicast组播(LHS矩阵独有)
  • TMA描述符预取

2、常见细节优化

  • 使用stmatrix PTX指令
  • 针对不同的warpgroups定制的寄存器计数控制
  • 尽可能重叠,例如重叠TMA存储和非TMA RHS扩展因子加载

3、统一优化的块调度器

  • 一个调度程序适用于所有非分组和分组内核
  • 光栅化以增强L2缓存重用

4、完全JIT设计

DeepGEMM采用完全即时(JIT)设计,安装时无需编译。所有内核均使用轻量级JIT实现在运行时进行编译。这种方法具有以下几个优点:

  • GEMM形状、块大小和管道阶段数被视为编译时常量
    • 保存寄存器
    • 编译器可能会做更多优化
  • 自动选择块大小、warpgroups数量、最佳流程阶段和TMA集群大小
    • 但如果没有自动调整,最佳方案就会被确定地选择
  • 全面展开MMA流程,为编译器提供更多优化机会
    • 对于小形状非常重要
    • 详情请参阅launch_k_iterations kernel文件

总体而言,JIT显著提高了小形状的性能,类似于Triton编译器的方法。

5、块大小不对齐

对于某些形状,与2的幂对齐的块大小可能会导致SM未得到充分利用。例如,对于M=256, N=7168,典型的块大小分配会BLOCK_M=128, BLOCK_N=128导致只有(256 / 128) * (7168 / 128) = 112132个SM得到利用。

为了解决这个问题,DeepSeek支持未对齐的块大小(如 112),使(256 / 128) * (7168 / 112) = 128SM能够在这种场景中工作。在细粒度扩展的同时实施此技术需要仔细优化,但最终可以提高性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
什么是干休所,要达到什么军衔的军官,才能进干休所?

什么是干休所,要达到什么军衔的军官,才能进干休所?

触摸史迹
2025-12-21 19:31:28
让人眼红!苏州一公司发出187772元年终奖,员工称没复杂绩效考核

让人眼红!苏州一公司发出187772元年终奖,员工称没复杂绩效考核

火山詩话
2026-02-14 14:52:16
今年春节不对劲,还剩两天,社会上却出现反常现象,或要大变样!

今年春节不对劲,还剩两天,社会上却出现反常现象,或要大变样!

记录生活日常阿蜴
2026-02-14 09:17:39
这是真有钱!沙特撤销前利物浦9号联赛资格,2000+万薪资几乎白给

这是真有钱!沙特撤销前利物浦9号联赛资格,2000+万薪资几乎白给

里芃芃体育
2026-02-14 10:30:12
美国财政部长:将接受有关欺诈、洗钱举报,举报者可获罚金10%-30%作为奖励

美国财政部长:将接受有关欺诈、洗钱举报,举报者可获罚金10%-30%作为奖励

知识圈
2026-02-14 22:37:04
炸锅了!春节前夜茅台价格“大崩盘”,一天跌出一台红米K70

炸锅了!春节前夜茅台价格“大崩盘”,一天跌出一台红米K70

椰青美食分享
2026-02-13 18:27:41
火药味拉满!泽连斯基慕尼黑公开嘲讽欧尔班,言辞尖锐引爆全场

火药味拉满!泽连斯基慕尼黑公开嘲讽欧尔班,言辞尖锐引爆全场

老马拉车莫少装
2026-02-14 21:39:16
英超3球2助攻要价9500万镑,英媒曝利物浦将签戈登,纽卡再售核心

英超3球2助攻要价9500万镑,英媒曝利物浦将签戈登,纽卡再售核心

夏侯看英超
2026-02-15 02:05:24
女儿结婚办喜宴,礼金最高限额500元,当事人:当天来了60多桌客,礼钱超过500元的都拒收了

女儿结婚办喜宴,礼金最高限额500元,当事人:当天来了60多桌客,礼钱超过500元的都拒收了

极目新闻
2026-02-14 23:22:42
福州街头发现一流浪老人,身份成谜,方言无人懂!程序员“破译”后泪目

福州街头发现一流浪老人,身份成谜,方言无人懂!程序员“破译”后泪目

环球网资讯
2026-02-14 15:00:13
太突然!资本大佬李兆廷,被公安拘留!他是石家庄前首富,身家曾超200亿元,此前因欺诈发行等被罚5.9亿元并终身市场禁入

太突然!资本大佬李兆廷,被公安拘留!他是石家庄前首富,身家曾超200亿元,此前因欺诈发行等被罚5.9亿元并终身市场禁入

扬子晚报
2026-02-14 07:33:59
跟王毅谈了一个小时后,鲁比奥做出决定,取消和欧盟领导人的会晤

跟王毅谈了一个小时后,鲁比奥做出决定,取消和欧盟领导人的会晤

东极妙严
2026-02-14 18:04:06
2026香港富豪榜出炉:霍家排不上号,刘銮雄仅第7,李嘉诚不意外

2026香港富豪榜出炉:霍家排不上号,刘銮雄仅第7,李嘉诚不意外

离离言几许
2026-02-14 11:02:11
山东一股民2.3元买入*ST 精伦,12个跌停补仓,又来2个跌停

山东一股民2.3元买入*ST 精伦,12个跌停补仓,又来2个跌停

财经智多星
2026-02-14 21:11:23
超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

爆角追踪
2026-02-14 22:27:44
泽连斯基:冲突可以结束,但首先要结束得体面!特朗普:俄方想达成协议,乌总统必须行动起来!俄美乌下周再谈,马克龙:欧盟国家理应上桌

泽连斯基:冲突可以结束,但首先要结束得体面!特朗普:俄方想达成协议,乌总统必须行动起来!俄美乌下周再谈,马克龙:欧盟国家理应上桌

每日经济新闻
2026-02-15 00:34:13
15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

墨兰史书
2026-02-09 23:08:35
现在国内买丰田赛那全世界最便宜,得感谢长城魏建军

现在国内买丰田赛那全世界最便宜,得感谢长城魏建军

源Auto
2026-02-14 18:50:08
现场直击慕安会 专家解读:王毅演讲极具针对性

现场直击慕安会 专家解读:王毅演讲极具针对性

看看新闻Knews
2026-02-14 19:56:04
还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

家居设计师苏哥
2026-02-13 10:57:27
2026-02-15 02:24:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11234文章数 116972关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

头条要闻

泽连斯基:冲突可以结束 但首先要结束得体面

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

春晚第五次联排路透 明星积极饭撒互动

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

本地
游戏
教育
时尚
亲子

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

粉丝怒了!育碧传奇老游戏重制删原版配乐遭吐槽

教育要闻

学校又被投诉了!

推广中奖名单-更新至2026年2月3日推广

亲子要闻

双胞胎家庭得有多细节? 网友: 家里只吃水煮蛋,因为煎蛋不一样

无障碍浏览 进入关怀版