网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2五月前问世

0
分享至

机器之心报道

机器之心编辑部

适用于常规 AI 模型和 MoE。

DeepSeek 的开源周已经进行到了第三天(前两天报道见文末「相关阅读」)。今天开源的项目名叫 DeepGEMM,是一款支持密集型和专家混合(MoE)GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供了支持,在 Hopper GPU 上可以达到 1350+ FP8 TFLOPS 的计算性能。

具体来说,DeepGEMM 是一个旨在实现简洁高效的 FP8 通用矩阵乘法(GEMM)的库,它采用了 DeepSeek-V3 中提出的细粒度 scaling 技术。该库支持普通 GEMM 以及专家混合(MoE)分组 GEMM。该库采用 CUDA 编写,在安装过程中无需编译,而是通过一个轻量级的 Just-In-Time(JIT)模块在运行时编译所有内核。

目前,DeepGEMM 仅支持英伟达 Hopper 张量核心。为了解决 FP8 张量核心累加不精确的问题,它采用了 CUDA 核心的两级累加(提升)机制。尽管它借鉴了 CUTLASS 和 CuTe 的一些概念,但避免了对其模板或代数的重度依赖。相反,该库的设计注重简洁性,仅包含一个核心内核函数,代码量仅为 300 行。这使其成为学习 Hopper FP8 矩阵乘法和优化技术的一个简洁且易于获取的资源。

尽管设计轻量,DeepGEMM 在各种矩阵形状上的性能与专家调优的库相当,甚至在某些情况下更优。

开源地址:https://github.com/deepseek-ai/DeepGEMM

早期试用者评价说,「DeepGEMM 听起来就像是数学界的超级英雄。它比高速计算器还快,比多项式方程还强大。我试着用了一下,现在我的 GPU 都在炫耀它的 1350+ TFLOPS,仿佛已经准备好参加 AI 奥赛了!」

这个计算性能如果加上高质量的数据,没准儿能贡献更大的惊喜?

除了性能,「300 行代码的性能超越了专家调优的内核」同样让不少人感到惊讶,有人认为「要么 DeepSeek 破解了 GPU 矩阵的奥秘,要么我们刚刚见证了最高等级的编译器魔法。」

看来,DeepSeek 团队里有一批掌握编译器神秘技巧的顶级 GPU 工程师。

还有人评价说,「DeepGEMM 正在改变我们使用 FP8 GEMM 库的方式,它简洁、快速且开源。这正是 AI 计算的未来。」

在项目的贡献者列表中,有人发现了一个姓 Liang 的工程师,难道是 DeepSeek 创始人梁文锋(真实性有待考证)?

性能

DeepSeek 在 H800 上使用 NVCC 12.8 测试了 DeepSeek-V3/R1 推理中可能使用的所有形状(包括预填充和解码,但不包括张量并行),最高可以实现 2.7 倍加速。所有加速指标均基于内部精心优化的 CUTLASS 3.6 实现。

但根据项目介绍,DeepGEMM 在某些形状上表现不佳。

快速启动

首先需要这些配置

  • Hopper 架构的 GPU,必须支持 sm_90a;
  • Python 3.8 或更高版本;
  • CUDA 12.3 或更高版本,但为了获得最佳性能,DeepSeek 强烈推荐使用 12.8 或更高版本;
  • PyTorch 2.1 或更高版本;
  • CUTLASS 3.6 或更高版本(可通过 Git 子模块克隆)。

配置完成后,就是部署:

# Submodule must be cloned

git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git

# Make symbolic links for third-party (CUTLASS and CuTe) include directories

python setup.py develop

# Test JIT compilation

python tests/test_jit.py

# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)

python tests/test_core.py

然后是安装:

python setup.py install

最后在你的 Python 项目中导入 deep_gem,就可以使用了。

更多信息请参见 GitHub 开源库。

路透社:DeepSeek R2 大模型又提前了,5 月之前发布

就在 DeepSeek 紧锣密鼓地开源的同时,人们也在四处探寻该公司下一代大模型的信息。昨天晚上,路透社突然爆料说 DeepSeek 可能会在 5 月之前发布下一代 R2 模型,引发了关注。

据多位知情人士透露,DeepSeek 正在加速推出 R1 强推理大模型的后续版本。其中有两人表示,DeepSeek 原本计划在 5 月初发布 R2,但现在希望尽早发布。DeepSeek 希望新模型拥有更强大的代码生成能力,并能够推理除英语以外的语言。

可见在 Grok 3、Claude 3.7、Qwen 2.5-Max 等竞品面世之后,DeepSeek 又加快了技术演进的步伐。

值得一提的是,媒体也介绍了该公司的一些情况。DeepSeek 在北京开设的办公室距离清华、北大很近(步行可至)。据两名前员工称,梁文锋经常会与工程师们深入研究技术细节,并乐于与实习生、应届毕业生一起工作。他们还描述了通常在协作氛围中每天工作八小时的情况。

据三位了解 DeepSeek 薪酬情况的人士称,这幻方量化与 DeepSeek 都以薪酬丰厚而闻名。有人表示在幻方的高级数据科学家年薪 150 万元人民币并不罕见,而竞争对手的薪酬很少超过 80 万元。

幻方是 AI 交易的早期先驱,一位该公司高管早在 2020 年表示将「All in」人工智能,将公司 70% 的收入投资于人工智能研究。该公司在 2020 年和 2021 年斥资 12 亿元人民币建设了两个超级计算 AI 集群。第二个集群 Fire-Flyer II 由约一万块英伟达 A100 芯片组成,主要用于训练 AI 模型。

在 DeepSeek V3、R1 模型推出之后,全世界对于 AI 技术的期待已经进入了高点。科技公司都在消化 DeepSeek 提出的新技术,修正发展方向,消费者们则纷纷开始尝试各类生成式 AI 应用。

或许下一次 DeepSeek 的发布,会是 AI 行业的又一次关键时刻。

参考内容:

https://www.reuters.com/technology/artificial-intelligence/deepseek-rushes-launch-new-ai-model-china-goes-all-2025-02-25/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

虎哥闲聊
2026-03-26 12:06:24
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
谈判姿态只是烟雾弹?美国被曝计划向伊朗增派精锐部队第82空降师

谈判姿态只是烟雾弹?美国被曝计划向伊朗增派精锐部队第82空降师

澎湃新闻
2026-03-25 17:18:26
油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

沙雕小琳琳
2026-03-26 10:31:28
NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

醉卧浮生
2026-03-25 23:03:44
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
41岁张雪峰离世,峰学蔚来接班人正式浮出水面

41岁张雪峰离世,峰学蔚来接班人正式浮出水面

秋姐居
2026-03-25 17:02:04
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
800万粉网红挖机小何彻底凉凉?挖机遭厂家回收,流量密码没了

800万粉网红挖机小何彻底凉凉?挖机遭厂家回收,流量密码没了

雷科技
2026-03-24 14:32:17
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

大风新闻
2026-03-26 18:09:04
简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

史行途
2026-03-26 07:36:04
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
2026-03-26 18:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
手机
旅游
艺术
公开课

家居要闻

傍海而居 静观蝴蝶海

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

旅游要闻

视点|陶然亭公园海棠春花文化节,解锁春日新体验

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版