网易首页 > 网易号 > 正文 申请入驻

传DeepSeek绕过CUDA?业内人士称或为适配国产GPU做准备

0
分享至

尽管春节假期已经过半,但是“来自东方的神秘力量的 DeepSeek”仍在引起全世界热议,各路业内人士也仍在从不同角度分析 DeepSeek 的模型和技术文章。

韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称:“这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程,而非通过英伟达 CUDA 中的某些功能来实现的。”

也就是说 DeepSeek 在研发大模型时绕过了 CUDA。CUDA(Compute Unified Device Architecture,统一计算架构),是由英伟达开发的一种通用编程框架,它允许开发者利用英伟达的图形处理器(GPU,Graphics Processing Unit)进行通用计算。

如果 DeepSeek 真的绕过了 CUDA,那么这能说明什么?围绕这一主题,DeepTech 采访了北京航空航天大学黄雷副教授。

对于程序开发人员来说,CUDA 好比是一种高级语言,开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在 GPU 等硬件上具体如何执行计算的,从而能够降低开发难度。

举例来说,假如一个人会写汇编语言,虽然能非常高效地操作计算机,但是,汇编语言对于非专业出身的人员难度非常高,哪怕执行一个给变量赋值操作都需要好几条命令,并且还要了解寄存器、内存等计算机基础概念。

因此,开发者们纷纷转去使用高级语言进行编程。这时,要想实现同样操作,开发者只需使用一个变量赋值就可以。CUDA 便是为了方便开发基于 GPU 的算法设计的。

大模型开发商在使用英伟达的 GPU 的时候,一般是基于 CUDA 去做研发。使用 CUDA 的话对于开发者的要求较低,因为 CUDA 里面已经封装好一些函数,使用时直接调用接口就行,完全无需理会太多的细节,但是这样肯定会损失执行效率。

也就是说,CUDA 等于是给开发者框定好了一些常用东西所以具有通用性,这在容易使用的同时也会损失一些灵活性。譬如其设计的矩阵乘法算子,数据加载传输算子等,是深度学习开发者常用的算子,因此其在设计时会考虑通用性(即平均条件下最优)。

但对于有特定需求的 GPU 开发者来说,除了开发常用的能力之外,它还需要有更强大的能力,如比较精细地控制某个节点上某个 GPU 主要是用来干啥,以及如何精细化不同 GPU 之间传输数据、权重和梯度等,这在大模型这种要求多机多卡训练时比较常见。对于这些特定需求下的高效编程,CUDA 目前还未针对性设计一个高效的解决方案。

前面提到,由于 CUDA 是通用型编程框架,因此会损失一些灵活性。当仅仅使用单个 GPU 的时候,CUDA 的确非常适用。但是,当在不同节点使用多个 GPU 的时候,就需要在细粒度上实现更好的控制。

而在这时,如果依然使用 CUDA 那么在抽象层面的效率就会比较低。原因在于 CUDA 被设计得具备通用性,它要考虑到所有开发者的情况。假如一名开发者希望高效利用 CUDA 的性能,那就可以通过组合一些由 GPU 驱动提供的函数接口,来写出更高效的程序。

也就是说,如果一位开发者懂得更接近于底层硬件的编程,那么就可以直接调用硬件提供的接口,从而就能让大模型研发变得更加高效。与此同时,随着同类的开源通用编程框架的出现,人们觉得 CUDA 越来越“封闭”。而绕过 CUDA,可以直接根据 GPU 的驱动函数做一些新的开发,从而实现更加细粒度的操作。

譬如 DeepSeek 在多节点通信时绕过了 CUDA 直接使用 PTX(Parallel Thread Execution),其最多只能实现以算法的方式来高效利用硬件层面的加速。

当然,一旦速度变得更快,打个比方这就意味着别人家的模型要训练十天,而 DeepSeek 只需要训练五天,那么就能给模型喂更多的数据,即能让模型在同等时间内看到更多的数据,间接提高模型的效果。

事实上,绕过 CUDA 也并非一种新鲜做法。现在也有一些和 CUDA 对标的编程框架,如 Triton 并且其是开源的。此前北京智源研究院的相关研究人员也专门基于 Triton 去加速英伟达以及国产的 GPU,且也可以认为这是一种绕过了 CUDA 去调用 GPU 驱动提供的相关函数的做法。

以目前 AI 方向技术人员为例,通常在本科阶段基本上只会接触到基于深度学习框架(通常为 Python 语言)来训练神经网络,还不会直接接触到各类深度学习框架提供的用 C++ 来写 CUDA 相关的编程任务(有一些好学者或者有参与科研项目的人员有可能会利用 C++ 来写 CUDA 实现相关算法的提速)。

这些人员在工作以后有可能由于 AI 项目落地的需要,会接触到针对具体的硬件资源来适配模型的编程,但要绕过 CUDA 来写模型的训练算法,通常没有这样的需求。

但现在大模型的训练的确有这些需求,譬如由于这样或者那样的原因导致英伟达 GPU 算力短缺,逼得大模型训练人员考虑在有限得算力资源下,如何尽可能地高效利用算力。

在 DeepSeek-V3 的技术博文中,DeepSeek 表示其使用了英伟达的 PTX(Parallel Thread Execution)语言。

假如 DeepSeek 的开发者能够很好地使用 PTX(Parallel Thread Execution)语言,那么相比使用 CUDA 提供的编程接口,肯定可以更精细地控制 GPU 之间传输数据、权重和梯度等。但是,使用 PTX 写出来的代码非常复杂,且很难维护,因此需要专业度较高的开发者。

也就是说,绕过 CUDA 的做法具有一定的技术难度,这需要开发者既要懂 AI 模型的算法,又要懂计算机系统架构来高效分配硬件资源。如果没有同时掌握这两方面技能的开发者,那就要分别招聘懂这些技能的开发者,即需要协调好不同人员。

从 DeepSeek 的技术报告来看,其主体实现还是基于 CUDA 的相关接口,其描述中也阐述绕开了 CUDA 来写通信,那就意味着它招聘了掌握不同技能的人才,并能将这些人才很好地串了起来。

这也说明 DeepSeek 拥有一些擅长写 PTX 语言的内部开发者。那么,假如它之后使用国产 GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达 GPU 硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。

与此同时,从 DeepSeek 的技术报告来看,其技术从学术研究角度并没有胜出一筹,但是在工程上面的确非常有技巧。考虑到 AMD 已经宣布集成 DeepSeek-V3 到 MI300X GPU,因此未来不排除会有更多 GPU 厂商牵手 DeepSeek。

同时,也正如上述韩国分析师在同一篇 X 文章中所说的:“这凸显了 DeepSeek 非凡的工程水平,并表明美国对华制裁加剧的“GPU 短缺危机”激发了他们紧迫感和创造力。”

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
布伦森22+6恩比德24+5 尼克斯大胜76人晋级东决

布伦森22+6恩比德24+5 尼克斯大胜76人晋级东决

北青网-北京青年报
2026-05-11 16:42:02
2年1.42亿!年薪7100万!又一份顶薪合同

2年1.42亿!年薪7100万!又一份顶薪合同

篮球教学论坛
2026-05-10 13:52:22
央视主持人朱迅:生命终将结束,为啥不勇敢面对生命的终点呢

央视主持人朱迅:生命终将结束,为啥不勇敢面对生命的终点呢

悠悠说世界
2026-05-11 02:32:56
日薪支出4.3亿!供养90万员工的京东,正成为互联网最重印钞机

日薪支出4.3亿!供养90万员工的京东,正成为互联网最重印钞机

番外行
2026-05-08 08:48:48
千年难遇的美人,太漂亮了,没有一点毛病,太完美了

千年难遇的美人,太漂亮了,没有一点毛病,太完美了

情感大头说说
2026-04-24 12:46:24
林诗栋哭了!扑入王皓怀中+跳上球台 奥运冠军大喊:完了 不能站

林诗栋哭了!扑入王皓怀中+跳上球台 奥运冠军大喊:完了 不能站

念洲
2026-05-11 08:46:13
全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

全球军队研究印巴507空战,发现最震撼细节,难怪印度不想打了

琴音似君语
2026-05-10 17:56:21
邵华说:我们都不敢在父亲水晶棺前站太久,就是怕耽误其他人

邵华说:我们都不敢在父亲水晶棺前站太久,就是怕耽误其他人

大江
2026-05-11 11:07:20
雷迪克:雷霆人员配置灵活 能在比赛中随时做出调整

雷迪克:雷霆人员配置灵活 能在比赛中随时做出调整

北青网-北京青年报
2026-05-11 16:42:30
A股:涨到4225.02,行情已经明确,明天,5月12日,很可能这样走

A股:涨到4225.02,行情已经明确,明天,5月12日,很可能这样走

云鹏叙事
2026-05-11 16:09:36
舍弃中国国籍加入日本队,助日乒逆袭上位,如今成为国乒头号威胁

舍弃中国国籍加入日本队,助日乒逆袭上位,如今成为国乒头号威胁

烈史
2026-05-11 16:06:07
把张雪踢出局,拿走他的35%股份,现在是凯越机车最后悔的事!

把张雪踢出局,拿走他的35%股份,现在是凯越机车最后悔的事!

别人都叫我阿腈
2026-05-11 01:42:18
人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

林雁飞
2026-03-25 16:09:46
海外俄侨庆祝遭戏耍,普京表态愿意结束战争!匈牙利新总理的演说

海外俄侨庆祝遭戏耍,普京表态愿意结束战争!匈牙利新总理的演说

鹰眼Defence
2026-05-10 16:45:06
57人被追责,泉州市应急管理局最新发布!

57人被追责,泉州市应急管理局最新发布!

人民资讯
2026-05-11 13:22:04
奥沙利文夺第八个克鲁斯堡的世锦赛冠军,也是生涯第九个世界冠军

奥沙利文夺第八个克鲁斯堡的世锦赛冠军,也是生涯第九个世界冠军

天涯远行人
2026-05-11 08:24:23
马斯克硬刚法国司法:用法语爆粗辱骂法官,这次真闹大了!

马斯克硬刚法国司法:用法语爆粗辱骂法官,这次真闹大了!

新欧洲
2026-05-10 16:06:11
凌晨1点去复印试卷?17岁女学生深夜消失全网揪心,网友一针见血

凌晨1点去复印试卷?17岁女学生深夜消失全网揪心,网友一针见血

社会日日鲜
2026-05-11 11:02:28
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
特朗普访华前,两大邻国突然对华出手,要切断中国“经济命脉”

特朗普访华前,两大邻国突然对华出手,要切断中国“经济命脉”

阿讯说天下
2026-05-11 12:18:31
2026-05-11 17:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16686文章数 514940关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

尼克斯横扫费城:唐斯恩比德的命运与角色

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
健康
教育
手机
时尚

数码要闻

小米“米家保温杯口袋版”新增三色可选,42.9元

干细胞能让人“返老还童”吗

教育要闻

收藏:2026山东二模划线+试题+一分一段

手机要闻

母亲节文案惹争议!OPPO再致歉,高管被问责连降两级

伊姐周日热推:电视剧《主角》;电视剧《良陈美锦》......

无障碍浏览 进入关怀版