网易首页 > 网易号 > 正文 申请入驻

DeepSeek绕开CUDA垄断,V3论文细节再挖出!英伟达护城河不存在了?

0
分享至

  新智元报道

  编辑:桃子 好困

  【新智元导读】DeepSeek模型开发竟绕过了CUDA?最新爆料称,DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示,CUDA护城河不存在了?

  原本DeepSeek低成本训出的R1,就已经让整个硅谷和华尔街为之虎躯一震。

  而现在又曝出,打造这款超级AI,竟连CUDA也不需要了?

  根据外媒的报道,他们在短短两个月时间,在2,048个H800 GPU集群上,训出6710亿参数的MoE语言模型,比顶尖AI效率高出10倍。

  这项突破不是用CUDA实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX(并行线程执行)编程。

  这则消息一出,再次掀翻AI圈,网友对其策略纷纷表示震惊:

  「在这个世界上,如果有哪群人会疯狂到说出『CUDA太慢了!干脆直接写PTX吧!』这种话,绝对就是那些前量化交易员了。」

  左右滑动查看

  还有人表示,如果DeepSeek开源了CUDA替代品,这将意味着什么?

  天才极客微调PTX,让GPU性能极致发挥

  英伟达PTX(并行线程执行)是专门为其GPU设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。

  PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C++等语言无法实现的。

  当PTX转换为SASS后,就会针对特定代的英伟达GPU进行优化。

  在训练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:

在132个流处理器多核中,划分出20个用于服务器间通信,主要用于数据压缩和解压缩,以突破处理器的连接限制、提升事务处理速度。

  为了最大化性能,DeepSeek还通过额外的细粒度线程/线程束级别调整,实现了先进的流水线算法。

  这些优化远超常规CUDA开发水平,但维护难度极高。然而,这种级别的优化恰恰充分展现DeepSeek团队的卓越技术实力。

  V3论文中具体提到了关于PTX的细节

  这是因为,在全球GPU短缺和美国限制的双重压力下,DeepSeek等公司不得不寻求创新解决方案。

  所幸的是,他们在这方面取得了重大突破。

  有开发者认为,「底层GPU编程才是正确的方向。优化得越多,就越能降低成本,或在不增加额外支出的情况下,提高可用于其他方面进步的性能预算」。

  这一突破对市场造成了显著冲击,部分投资者认为新模型对高性能硬件的需求将会降低,可能会影响英伟达等公司的销售业绩。

  然而,包括英特尔前掌门人Pat Gelsinger等在内的行业资深人士认为,AI应用能够充分利用一切可用的计算能力。

  对于DeepSeek的这一突破,Gelsinger将其视为在大众市场中,为各类低成本设备植入AI能力的新途径。

  CUDA护城河,也不存在了?

  那么,DeepSeek的出现是否意味着前沿LLM的开发,不再需要大规模GPU集群?

  谷歌、OpenAI、Meta和xAI在计算资源上的巨额投资是否最终将付诸东流?AI开发者们的普遍共识并非如此。

  不过可以确定的是,在数据处理和算法优化方面仍有巨大潜力可以挖掘,未来必将涌现出更多创新的优化方法。

  随着DeepSeek的V3模型开源,其技术报告中详细披露了相关细节。

  该报告记录了DeepSeek进行的深度底层优化。简而言之,其优化程度可以概括为「他们从底层重新构建了整个系统」。

  如上所述,在使用H800 GPU训练V3时,DeepSeek对GPU核心计算单元(流处理器多核,简称SM)进行了定制化改造以满足特定需求。

  在全部132个SM中,他们专门划分出20个用于处理服务器间通信任务,而非计算任务。

  这种定制化工作是在PTX(并行线程执行)层面进行的,这是英伟达GPU的低级指令集。

  PTX运行在接近汇编语言的层面,能够实现寄存器分配和线程/线程束级别调整等细粒度优化。然而,这种精细的控制既复杂又难以维护。

  这也是为什么开发者通常会选择使用CUDA这类高级编程语言,因为它们能为大多数并行编程任务提供充分的性能优化,无需进行底层优化。

  但是,当需要将GPU资源效能发挥到极致并实现特殊优化需求时,开发者就不得不求助于PTX。

  虽然但是,技术壁垒依然还在

  对此 ,网友Ian Cutress表示:「Deepseek对于PTX的使用,并不会消除CUDA的技术壁垒。」

  CUDA是一种高级语言。它使代码库的开发和与英伟达GPU的接口变得更简单,同时还支持快速迭代开发。

  CUDA可以通过微调底层代码(即PTX)来优化性能,而且基础库都已经完备。目前绝大多数生产级的软件都是基于CUDA构建的。

  PTX更类似于可以直接理解的GPU汇编语言。它工作在底层,允许进行微观层面的优化。

  如果选择使用PTX编程,就意味着上文提到的那些已经建好的CUDA库,都不能用了。这是一项极其繁琐的任务,需要对硬件和运行问题有深厚的专业知识。

  但如果开发者充分了解自己在做什么,确实可以在运行时获得更好的性能和优化效果。

  目前,英伟达生态的主流,仍然是使用CUDA。

  那些希望从计算负载中提升额外10-20%性能或功耗效率的开发者,比如在云端部署模型并销售token服务的企业,确实都已经将优化从CUDA层面深入到了PTX层面。他们愿意投入时间是因为,从长远来看这种投入是值得的。

  需要注意的是,PTX通常是针对特定硬件型号优化的,除非专门编写适配逻辑,否则很难在不同硬件间移植。

  除此之外,手动调优计算内核也需要极大的毅力、勇气,还得有保持冷静的特殊能力,因为程序可能每运行5000个周期就会出现一次内存访问错误。

  当然,对于确实需要使用PTX的场景,以及那些收到足够报酬来处理这些问题的开发者,我们表示充分的理解和尊重。

  至于其他开发者,继续使用CUDA或其他基于CUDA的高级变体(或MLIR)才是明智的选择。

  参考资料:

  https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead

  https://x.com/Jukanlosreve/status/1883304958432624881

  https://x.com/IanCutress/status/1884374138787357068

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12秒98夺第1!吴艳妮预赛闪耀比心庆祝,跨栏女神对决,林雨薇第2

12秒98夺第1!吴艳妮预赛闪耀比心庆祝,跨栏女神对决,林雨薇第2

李喜林篮球绝杀
2025-11-19 10:28:03
弟弟结婚不让去,我关机旅行,开机后看到我妈打来300个未接来电

弟弟结婚不让去,我关机旅行,开机后看到我妈打来300个未接来电

木槿纪实
2025-11-19 09:29:29
阿里开始严查午休

阿里开始严查午休

蚂蚁大喇叭
2025-11-17 09:56:58
解决Siri这座“屎山”,是苹果新掌门的头号任务

解决Siri这座“屎山”,是苹果新掌门的头号任务

字母榜
2025-11-17 16:09:01
震惊!新型穷人症状曝光,网友称已“病入膏肓”!

震惊!新型穷人症状曝光,网友称已“病入膏肓”!

特约前排观众
2025-11-19 00:15:03
71岁成龙去世?最新消息!

71岁成龙去世?最新消息!

乡野小珥
2025-11-18 13:40:40
侯耀华北京别墅亲自做饭,灶台杂乱满墙油污,78岁穿范哲思很时尚

侯耀华北京别墅亲自做饭,灶台杂乱满墙油污,78岁穿范哲思很时尚

趣味八卦
2025-11-19 07:29:01
高市万万没想到,派“弃子”来华后,中国立场变了,又叫停2件事

高市万万没想到,派“弃子”来华后,中国立场变了,又叫停2件事

潮鹿逐梦
2025-11-17 21:59:35
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
一百年里只见过4次!2025年男子在上海发现1只,一天约200人围观

一百年里只见过4次!2025年男子在上海发现1只,一天约200人围观

万象硬核本尊
2025-11-17 19:37:13
妻子逼我拿30万给小舅子买车,我62岁妈妈冷静开口:过不下去就离

妻子逼我拿30万给小舅子买车,我62岁妈妈冷静开口:过不下去就离

李子木说
2025-10-29 17:39:15
0-0险平!中国队无缘冠军,最大水货揪出,熊猫杯最终排名如下

0-0险平!中国队无缘冠军,最大水货揪出,熊猫杯最终排名如下

大秦壁虎白话体育
2025-11-18 21:53:48
勇士113-121魔术遭4坏消息!替补无稳定得分,内外线防守都被爆!

勇士113-121魔术遭4坏消息!替补无稳定得分,内外线防守都被爆!

细话篮球
2025-11-19 11:28:16
喻恩泰好友反击了!爆料史林子多次偷情出轨,并曝出露骨聊天截图

喻恩泰好友反击了!爆料史林子多次偷情出轨,并曝出露骨聊天截图

萌神木木
2025-11-18 19:36:17
不断挑拨离间!孙颖莎忍无可忍,终于道出与王曼昱“真实关系”

不断挑拨离间!孙颖莎忍无可忍,终于道出与王曼昱“真实关系”

东方不败然多多
2025-11-18 13:43:01
取消赴日旅游的中国游客:机酒已全额退款,未来出行仍在观望

取消赴日旅游的中国游客:机酒已全额退款,未来出行仍在观望

南方都市报
2025-11-18 23:22:18
中国拒绝捐款,特朗普缺席COP30,我们没有义务当冤大头

中国拒绝捐款,特朗普缺席COP30,我们没有义务当冤大头

历史求知所
2025-11-18 10:15:03
中国003型航母都要量产了,为啥东海舰队还是没分到航母?

中国003型航母都要量产了,为啥东海舰队还是没分到航母?

军武次位面
2025-11-18 17:03:53
联合国回应高市早苗言论

联合国回应高市早苗言论

每日经济新闻
2025-11-18 14:17:06
关于供应链转移这事,有业内网友说出了这些细节

关于供应链转移这事,有业内网友说出了这些细节

清晖有墨
2025-11-18 13:29:54
2025-11-19 11:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13901文章数 66271关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

游戏
本地
时尚
数码
公开课

《恶意不息》官宣多人模式 总监称魂游多人模式弱智

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

拍照不用露脸也很美!4个心机pose学起来,朋友圈狂收赞

数码要闻

Keychron发布三款Q HE 8K键盘新品:结合TMR与8000Hz回报

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版