网易首页 > 网易号 > 正文 申请入驻

DeepSeek绕开CUDA垄断,V3论文细节再挖出!英伟达护城河不存在了?

0
分享至

  新智元报道

  编辑:桃子 好困

  【新智元导读】DeepSeek模型开发竟绕过了CUDA?最新爆料称,DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示,CUDA护城河不存在了?

  原本DeepSeek低成本训出的R1,就已经让整个硅谷和华尔街为之虎躯一震。

  而现在又曝出,打造这款超级AI,竟连CUDA也不需要了?

  根据外媒的报道,他们在短短两个月时间,在2,048个H800 GPU集群上,训出6710亿参数的MoE语言模型,比顶尖AI效率高出10倍。

  这项突破不是用CUDA实现的,而是通过大量细粒度优化以及使用英伟达的类汇编级别的PTX(并行线程执行)编程。

  这则消息一出,再次掀翻AI圈,网友对其策略纷纷表示震惊:

  「在这个世界上,如果有哪群人会疯狂到说出『CUDA太慢了!干脆直接写PTX吧!』这种话,绝对就是那些前量化交易员了。」

  左右滑动查看

  还有人表示,如果DeepSeek开源了CUDA替代品,这将意味着什么?

  天才极客微调PTX,让GPU性能极致发挥

  英伟达PTX(并行线程执行)是专门为其GPU设计的中间指令集架构,位于高级GPU编程语言(如CUDA C/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。

  PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDA C/C++等语言无法实现的。

  当PTX转换为SASS后,就会针对特定代的英伟达GPU进行优化。

  在训练V3模型时,DeepSeek对英伟达H800 GPU进行了重新配置:

在132个流处理器多核中,划分出20个用于服务器间通信,主要用于数据压缩和解压缩,以突破处理器的连接限制、提升事务处理速度。

  为了最大化性能,DeepSeek还通过额外的细粒度线程/线程束级别调整,实现了先进的流水线算法。

  这些优化远超常规CUDA开发水平,但维护难度极高。然而,这种级别的优化恰恰充分展现DeepSeek团队的卓越技术实力。

  V3论文中具体提到了关于PTX的细节

  这是因为,在全球GPU短缺和美国限制的双重压力下,DeepSeek等公司不得不寻求创新解决方案。

  所幸的是,他们在这方面取得了重大突破。

  有开发者认为,「底层GPU编程才是正确的方向。优化得越多,就越能降低成本,或在不增加额外支出的情况下,提高可用于其他方面进步的性能预算」。

  这一突破对市场造成了显著冲击,部分投资者认为新模型对高性能硬件的需求将会降低,可能会影响英伟达等公司的销售业绩。

  然而,包括英特尔前掌门人Pat Gelsinger等在内的行业资深人士认为,AI应用能够充分利用一切可用的计算能力。

  对于DeepSeek的这一突破,Gelsinger将其视为在大众市场中,为各类低成本设备植入AI能力的新途径。

  CUDA护城河,也不存在了?

  那么,DeepSeek的出现是否意味着前沿LLM的开发,不再需要大规模GPU集群?

  谷歌、OpenAI、Meta和xAI在计算资源上的巨额投资是否最终将付诸东流?AI开发者们的普遍共识并非如此。

  不过可以确定的是,在数据处理和算法优化方面仍有巨大潜力可以挖掘,未来必将涌现出更多创新的优化方法。

  随着DeepSeek的V3模型开源,其技术报告中详细披露了相关细节。

  该报告记录了DeepSeek进行的深度底层优化。简而言之,其优化程度可以概括为「他们从底层重新构建了整个系统」。

  如上所述,在使用H800 GPU训练V3时,DeepSeek对GPU核心计算单元(流处理器多核,简称SM)进行了定制化改造以满足特定需求。

  在全部132个SM中,他们专门划分出20个用于处理服务器间通信任务,而非计算任务。

  这种定制化工作是在PTX(并行线程执行)层面进行的,这是英伟达GPU的低级指令集。

  PTX运行在接近汇编语言的层面,能够实现寄存器分配和线程/线程束级别调整等细粒度优化。然而,这种精细的控制既复杂又难以维护。

  这也是为什么开发者通常会选择使用CUDA这类高级编程语言,因为它们能为大多数并行编程任务提供充分的性能优化,无需进行底层优化。

  但是,当需要将GPU资源效能发挥到极致并实现特殊优化需求时,开发者就不得不求助于PTX。

  虽然但是,技术壁垒依然还在

  对此 ,网友Ian Cutress表示:「Deepseek对于PTX的使用,并不会消除CUDA的技术壁垒。」

  CUDA是一种高级语言。它使代码库的开发和与英伟达GPU的接口变得更简单,同时还支持快速迭代开发。

  CUDA可以通过微调底层代码(即PTX)来优化性能,而且基础库都已经完备。目前绝大多数生产级的软件都是基于CUDA构建的。

  PTX更类似于可以直接理解的GPU汇编语言。它工作在底层,允许进行微观层面的优化。

  如果选择使用PTX编程,就意味着上文提到的那些已经建好的CUDA库,都不能用了。这是一项极其繁琐的任务,需要对硬件和运行问题有深厚的专业知识。

  但如果开发者充分了解自己在做什么,确实可以在运行时获得更好的性能和优化效果。

  目前,英伟达生态的主流,仍然是使用CUDA。

  那些希望从计算负载中提升额外10-20%性能或功耗效率的开发者,比如在云端部署模型并销售token服务的企业,确实都已经将优化从CUDA层面深入到了PTX层面。他们愿意投入时间是因为,从长远来看这种投入是值得的。

  需要注意的是,PTX通常是针对特定硬件型号优化的,除非专门编写适配逻辑,否则很难在不同硬件间移植。

  除此之外,手动调优计算内核也需要极大的毅力、勇气,还得有保持冷静的特殊能力,因为程序可能每运行5000个周期就会出现一次内存访问错误。

  当然,对于确实需要使用PTX的场景,以及那些收到足够报酬来处理这些问题的开发者,我们表示充分的理解和尊重。

  至于其他开发者,继续使用CUDA或其他基于CUDA的高级变体(或MLIR)才是明智的选择。

  参考资料:

  https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead

  https://x.com/Jukanlosreve/status/1883304958432624881

  https://x.com/IanCutress/status/1884374138787357068

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

垚垚分享健康
2026-03-25 13:25:46
政坛滔天巨祸,文坛一炮而红

政坛滔天巨祸,文坛一炮而红

我是历史其实挺有趣
2026-03-18 19:49:36
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
日媒重磅判断:中国将成全球首个武器不用进口的大国

日媒重磅判断:中国将成全球首个武器不用进口的大国

杨风
2026-03-24 22:16:20
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
寿命与心率的关系被发现:心率40的人和心率80的人,谁更长寿?

寿命与心率的关系被发现:心率40的人和心率80的人,谁更长寿?

杜医生聊健康
2026-03-23 21:45:03
闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

闭眼隔扣+戏耍两人后嘲讽拉满!41岁詹皇23+9+9 在场+24湖人封王

颜小白的篮球梦
2026-03-26 09:40:23
父子同台还“杀人诛心”?布朗尼炸裂隔扣后,这一动作太嚣张!

父子同台还“杀人诛心”?布朗尼炸裂隔扣后,这一动作太嚣张!

仰卧撑FTUer
2026-03-26 11:00:08
西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

西班牙称霸100年,美国已称霸80年:500年来霸主都栽在同一件事上

鉴史录
2026-03-25 18:20:08
末节致命失误+加时绝平两罚不中!KD30+8吞里程悲 赛后沮丧吐舌

末节致命失误+加时绝平两罚不中!KD30+8吞里程悲 赛后沮丧吐舌

颜小白的篮球梦
2026-03-26 12:36:27
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

涵豆说娱
2026-03-24 10:41:07
丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

丧夫仅5个月,49岁翁帆突传“喜讯”高调露面,状态好到出人意料

冷紫葉
2026-03-24 19:12:36
如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

如果美国解体,犹太财阀的巨资何处安放下一个宿主,答案超乎想象

芳芳历史烩
2026-03-25 22:24:25
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

鱼崖大话篮球
2026-03-26 11:49:12
2026-03-26 13:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
艺术
数码
亲子
教育

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

无障碍浏览 进入关怀版