英伟达CUDA刚搞了个大动作,20年来最重磅的更新说上就上,核心亮点是CUDATile技术,以后开发者用Python就能写GPU内核代码,不用再死磕C++了。
这消息一出来,芯片圈传奇人物Jim Keller直接发问,这是不是要终结CUDA的护城河?这事在AI圈炸开了锅,有人觉得是开发者的福音,也有人猜英伟达在玩新套路。
![]()
今天就顺着这事,好好聊聊这波更新到底藏着啥门道。
CUDA这东西,懂行的都知道是英伟达的王牌,2006年一推出,直接开启了通用GPU计算的黄金时代,这二十年来,开发者想让GPU干活,基本都得靠它。
本来大家都习惯了用C++写代码,结果这次CUDA13.1更新,居然先给Python开了绿灯,C++支持反而往后排了。
![]()
本来以为这波更新是给开发者松绑,后来发现英伟达算盘打得更精。
以前用CUDA写代码,得用SIMT模型,简单说就是程序员得指挥成千上万个线程干活。
就像包工头带着32个工人搬砖,每个工人管一个像素点,看着整齐,真遇到矩阵运算这种复杂活,就得手动协调所有工人,一步错就全乱。
![]()
AI时代全是矩阵运算,这操作难度直接拉满,也难怪Jim Keller说CUDA是“沼泽”,陷进去就难出来。
CUDATile一出来,直接把这套逻辑推翻了,它不用线程当基本单位,改用“瓦片”,说白了就是把大数据切成小块,开发者不用管底层硬件怎么运作,只需要告诉电脑这些小块该怎么运算就行。
打个比方,以前是亲自下场指挥每个工人,现在是定好小组任务,剩下的交给组长安排。
![]()
而且英伟达还搞了个TileIR虚拟指令集,不管是老款Hopper显卡,还是新款Blackwell,写好的代码都能直接用,不用反复调优。
这波操作看着是降低了入门门槛,其实藏着和OpenAI Triton较劲的意思。
Triton是开源框架,初衷就是让开发者摆脱英伟达的闭源库,两者思路挺像,都是按数据块编程,但CUDA Tile绑定了自家硬件的专属逻辑,这波对决还真不好说谁能赢。
![]()
这么大的技术更新,自然躲不过行业大佬的关注,Jim Keller就是第一个站出来质疑的人。
可能有人不知道他是谁,这人可不是随便发表观点的主,堪称芯片圈的“扫地僧”,电脑里的x86-64指令集,他是奠基人之一,现在几乎所有桌面和服务器CPU都在用。
当年AMD快撑不下去的时候,他带着团队搞出Zen架构,直接让AMD逆袭,能和Intel平起平坐,后来去了苹果,参与研发A4、A5芯片,给iPhone自研芯片铺了路,才有了后来的M系列芯片。
![]()
现在他是Tenstorrent的CEO,自家芯片也用瓦片架构,难怪会盯着CUDATile不放。
JimKeller的质疑点很明确,现在大家都开始用瓦片架构了,AI内核移植起来会更简单,CUDA的护城河不就没用了?这话说得有道理,但他可能忘了CUDA的根基有多深。
二十年来,全球上千万开发者都在靠CUDA吃饭,相关的优化库就有两千多个,不管是做AI训练还是科学计算,都绕不开这些资源,更关键的是,很多公司的核心代码早就和CUDA深度绑定了。
![]()
想把这些代码迁移到其他平台,不是改改语法就行,得花大量时间和金钱,很少有公司愿意这么折腾。
Jim Keller之前就吐槽CUDA是“沼泽”,复杂到让人脱身不得,可这次CUDATile把复杂度藏到了底层,看似解决了“沼泽”问题,实则让开发者更离不开它的生态。
Jim Keller担心的跨厂商移植问题,其实得分两面看,先说说英伟达自家的硬件,以前从老款显卡换到新款,代码往往得重新调优,不少开发者为此头疼。
![]()
现在有了TileIR,写好的代码能在不同代际的英伟达显卡上无缝运行,这确实解决了大问题。
但跨厂商移植就不一样了,AMD的MI300也用瓦片架构,按理说代码移植应该容易些,可实际情况并非如此。
有创业公司试过把CUDATile写的代码搬到AMD芯片上,结果发现大半代码得重构。
![]()
为啥会这样?因为CUDATile的底层逻辑和英伟达的硬件深度绑定,里面的专属语义在其他厂商的芯片上根本不兼容。
英伟达这波操作挺聪明,它降低入门门槛,让更多开发者用Python就能上手,其实是在扩大自己的生态圈子。
开发者进来之后,会发现CUDA的生态太完善了,不管是优化库还是技术支持,都比其他平台靠谱,等大家把代码、项目都建在这个生态上,再想迁移就难了。
![]()
AMD的ROCm生态一直在模仿CUDA,但支持的库数量差了一大截Intel的One API想搞统一接口,可硬件性能跟不上,开发者也不买账。
Jim Keller的Tens torrent虽然在推开源瓦片架构标准,但影响力还远远不够。
如此看来,AI编程领域的“易用性”和“开放性”一直存在矛盾,开发者想用上简单好⽤的工具,就难免被生态绑定,想追求开放性,又得牺牲部分性能和便利性。
![]()
CUDATile这波更新,根本不是拆除护城河,而是把护城河升级了。
以前的护城河是高门槛,拦住了不少开发者现在英伟达把门槛降低,让大家轻松进来,然后用完善的生态、专属的技术把人留住。
进来之后才发现,里面的“迷宫”早就建好,想出去可就没那么容易了。
![]()
JimKeller的质疑有他的道理,但他可能低估了生态的粘性,AI时代的技术护城河,早就不是单一的硬件或软件,而是“硬件-软件-开发者”形成的闭环。
短期内,CUDA的垄断地位很难被撼动,至于长期会不会有新的变化,就得看开源框架和其他厂商能不能找到破局的办法。
但就目前来看,英伟达这步棋,走得确实够妙。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.