网易首页 > 网易号 > 正文 申请入驻

英伟达亲手终结CUDA「护城河」?传奇芯片架构师引发争议

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:定慧

【新智元导读】一文看懂CUDA Tile背后的算盘与野心。

英伟达的CUDA,刚刚宣布了该平台诞生20年来最重大的一次更新!


其中,最核心也是最颠覆性的更新的就是CUDATile,让开发者可以用Python代替C++写内核代码。

在CUDA 13.1版本中,他们引入了一种叫做CUDA Tile的技术——一种全新的显卡代码编写方式,让整个过程更省事,更具未来适应性。

旨在通过抽象化底层硬件(如Tensor Cores)细节,降低开发门槛。可以把它想象成从手动调乐团中的每件乐器,转变为单纯指挥音乐。


这一重磅更新迅速引来了芯片界传奇人物、Tenstorrent CEOJim Keller的关注与质疑:

Jim Keller提出一个观点:这次更新是否终结了CUDA的「护城河」?


他的理由是当英伟达的GPU也转向Tile瓦片结构,而其他硬件厂商一样转向瓦片架构,AI内核将更容易移植。


但事实真是如此吗?

要想讨论清楚这件事,需要分析两个问题:

1. Jim Keller是谁?为什么他的话有分量

2. CUDA Tile此前是什么技术?CUDA护城河到底是什么

Jim Keller是当代芯片界最有代表性的CPU/SoC架构师之一,业内很多人直接叫他「传奇架构师」、「芯片圈GOAT之一」。

一句话,他是那种真正改写过CPU发展路线图的人。

凡是近二十多年x86、移动SoC、AI芯片的几次大级别翻身仗,背后大概率能看到Jim Keller的影子。


更细一点说:

所以Jim Keller的观点非常有参考性意义。

英伟达是否通过这次更新拆除了CUDA的「护城河」,还是以另一种形式将其加固?

去年,Jim Keller曾直言「CUDA是沼泽而非护城河」。

意思是CUDA的复杂性让开发者深陷其中无法脱身。


让我们简单回顾下CUDA的历史。

而此次CUDA Tile之前,早在2006年,英伟达发布了G80架构和CUDA,CUDA的出现将这些并行的计算单元抽象为通用的线程(Threads),从而开启了通用GPU计算(GPGPU)的黄金时代。


二十年来,基于「单指令多线程」(SIMT,Single Instruction,Multiple Threads)的编程模型一直是GPU计算的「圣经」。

开发者习惯了从单个线程的视角出发,思考如何将成千上万个线程映射到数据上。

在人工智能大爆发的今天,计算的核心原子不再是单一的标量数值,而是张量(Tensor)和矩阵。

传统的SIMT模型在处理这种块状数据时,显得日益笨重且效率低下。

技术的重构

CUDA Tile与SIMT的范式断裂

要理解CUDA Tile更新了什么,首先必须理解为什么旧方式行不通了。

SIMT模型的核心假设是:程序员编写一段串行代码(Kernel),GPU硬件负责将这段代码实例化为成千上万个线程。

粗暴一点理解:

想象一个包工头(GPU的控制单元)和32个搬砖工(线程,Thread)。比如要把一张图变亮,包工头只要一个命令,每个工人负责一个像素点,大家互不干扰,动作整齐划一。

这就是SIMT的精髓:虽然人多,但听同一个指令,处理各自的小数据。

这种模型在处理图像像素或简单的科学计算时非常完美,因为每个像素的计算是独立的。

然而,现代AI计算的核心是矩阵乘法。

AI运算(深度学习)的核心不再是处理单个像素,而是矩阵乘法。


在硬件层面,英伟达引入了Tensor Core(张量核心)来加速矩阵运算。

Tensor Core不是一次处理一个数,而是一次处理一个16x16或更大的矩阵块。

为了用 SIMT 模型去开动Tensor Core,程序员不得不同时指挥多个线程。

在SIMT中,程序员仍在控制单个线程。为了使用Tensor Core,程序员必须指挥32个线程(一个Warp)协同工作,手动将数据从全局内存搬运到共享内存,再加载到寄存器,通过复杂的wmma(Warp-level Matrix Multiply Accumulate)指令进行同步。

开发者必须精细地管理线程间的同步和内存屏障。稍有不慎,就会导致死锁或数据竞争。

不同代际的GPU其Warp调度机制和Tensor Core指令集均有不同。

针对Hopper架构优化的极致性能代码,往往无法在Blackwell上直接运行,需要重新调优。

这就是Jim Keller所说的「沼泽」——代码里堆积了针对不同硬件特性的补丁,既不美观也难以维护。


这就是「SIMT力不从心」的原因:试图用管理独立个体的逻辑(SIMT),去指挥一个需要高度协同的集体动作(Tensor Core)

CUDA Tile:瓦片化计算的诞生

CUDA 13.1引入的CUDA Tile彻底抛弃了「线程」这一基本原子,转而以「瓦片」(Tile)作为编程的核心单位。

核心概念:什么是Tile?

在CUDA Tile模型中,Tile被定义为多维数组的一个分块(Subset of arrays)。

开发者不再思考「第X号线程执行什么操作」,而是思考「如何将大矩阵切分成小块(Tiles),以及对这些块进行什么数学运算(如加法、乘法)」。

瓦片模型(左)将数据分割为块,编译器将其映射到线程。SIMT模型(右)将数据同时映射到块和线程。


这种转变类似于从汇编语言跳转到了高级语言:

这种编程范式在Python等语言中很常见,像NumPy这样的库允许指定矩阵等数据类型,然后用简单的代码指定并执行批量操作。


在底层,正确的操作会自动执行,计算过程完全透明地继续进行。

架构支撑:CUDA Tile IR

这次更新不仅仅是语法糖,英伟达引入了一套全新的中间表示——CUDATile IR(Intermediate Representation)。

CUDA Tile IR引入了一套虚拟指令集,使得开发者能够以瓦片操作的形式对硬件进行原生编程。


开发者可以编写更高层级的代码,这些代码只需极少改动即可在多个世代的GPU上高效执行。

通过这种对比可以看出,CUDA Tile实际上是英伟达对AI编程范式的一次「降维打击」——将复杂的硬件细节封装在编译器内部,只暴露算法逻辑。


在过去的CUDA版本中,C++始终是一等公民。

然而在CUDA 13.1中,英伟达极其罕见地首发推出了cuTile Python,而C++支持则被延后。

这一策略转变深刻反映了AI开发生态的现状:Python已经成为AI的通用语言。

在此之前,AI研究员如果想优化一个算子,不得不离开Python环境,学习复杂的C++和CUDA。

cuTile的出现旨在让开发者留在Python环境中即可编写高性能Kernel。

根据英伟达的技术博客,我们可以通过一个向量加法的例子来感受cuTile的变革。

传统SIMT方式(伪代码概念):


cuTile Python方式:


在这个例子中,开发者不需要知道GPU有多少个核心,也不需要知道Warp是什么。

ct.load和ct.store在底层可能会调用Blackwell架构最新的异步内存复制引擎,但这对开发者是透明的。

CUDA Tile对抗的是谁?

要回答「是否终结了护城河」,必须引入另一个变量:OpenAI Triton。

Triton是OpenAI为了摆脱对英伟达闭源库(如cuDNN)的依赖而开发的开源语言。

Triton的核心理念与CUDA Tile惊人的一致:基于块(Block-based)的编程。


这或许是CUDA此次更新的最大针对者。


分析了这么多,英伟达此次更新是否终结了CUDA的护城河,转向瓦片架构是否使AI内核更易移植?

在社区中,更多的声音指向如下结论。


英伟达代际间的移植性:这是CUDA Tile主要解决的问题。

从Hopper移植到Blackwell,甚至未来的Rubin,使用TileIR编写的代码将无缝运行且自动优化。

这一点上,移植性极大增强。

跨厂商的移植性:这是行业希望解决的问题(比如从英伟达移植到AMD MI300)。

这一点上,CUDATile几乎没有任何帮助,甚至让移植变得更难。


Jim Keller本人一点不喜欢CUDA,称CUDA为「沼泽」,意指其复杂性让开发者深陷其中无法脱身。

综上所述,英伟达并没有拆除护城河,而是将护城河的墙修得更漂亮、更易于攀爬(进入),但在墙内构建了更舒适的迷宫(Tile IR生态),使得用户更不愿意离开。

瓦片架构使AI内核在英伟达硬件之间极易移植,但在不同厂商硬件之间更难移植。

Jim Keller也许是对的,CUDA曾经是沼泽。

但英伟达刚刚在沼泽上铺设了一条高速公路(CUDA Tile IR)。

而这条路,目前只通向英伟达的城堡。

参考资料:

https://x.com/jimkxa/status/1997732089480024498

https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware/

https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains

https://developer.nvidia.com/blog/simplify-gpu-programming-with-nvidia-cuda-tile-in-python

https://www.tomshardware.com/tech-industry/artificial-intelligence/jim-keller-criticizes-nvidias-cuda-and-x86-cudas-a-swamp-not-a-moat-x86-was-a-swamp-too

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
26年坚定持有的十只黑马股,预定翻倍增长!(精选)

26年坚定持有的十只黑马股,预定翻倍增长!(精选)

涨多宝
2026-03-03 11:42:42
0-1耻辱!14亿欧皇马10天2败:已落后巴萨4分 吕迪格再现杀人动作

0-1耻辱!14亿欧皇马10天2败:已落后巴萨4分 吕迪格再现杀人动作

风过乡
2026-03-03 06:25:07
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
比达尔:我看不惯德保罗,他太爱耍帅,下次遇到我要狠狠干他一下

比达尔:我看不惯德保罗,他太爱耍帅,下次遇到我要狠狠干他一下

懂球帝
2026-03-03 13:37:16
又有两国下场,英法德也要防御性参战?关键时刻,普京对中喊话

又有两国下场,英法德也要防御性参战?关键时刻,普京对中喊话

知鉴明史
2026-03-02 17:29:36
暴走团老人路上训练,交警劝不听,货车司机“不想走那就别走了”

暴走团老人路上训练,交警劝不听,货车司机“不想走那就别走了”

源远讲堂
2025-07-31 18:13:50
炮火中的A股深度解析:为何远方的战争总让中国股民"买单"?

炮火中的A股深度解析:为何远方的战争总让中国股民"买单"?

A活着
2026-03-03 15:47:06
医生劝告:一 旦吃上降压药,这3种食物马上戒掉,再吃有心梗风险

医生劝告:一 旦吃上降压药,这3种食物马上戒掉,再吃有心梗风险

小胡军事爱好
2026-03-03 10:11:33
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
52中21!布朗尼真有本事!NBA最励志的球二代

52中21!布朗尼真有本事!NBA最励志的球二代

篮球实战宝典
2026-03-02 21:40:48
尾盘操作思路:A股跳水是走是留!一句话直接给告诉你!

尾盘操作思路:A股跳水是走是留!一句话直接给告诉你!

龙行天下虎
2026-03-03 14:53:44
头号援军已到,伊朗扛得住!特朗普咬牙说了一句话,台当局天塌了

头号援军已到,伊朗扛得住!特朗普咬牙说了一句话,台当局天塌了

探源历史
2026-03-03 11:16:03
No!突发神秘怪病!这可是勇士的核心内线

No!突发神秘怪病!这可是勇士的核心内线

篮球实战宝典
2026-03-03 16:41:08
宁愿向美国低头妥协,也不求助中国!俄罗斯到底在布什么局?

宁愿向美国低头妥协,也不求助中国!俄罗斯到底在布什么局?

霁寒飘雪
2026-03-03 17:57:09
金正恩一句话让全球震惊,韩国颤抖,中方第二天就出面发声

金正恩一句话让全球震惊,韩国颤抖,中方第二天就出面发声

青烟小先生
2026-03-02 10:19:13
美对伊朗的行动影响中国石油供应?中方回应

美对伊朗的行动影响中国石油供应?中方回应

澎湃新闻
2026-03-03 18:06:06
《大西洋月刊》丨所有人的目光都投向了古巴

《大西洋月刊》丨所有人的目光都投向了古巴

邸报
2026-03-02 10:33:45
35年前,美国科学家进行实验,4男4女共处一室2年,结果怎么样?

35年前,美国科学家进行实验,4男4女共处一室2年,结果怎么样?

小豫讲故事
2026-03-02 06:00:03
12岁女孩被夸“万里挑一”,网友却看清现实:太勤快注定一生吃苦

12岁女孩被夸“万里挑一”,网友却看清现实:太勤快注定一生吃苦

妍妍教育日记
2026-03-03 18:02:26
哈啰招聘员工要求30岁以下引争议 公司致歉:坚决反对就业歧视

哈啰招聘员工要求30岁以下引争议 公司致歉:坚决反对就业歧视

金融界
2026-03-03 09:54:34
2026-03-03 18:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2334592文章数 5656关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

袭击伊朗后 特朗普首次发表白宫讲话:将不惜一切代价

头条要闻

袭击伊朗后 特朗普首次发表白宫讲话:将不惜一切代价

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

房产
教育
亲子
游戏
数码

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

教育要闻

气象系统2025录用1100多,研究生占50%,南信大294人成信大113人

亲子要闻

亲妈劝女儿一定要有经济来源!网友:不落自己身上都不知道痛

解谜冒险游戏《Apopia:糖衣冒险》 于今日上线Steam 举行限时九折优惠活动

数码要闻

谷歌Home新增实时搜索功能:Gemini已能理解摄像头实时画面

无障碍浏览 进入关怀版