网易首页 > 网易号 > 正文 申请入驻

英伟达又来掀桌了,CUDA Tile将再度改写AI格局?

0
分享至

在AI大模型轮番刷屏的这两年里,人们每次提到算力,都会首先想到英伟达显卡,但是很多人却不知道,想把英伟达的显卡算力变成生产力,可不仅仅是把显卡插进主板然后启动那么简单。而是需要为其准备一整套适配的软件、算法,才能真正发挥出显卡的性能,让它帮你完成工作。

而CUDA就是英伟达为此准备的一套软件生态,可以说是英伟达真正的护城河。前段时间,CUDA迎来了13.1版本更新,该版本也被英伟达称为自2006年CUDA发布以来最大规模的一次功能拓展。



图源:英伟达

在此次更新中,英伟达推出了全新的CUDA Tile编程模型,并且提供了一整套的配套工具、文档和调度特性。而在CUDA Tile更新后,不少著名半导体及AI从业者都表态点赞,认为将改变整个行业,估计有不少朋友就好奇了:一个编程模型的更新,为什么会影响整个AI行业?

CUDA Tile登场,“模块化”时代来了

如果只看“版本号+0.1”,很容易误以为 CUDA 13.1 只是例行升级,但翻完官方文档和版本说明后,小雷发现这次更新,几乎是“从编程模型到资源管理再到工具链”的全链路升级。

先来说说此次更新的核心CUDA Tile,到底带来了什么改变?简单来说,以前使用CUDA时,要自己管理threadIdx、blockIdx等核心变量,而且还要手动分配内存使用参数,然后再按SIMT模型进行展开,做针对性的编程。

而CUDA Tile则是直接在算法层面把数据切成单独的Tile(矩阵块),开发者只需要针对矩阵块的用途进行编程即可,至于后续矩阵块如何运转、是否需要调用 Tensor Core、TMA 等专用计算单元,就不需要开发者再去操心,由编译器和运行时系统在执行阶段自行决定。



图源:英伟达

为了支撑这个新模型,英伟达在CUDA 13.1里引入了一个新的虚拟指令集CUDA Tile IR,并在上层给出了cuTile Python这个DSL。得益于这两个新的开发工具,开发者可以直接用熟悉的Python写tile kernel(矩阵块内核),再由Tile IR负责落到底层硬件。

其实类似的做法在计算行业里并不少见,华为的昇腾AI处理器开发中,“Tiling”(图块化编程)也是关键步骤,用于将算子的输入数据分块,以适应NPU有限的片上内存,阿里的ATB框架同样采用了算子Tiling技术来优化深度学习计算,可以说核心思路都是为了降低开发及运行的成本,并提高效率。

除了Tile,CUDA 13.1还优化了不少基础功能模块,比如新的Green Contexts让GPU的SM(核心计算单元)按实际运行指令进行资源分割,让GPU可以优先满足低时延任务的资源需求,进一步强化云服务器对在线服务等方面的支持。

此外,Multi-Process Service也得到了针对性的增强,引入了MLOPart分区和静态SM分区模式,让多进程共享GPU资源时能够得到更准确的资源划分,对AI大模型这类混合负载为主的计算需求非常关键。

同时,英伟达还对数学库和工具链做了全面升级,cuBLAS现在可以提供了基于Tensor Core的FP32/FP64仿真GEMM(用FP16/INT8等低精度计算拼凑出高精度结果),在Blackwell这类GPU上提供加速双精度矩阵运算支持,让主流的Transformer、MoE等AI模型可以进一步压榨GPU性能。



可以说,CUDA 13.1几乎从头到尾都做了更新和升级,以至于很多开发者都用:“一个新时代的到来”去形容此次更新。在这次版本更新后,手写线程索引的时代算是结束了,甚至有人认为这次更新的意义不亚于从汇编到Python,因为它将CUDA开发的门槛明显拉低。

大家可以这么理解,以前编写CUDA的库和工具等玩意时,等于要开发者从一根线缆开始把一台汽车组装起来,虽然零件都是现成的,但是如果在拼装过程中出现了一些小BUG,你就得在一箩筐的零件里找出有问题的,然后再替换,费时费力不说还对开发者的知识储备有极高的要求。

而在CUDA 13.1之后,等于把汽车拆解成引擎、座椅、传动结构、轮胎等完整的子系统,你只需要决定这些系统的各自参数和功能,然后把它们拼在一起,就可以变成一个完整的程序运行。



图源:英伟达

对于AI行业来说,这也意味着想深度编译CUDA程序,不再只能指望少数掌握了CUDA C++工程师,普通的开发者也可以通过阅读英伟达提供的技术手册来按部就班的部署。

而且,Tile IR本身就是一套虚拟指令集架构,相当于在CUDA生态中再加入一个中间层,让开发者不再需要面向底层硬件进行开发,只要后续英伟达在更新硬件时做好后端适配,应用层就可以通过Tile IR直接适配新硬件,等于直接抹去了更换硬件所带来的重新适配成本。

不过也有开发者对此表示担忧,认为一旦CUDA Tile的性能表现不如预期,那么想再进行深度调试会麻烦,因为届时开发者看到的都是一堆抽象的Tile运算,无法像以前一样直接触及底层指令。

但是在小雷看来,CUDA开发的简易化是不可阻挡的趋势,英伟达不可能还会走回头路的。而且,CUDA 13.1并没有剔除传统SIMT开发工具,两者其实是并存的,对于开发者来说仍然可以用传统方法来进一步优化程序。

CUDA 13.1的更新,就是给所有AI开发者递上了新的“万用工具箱”,对于整个行业来说都是重大的利好,也难怪有人认为这是“新时代的到来”。

护城河or突破口?AI生态大战即将到来

随着CUDA 13.1的更新,针对AI生态的讨论也再次引起了大家的关注,过去的AMD ROCm、Intel oneAPI也好,中国厂商的自研GPU也罢,很多都是在CUDA的基础上,通过转编译来打造适配自家生态的版本。

或许有人觉得,这不就是抄袭吗?确实,不过也是无奈之举,CUDA作为最成熟的AI生态,拥有最广泛的设备兼容性,其他生态想追赶,那就只能选择“站在巨人的肩膀上”,才有可能成功,面对这种涉及到根本利益和未来话语权的争夺,手段尽出才是王道。



图源:英伟达

但是CUDA Tile的到来,或许会让这套适配体系变得更加困难,因为开发者一旦习惯用Tile IR+cuTile写代码,真正面对的接口就不再是具体线程、寄存器和block等工具,而是一整套Tile语义。

有开发者表示,想要兼容这套生态未来不仅要翻译语法,还要重建一套理解tile运算、映射到自家指令集和计算核心的编译器,等于是被迫从“抄CUDA代码”变成“抄 CUDA 编译器”,难度和成本都翻倍。

不过也有人给出了不同的看法,传奇芯片架构师Jim Keller(苹果A系列芯片、AMD Zen架构、特斯拉FSD芯片的开发者)认为CUDA Tile或许会加速CUDA的护城河消失。

看起来很匪夷所思,对吧?而Jim Keller的理由则是CUDA的优势是建立在其完善的库和框架的基础上,但是过高的上手门槛阻挡了大多数开发者。而CUDA Tile将让Tiling将成为CUDA生态的主流,另一边,业界的大多数主流AI生态其实早就转向了Tiling。

换言之,Tiling是大家更熟悉的工具,只需要先解决好CUDA Tile代码与其他Tiling 体系之间的互译问题,开发者就可以非常轻松地将CUDA软件移植到其他AI芯片生态中,而不必再从底层结构开始重新梳理。

从这个角度来看,Jim Keller的观点确实是有道理的,不过关键点就在于其他厂商是否愿意继续跟随英伟达,打造一个适用于CUDA Tile的移植工具。其实国内也有厂商在全盘复刻CUDA生态,比如刚刚上市的摩尔线程,他们的MUSA生态的目标就是在国产GPU上打造一个类似于CUDA的平台,让同一套软件能在图形、计算、多媒体和AI等多个产品线上复用。



图源:摩尔线程

为了解决生态问题,摩尔线程打造了一套MUSA SDK,里面包括运行时、编译器、GPU 加速数学库、神经网络库和通信库,并提供MUSIFY这样的迁移工具,允许开发者将CUDA代码直接转成MUSA版本,并且配备了一系列的专用库来减少开发者切换生态的成本。

而在接下来的时间里,摩尔线程也需要考虑如何重建MUSA生态对CUDA生态的适配,并进一步拓展其对国产芯片的适配性。如果摩尔线程可以整合好生态,那么也可以更好承接CUDA生态的国产化,成为国产AI生态的基座之一。

当然,要面对这个问题的也不止摩尔线程,英特尔、AMD等其他芯片企业也是一样的。不管怎样,接下来几年里,围绕AI生态展开的博弈只会变得更加激烈。英伟达希望进一步加深与AI行业的捆绑,而其他厂商则要在追赶CUDA生态的同时构筑自己的护城河,一场没有硝烟的战争已然到来。

雷科技2025“年度灯塔产品榜”评选启动!致敬堪称“科技之光、时代大作”的科技产品,欢迎关注~







特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
商务部:墨西哥相关涉华限制措施构成投资壁垒

商务部:墨西哥相关涉华限制措施构成投资壁垒

每日经济新闻
2026-03-25 18:02:03
版本答案!近24战23胜,场均24+11,詹姆斯:建队找他那样的就像

版本答案!近24战23胜,场均24+11,詹姆斯:建队找他那样的就像

你的篮球频道
2026-03-26 15:12:33
国民党团力挺徐欣莹参选新竹县长:与高虹安科技治理路线相呼应

国民党团力挺徐欣莹参选新竹县长:与高虹安科技治理路线相呼应

海峡导报社
2026-03-26 16:37:02
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

加时被逆转!申京:一切发生太快!杜兰特:在胡打,我该果断出手

篮球资讯达人
2026-03-26 15:28:40
北京今日傍晚北风渐起,周末有弱降水

北京今日傍晚北风渐起,周末有弱降水

北青网-北京青年报
2026-03-26 13:27:04
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
台湾中天主持人卢秀芳第三重身份曝光:父亲是志愿军,被迫到台湾

台湾中天主持人卢秀芳第三重身份曝光:父亲是志愿军,被迫到台湾

傲傲讲历史
2026-03-21 03:44:26
张雪峰去世,日媒用了这样一句话评价他...

张雪峰去世,日媒用了这样一句话评价他...

今日日本
2026-03-25 11:10:15
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

多名院士研究发现:吃一把花生,就等于吃了两勺黄油,真的假的?

观星赏月
2026-03-25 09:20:03
政坛滔天巨祸,文坛一炮而红

政坛滔天巨祸,文坛一炮而红

我是历史其实挺有趣
2026-03-18 19:49:36
11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

11场10球!皇马新帅有点神:伯纳乌迎回熊皇!贝林厄姆:逆境重生

万花筒体育球球
2026-03-25 17:39:15
1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

唠叨说历史
2026-03-20 17:26:29
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
考研导师张雪峰因跑步心脏聚停离世?网传特殊治疗知情同意书也被流传出。

考研导师张雪峰因跑步心脏聚停离世?网传特殊治疗知情同意书也被流传出。

贴小君
2026-03-24 20:41:23
王一博风波愈演愈烈!警方已介入,令人担心的事情还是发生了

王一博风波愈演愈烈!警方已介入,令人担心的事情还是发生了

刘笤说体坛
2026-03-24 09:54:11
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
2026-03-26 17:20:49
雷科技 incentive-icons
雷科技
专注AI硬科技
36594文章数 811953关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
教育
时尚
旅游
亲子

转头就晕的耳石症,能开车上班吗?

教育要闻

2026湖北高职单招工作启动

皮衣+裙,高级到炸

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

无障碍浏览 进入关怀版