网易首页 > 网易号 > 正文 申请入驻

英伟达又来掀桌了,CUDA Tile将再度改写AI格局?

0
分享至

在AI大模型轮番刷屏的这两年里,人们每次提到算力,都会首先想到英伟达显卡,但是很多人却不知道,想把英伟达的显卡算力变成生产力,可不仅仅是把显卡插进主板然后启动那么简单。而是需要为其准备一整套适配的软件、算法,才能真正发挥出显卡的性能,让它帮你完成工作。

而CUDA就是英伟达为此准备的一套软件生态,可以说是英伟达真正的护城河。前段时间,CUDA迎来了13.1版本更新,该版本也被英伟达称为自2006年CUDA发布以来最大规模的一次功能拓展。



图源:英伟达

在此次更新中,英伟达推出了全新的CUDA Tile编程模型,并且提供了一整套的配套工具、文档和调度特性。而在CUDA Tile更新后,不少著名半导体及AI从业者都表态点赞,认为将改变整个行业,估计有不少朋友就好奇了:一个编程模型的更新,为什么会影响整个AI行业?

CUDA Tile登场,“模块化”时代来了

如果只看“版本号+0.1”,很容易误以为 CUDA 13.1 只是例行升级,但翻完官方文档和版本说明后,小雷发现这次更新,几乎是“从编程模型到资源管理再到工具链”的全链路升级。

先来说说此次更新的核心CUDA Tile,到底带来了什么改变?简单来说,以前使用CUDA时,要自己管理threadIdx、blockIdx等核心变量,而且还要手动分配内存使用参数,然后再按SIMT模型进行展开,做针对性的编程。

而CUDA Tile则是直接在算法层面把数据切成单独的Tile(矩阵块),开发者只需要针对矩阵块的用途进行编程即可,至于后续矩阵块如何运转、是否需要调用 Tensor Core、TMA 等专用计算单元,就不需要开发者再去操心,由编译器和运行时系统在执行阶段自行决定。



图源:英伟达

为了支撑这个新模型,英伟达在CUDA 13.1里引入了一个新的虚拟指令集CUDA Tile IR,并在上层给出了cuTile Python这个DSL。得益于这两个新的开发工具,开发者可以直接用熟悉的Python写tile kernel(矩阵块内核),再由Tile IR负责落到底层硬件。

其实类似的做法在计算行业里并不少见,华为的昇腾AI处理器开发中,“Tiling”(图块化编程)也是关键步骤,用于将算子的输入数据分块,以适应NPU有限的片上内存,阿里的ATB框架同样采用了算子Tiling技术来优化深度学习计算,可以说核心思路都是为了降低开发及运行的成本,并提高效率。

除了Tile,CUDA 13.1还优化了不少基础功能模块,比如新的Green Contexts让GPU的SM(核心计算单元)按实际运行指令进行资源分割,让GPU可以优先满足低时延任务的资源需求,进一步强化云服务器对在线服务等方面的支持。

此外,Multi-Process Service也得到了针对性的增强,引入了MLOPart分区和静态SM分区模式,让多进程共享GPU资源时能够得到更准确的资源划分,对AI大模型这类混合负载为主的计算需求非常关键。

同时,英伟达还对数学库和工具链做了全面升级,cuBLAS现在可以提供了基于Tensor Core的FP32/FP64仿真GEMM(用FP16/INT8等低精度计算拼凑出高精度结果),在Blackwell这类GPU上提供加速双精度矩阵运算支持,让主流的Transformer、MoE等AI模型可以进一步压榨GPU性能。



可以说,CUDA 13.1几乎从头到尾都做了更新和升级,以至于很多开发者都用:“一个新时代的到来”去形容此次更新。在这次版本更新后,手写线程索引的时代算是结束了,甚至有人认为这次更新的意义不亚于从汇编到Python,因为它将CUDA开发的门槛明显拉低。

大家可以这么理解,以前编写CUDA的库和工具等玩意时,等于要开发者从一根线缆开始把一台汽车组装起来,虽然零件都是现成的,但是如果在拼装过程中出现了一些小BUG,你就得在一箩筐的零件里找出有问题的,然后再替换,费时费力不说还对开发者的知识储备有极高的要求。

而在CUDA 13.1之后,等于把汽车拆解成引擎、座椅、传动结构、轮胎等完整的子系统,你只需要决定这些系统的各自参数和功能,然后把它们拼在一起,就可以变成一个完整的程序运行。



图源:英伟达

对于AI行业来说,这也意味着想深度编译CUDA程序,不再只能指望少数掌握了CUDA C++工程师,普通的开发者也可以通过阅读英伟达提供的技术手册来按部就班的部署。

而且,Tile IR本身就是一套虚拟指令集架构,相当于在CUDA生态中再加入一个中间层,让开发者不再需要面向底层硬件进行开发,只要后续英伟达在更新硬件时做好后端适配,应用层就可以通过Tile IR直接适配新硬件,等于直接抹去了更换硬件所带来的重新适配成本。

不过也有开发者对此表示担忧,认为一旦CUDA Tile的性能表现不如预期,那么想再进行深度调试会麻烦,因为届时开发者看到的都是一堆抽象的Tile运算,无法像以前一样直接触及底层指令。

但是在小雷看来,CUDA开发的简易化是不可阻挡的趋势,英伟达不可能还会走回头路的。而且,CUDA 13.1并没有剔除传统SIMT开发工具,两者其实是并存的,对于开发者来说仍然可以用传统方法来进一步优化程序。

CUDA 13.1的更新,就是给所有AI开发者递上了新的“万用工具箱”,对于整个行业来说都是重大的利好,也难怪有人认为这是“新时代的到来”。

护城河or突破口?AI生态大战即将到来

随着CUDA 13.1的更新,针对AI生态的讨论也再次引起了大家的关注,过去的AMD ROCm、Intel oneAPI也好,中国厂商的自研GPU也罢,很多都是在CUDA的基础上,通过转编译来打造适配自家生态的版本。

或许有人觉得,这不就是抄袭吗?确实,不过也是无奈之举,CUDA作为最成熟的AI生态,拥有最广泛的设备兼容性,其他生态想追赶,那就只能选择“站在巨人的肩膀上”,才有可能成功,面对这种涉及到根本利益和未来话语权的争夺,手段尽出才是王道。



图源:英伟达

但是CUDA Tile的到来,或许会让这套适配体系变得更加困难,因为开发者一旦习惯用Tile IR+cuTile写代码,真正面对的接口就不再是具体线程、寄存器和block等工具,而是一整套Tile语义。

有开发者表示,想要兼容这套生态未来不仅要翻译语法,还要重建一套理解tile运算、映射到自家指令集和计算核心的编译器,等于是被迫从“抄CUDA代码”变成“抄 CUDA 编译器”,难度和成本都翻倍。

不过也有人给出了不同的看法,传奇芯片架构师Jim Keller(苹果A系列芯片、AMD Zen架构、特斯拉FSD芯片的开发者)认为CUDA Tile或许会加速CUDA的护城河消失。

看起来很匪夷所思,对吧?而Jim Keller的理由则是CUDA的优势是建立在其完善的库和框架的基础上,但是过高的上手门槛阻挡了大多数开发者。而CUDA Tile将让Tiling将成为CUDA生态的主流,另一边,业界的大多数主流AI生态其实早就转向了Tiling。

换言之,Tiling是大家更熟悉的工具,只需要先解决好CUDA Tile代码与其他Tiling 体系之间的互译问题,开发者就可以非常轻松地将CUDA软件移植到其他AI芯片生态中,而不必再从底层结构开始重新梳理。

从这个角度来看,Jim Keller的观点确实是有道理的,不过关键点就在于其他厂商是否愿意继续跟随英伟达,打造一个适用于CUDA Tile的移植工具。其实国内也有厂商在全盘复刻CUDA生态,比如刚刚上市的摩尔线程,他们的MUSA生态的目标就是在国产GPU上打造一个类似于CUDA的平台,让同一套软件能在图形、计算、多媒体和AI等多个产品线上复用。



图源:摩尔线程

为了解决生态问题,摩尔线程打造了一套MUSA SDK,里面包括运行时、编译器、GPU 加速数学库、神经网络库和通信库,并提供MUSIFY这样的迁移工具,允许开发者将CUDA代码直接转成MUSA版本,并且配备了一系列的专用库来减少开发者切换生态的成本。

而在接下来的时间里,摩尔线程也需要考虑如何重建MUSA生态对CUDA生态的适配,并进一步拓展其对国产芯片的适配性。如果摩尔线程可以整合好生态,那么也可以更好承接CUDA生态的国产化,成为国产AI生态的基座之一。

当然,要面对这个问题的也不止摩尔线程,英特尔、AMD等其他芯片企业也是一样的。不管怎样,接下来几年里,围绕AI生态展开的博弈只会变得更加激烈。英伟达希望进一步加深与AI行业的捆绑,而其他厂商则要在追赶CUDA生态的同时构筑自己的护城河,一场没有硝烟的战争已然到来。

雷科技2025“年度灯塔产品榜”评选启动!致敬堪称“科技之光、时代大作”的科技产品,欢迎关注~







特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国!更大内乱开始了!

美国!更大内乱开始了!

大嘴说天下
2026-01-24 20:41:23
中国0-4日本!输球不可怕 可怕的是安东尼奥赛后这番话 认清差距

中国0-4日本!输球不可怕 可怕的是安东尼奥赛后这番话 认清差距

天台看落日
2026-01-25 17:15:23
卡尼号召加拿大人“购买国货”以回应美国关税威胁

卡尼号召加拿大人“购买国货”以回应美国关税威胁

环球网资讯
2026-01-25 06:13:20
90年代组织决定给李敏副军级待遇,她却坦言:爸爸是爸爸,我是我

90年代组织决定给李敏副军级待遇,她却坦言:爸爸是爸爸,我是我

大运河时空
2026-01-24 16:30:03
数钱手势讽刺裁判!迪亚洛:我这辈子从未经历过这样的事情 真无语

数钱手势讽刺裁判!迪亚洛:我这辈子从未经历过这样的事情 真无语

狼叔评论
2026-01-25 01:50:08
李亚鹏比贾国龙高明太多了

李亚鹏比贾国龙高明太多了

智识漂流
2026-01-24 19:27:57
“正常男孩不会这样坐着”,家长晒儿子满墙奖状,网友却发现端倪

“正常男孩不会这样坐着”,家长晒儿子满墙奖状,网友却发现端倪

妍妍教育日记
2026-01-24 15:53:12
震惊全球!新机官宣:2月18日,正式发布登场!

震惊全球!新机官宣:2月18日,正式发布登场!

科技堡垒
2026-01-24 12:37:22
林肯号就位,以色列子弹上膛,泽连斯基给伊朗压最后一捆稻草

林肯号就位,以色列子弹上膛,泽连斯基给伊朗压最后一捆稻草

移光幻影
2026-01-24 17:14:08
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

张宗逊明明战功高、资历老,却没能评上大将,这事儿和惹恼两大元帅毫无关系,真正原因另有他处

清风鉴史
2025-12-24 13:59:10
牢A含金量提升!澳洲中国留学生堕胎率超30%,16年前报道数据扎心

牢A含金量提升!澳洲中国留学生堕胎率超30%,16年前报道数据扎心

火山诗话
2026-01-25 06:48:02
无人机吊猪下山挂电线上致村庄停电10小时,知情人:本有十余头,第一头就挂上了

无人机吊猪下山挂电线上致村庄停电10小时,知情人:本有十余头,第一头就挂上了

潇湘晨报
2026-01-25 11:50:16
iPhone 天气App预报被批离谱 95%从业者盼它消失

iPhone 天气App预报被批离谱 95%从业者盼它消失

3DM游戏
2026-01-23 11:28:49
活塞官宣:比克斯塔夫当选全明星主帅 06年桑德斯后队史首人

活塞官宣:比克斯塔夫当选全明星主帅 06年桑德斯后队史首人

醉卧浮生
2026-01-25 12:21:02
20 万架美无人机将抵台!我大使:台独是恐怖分子,必坚决打击

20 万架美无人机将抵台!我大使:台独是恐怖分子,必坚决打击

议纪史
2026-01-24 16:10:02
澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

澳网神剧本:4届大满贯冠军退赛!王欣瑜创历史,1/8决赛对阵如下

侃球熊弟
2026-01-24 20:42:43
真相大白!门将李昊为何扑不住日本队的进球?3方面原因揭晓答案

真相大白!门将李昊为何扑不住日本队的进球?3方面原因揭晓答案

曹说体育
2026-01-25 13:10:51
邓兆尊的父亲到底是谁?为什么一个唱戏的有这么多遗产?

邓兆尊的父亲到底是谁?为什么一个唱戏的有这么多遗产?

林小明商业评说
2026-01-25 13:45:46
顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

小陆搞笑日常
2026-01-25 14:35:14
2026-01-25 18:15:00
雷科技 incentive-icons
雷科技
专注AI硬科技
35919文章数 811779关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

西安一道路车位紧俏 十多辆"老赖"车欠费最多者超2万

头条要闻

西安一道路车位紧俏 十多辆"老赖"车欠费最多者超2万

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
游戏
时尚
数码
公开课

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

比一个人坐牢832次更难的,是和19个人一起坐牢

2025年度榜单|| 真金白银票选出来的“真爱”,今天破价1.6折!

数码要闻

华为FreeClip 2耳夹耳机确认支持Android设备豆包App唤醒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版