网易首页 > 网易号 > 正文 申请入驻

英伟达又来掀桌了,CUDA Tile将再度改写AI格局?

0
分享至

来源:市场资讯

(来源:雷科技)

在AI大模型轮番刷屏的这两年里,人们每次提到算力,都会首先想到英伟达显卡,但是很多人却不知道,想把英伟达的显卡算力变成生产力,可不仅仅是把显卡插进主板然后启动那么简单。而是需要为其准备一整套适配的软件、算法,才能真正发挥出显卡的性能,让它帮你完成工作。

而CUDA就是英伟达为此准备的一套软件生态,可以说是英伟达真正的护城河。前段时间,CUDA迎来了13.1版本更新,该版本也被英伟达称为自2006年CUDA发布以来最大规模的一次功能拓展。


图源:英伟达

在此次更新中,英伟达推出了全新的CUDA Tile编程模型,并且提供了一整套的配套工具、文档和调度特性。而在CUDA Tile更新后,不少著名半导体及AI从业者都表态点赞,认为将改变整个行业,估计有不少朋友就好奇了:一个编程模型的更新,为什么会影响整个AI行业?

如果只看“版本号+0.1”,很容易误以为 CUDA 13.1 只是例行升级,但翻完官方文档和版本说明后,小雷发现这次更新,几乎是“从编程模型到资源管理再到工具链”的全链路升级。

先来说说此次更新的核心CUDA Tile,到底带来了什么改变?简单来说,以前使用CUDA时,要自己管理threadIdx、blockIdx等核心变量,而且还要手动分配内存使用参数,然后再按SIMT模型进行展开,做针对性的编程。

而CUDA Tile则是直接在算法层面把数据切成单独的Tile(矩阵块),开发者只需要针对矩阵块的用途进行编程即可,至于后续矩阵块如何运转、是否需要调用 Tensor Core、TMA 等专用计算单元,就不需要开发者再去操心,由编译器和运行时系统在执行阶段自行决定。


图源:英伟达

为了支撑这个新模型,英伟达在CUDA 13.1里引入了一个新的虚拟指令集CUDA Tile IR,并在上层给出了cuTile Python这个DSL。得益于这两个新的开发工具,开发者可以直接用熟悉的Python写tile kernel(矩阵块内核),再由Tile IR负责落到底层硬件。

其实类似的做法在计算行业里并不少见,华为的昇腾AI处理器开发中,“Tiling”(图块化编程)也是关键步骤,用于将算子的输入数据分块,以适应NPU有限的片上内存,阿里的ATB框架同样采用了算子Tiling技术来优化深度学习计算,可以说核心思路都是为了降低开发及运行的成本,并提高效率。

除了Tile,CUDA 13.1还优化了不少基础功能模块,比如新的Green Contexts让GPU的SM(核心计算单元)按实际运行指令进行资源分割,让GPU可以优先满足低时延任务的资源需求,进一步强化云服务器对在线服务等方面的支持。

此外,Multi-Process Service也得到了针对性的增强,引入了MLOPart分区和静态SM分区模式,让多进程共享GPU资源时能够得到更准确的资源划分,对AI大模型这类混合负载为主的计算需求非常关键。

同时,英伟达还对数学库和工具链做了全面升级,cuBLAS现在可以提供了基于Tensor Core的FP32/FP64仿真GEMM(用FP16/INT8等低精度计算拼凑出高精度结果),在Blackwell这类GPU上提供加速双精度矩阵运算支持,让主流的Transformer、MoE等AI模型可以进一步压榨GPU性能。


可以说,CUDA 13.1几乎从头到尾都做了更新和升级,以至于很多开发者都用:“一个新时代的到来”去形容此次更新。在这次版本更新后,手写线程索引的时代算是结束了,甚至有人认为这次更新的意义不亚于从汇编到Python,因为它将CUDA开发的门槛明显拉低。

大家可以这么理解,以前编写CUDA的库和工具等玩意时,等于要开发者从一根线缆开始把一台汽车组装起来,虽然零件都是现成的,但是如果在拼装过程中出现了一些小BUG,你就得在一箩筐的零件里找出有问题的,然后再替换,费时费力不说还对开发者的知识储备有极高的要求。

而在CUDA 13.1之后,等于把汽车拆解成引擎、座椅、传动结构、轮胎等完整的子系统,你只需要决定这些系统的各自参数和功能,然后把它们拼在一起,就可以变成一个完整的程序运行。


图源:英伟达

对于AI行业来说,这也意味着想深度编译CUDA程序,不再只能指望少数掌握了CUDA C++工程师,普通的开发者也可以通过阅读英伟达提供的技术手册来按部就班的部署。

而且,Tile IR本身就是一套虚拟指令集架构,相当于在CUDA生态中再加入一个中间层,让开发者不再需要面向底层硬件进行开发,只要后续英伟达在更新硬件时做好后端适配,应用层就可以通过Tile IR直接适配新硬件,等于直接抹去了更换硬件所带来的重新适配成本。

不过也有开发者对此表示担忧,认为一旦CUDA Tile的性能表现不如预期,那么想再进行深度调试会麻烦,因为届时开发者看到的都是一堆抽象的Tile运算,无法像以前一样直接触及底层指令。

但是在小雷看来,CUDA开发的简易化是不可阻挡的趋势,英伟达不可能还会走回头路的。而且,CUDA 13.1并没有剔除传统SIMT开发工具,两者其实是并存的,对于开发者来说仍然可以用传统方法来进一步优化程序。

CUDA 13.1的更新,就是给所有AI开发者递上了新的“万用工具箱”,对于整个行业来说都是重大的利好,也难怪有人认为这是“新时代的到来”。

随着CUDA 13.1的更新,针对AI生态的讨论也再次引起了大家的关注,过去的AMD ROCm、Intel oneAPI也好,中国厂商的自研GPU也罢,很多都是在CUDA的基础上,通过转编译来打造适配自家生态的版本。

或许有人觉得,这不就是抄袭吗?确实,不过也是无奈之举,CUDA作为最成熟的AI生态,拥有最广泛的设备兼容性,其他生态想追赶,那就只能选择“站在巨人的肩膀上”,才有可能成功,面对这种涉及到根本利益和未来话语权的争夺,手段尽出才是王道。


图源:英伟达

但是CUDA Tile的到来,或许会让这套适配体系变得更加困难,因为开发者一旦习惯用Tile IR+cuTile写代码,真正面对的接口就不再是具体线程、寄存器和block等工具,而是一整套Tile语义。

有开发者表示,想要兼容这套生态未来不仅要翻译语法,还要重建一套理解tile运算、映射到自家指令集和计算核心的编译器,等于是被迫从“抄CUDA代码”变成“抄 CUDA 编译器”,难度和成本都翻倍。

不过也有人给出了不同的看法,传奇芯片架构师Jim Keller(苹果A系列芯片、AMD Zen架构、特斯拉FSD芯片的开发者)认为CUDA Tile或许会加速CUDA的护城河消失。

看起来很匪夷所思,对吧?而Jim Keller的理由则是CUDA的优势是建立在其完善的库和框架的基础上,但是过高的上手门槛阻挡了大多数开发者。而CUDA Tile将让Tiling将成为CUDA生态的主流,另一边,业界的大多数主流AI生态其实早就转向了Tiling。

换言之,Tiling是大家更熟悉的工具,只需要先解决好CUDA Tile代码与其他Tiling 体系之间的互译问题,开发者就可以非常轻松地将CUDA软件移植到其他AI芯片生态中,而不必再从底层结构开始重新梳理。

从这个角度来看,Jim Keller的观点确实是有道理的,不过关键点就在于其他厂商是否愿意继续跟随英伟达,打造一个适用于CUDA Tile的移植工具。其实国内也有厂商在全盘复刻CUDA生态,比如刚刚上市的摩尔线程,他们的MUSA生态的目标就是在国产GPU上打造一个类似于CUDA的平台,让同一套软件能在图形、计算、多媒体和AI等多个产品线上复用。


图源:摩尔线程

为了解决生态问题,摩尔线程打造了一套MUSA SDK,里面包括运行时、编译器、GPU 加速数学库、神经网络库和通信库,并提供MUSIFY这样的迁移工具,允许开发者将CUDA代码直接转成MUSA版本,并且配备了一系列的专用库来减少开发者切换生态的成本。

而在接下来的时间里,摩尔线程也需要考虑如何重建MUSA生态对CUDA生态的适配,并进一步拓展其对国产芯片的适配性。如果摩尔线程可以整合好生态,那么也可以更好承接CUDA生态的国产化,成为国产AI生态的基座之一。

当然,要面对这个问题的也不止摩尔线程,英特尔、AMD等其他芯片企业也是一样的。不管怎样,接下来几年里,围绕AI生态展开的博弈只会变得更加激烈。英伟达希望进一步加深与AI行业的捆绑,而其他厂商则要在追赶CUDA生态的同时构筑自己的护城河,一场没有硝烟的战争已然到来。




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军航母又上演“声东击西”?三面特朗普:发狠话,放软话,还在等关键临界点到来

美军航母又上演“声东击西”?三面特朗普:发狠话,放软话,还在等关键临界点到来

红星新闻
2026-01-15 14:30:15
特朗普乐坏了,盟友亮明态度,他公开宣布,料定中国已经被镇住了

特朗普乐坏了,盟友亮明态度,他公开宣布,料定中国已经被镇住了

浪子阿邴聊体育
2026-01-16 07:09:13
珀斯,被誉为世界“最孤独”的城市,周围1800公里没一个“邻居”

珀斯,被誉为世界“最孤独”的城市,周围1800公里没一个“邻居”

谭老师地理大课堂
2026-01-16 20:22:02
贾老板想溅老罗一身血

贾老板想溅老罗一身血

鹿有角
2026-01-16 21:35:58
日均手术800台,年入200亿!郑州这家“宇宙第一医院”到底有多牛

日均手术800台,年入200亿!郑州这家“宇宙第一医院”到底有多牛

芳芳历史烩
2026-01-16 20:11:16
聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

银河史记
2026-01-16 16:17:53
“跳水”大降价,又一豪车品牌扛不住了!

“跳水”大降价,又一豪车品牌扛不住了!

蒋东文
2026-01-16 20:51:15
弘一法师:转念,是可以改命的

弘一法师:转念,是可以改命的

洞见
2026-01-16 21:15:38
美媒:杨瀚森亮眼特质没能带到NBA舞台 把他留在发展联盟是最优解

美媒:杨瀚森亮眼特质没能带到NBA舞台 把他留在发展联盟是最优解

罗说NBA
2026-01-16 20:23:42
3个七旬老人坦言:家有长寿老人,未必是福气,有可能是劫难

3个七旬老人坦言:家有长寿老人,未必是福气,有可能是劫难

惟来
2026-01-15 20:16:30
长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

向航说
2026-01-16 01:00:03
抵达北京的那一刻,听到接机人员的身份,加总理突然走不动路了

抵达北京的那一刻,听到接机人员的身份,加总理突然走不动路了

时时有聊
2026-01-15 20:11:52
2026年还买油车的人,是“聪明”还是“愚蠢”?专家撕开遮羞布

2026年还买油车的人,是“聪明”还是“愚蠢”?专家撕开遮羞布

老特有话说
2026-01-12 17:42:25
赵震:皇马老球探曾赞邝兆镭水平高,现在应让他安静稳定踢球

赵震:皇马老球探曾赞邝兆镭水平高,现在应让他安静稳定踢球

懂球帝
2026-01-16 20:46:14
票房从33.9亿下跌到了127万,我感慨:炒冷饭救不了港片

票房从33.9亿下跌到了127万,我感慨:炒冷饭救不了港片

宋垀搞笑配音
2026-01-15 20:37:23
16GB+1TB!新机官宣:搭载骁龙8 Elite Gen5+7500mAh!

16GB+1TB!新机官宣:搭载骁龙8 Elite Gen5+7500mAh!

科技堡垒
2026-01-16 12:47:22
长期喝酒却坚持运动的人,结果都怎么样了?医生道出实话

长期喝酒却坚持运动的人,结果都怎么样了?医生道出实话

岐黄传人孙大夫
2026-01-16 12:45:03
英媒:曼城115项指控风波或将持续到2027年,英超已存在不满

英媒:曼城115项指控风波或将持续到2027年,英超已存在不满

懂球帝
2026-01-17 06:18:19
长城汽车称“打死不做增程”

长城汽车称“打死不做增程”

IT之家
2026-01-16 18:47:10
台退役上校呼吁:只要大陆答应2个条件,台湾随时可以和平统一!

台退役上校呼吁:只要大陆答应2个条件,台湾随时可以和平统一!

科普100克克
2026-01-09 10:38:43
2026-01-17 07:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057588文章数 5281关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

教育
本地
房产
公开课
军事航空

教育要闻

广东普高扩招 20 万!普职分流比要变天?

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版