网易首页 > 网易号 > 正文 申请入驻

“20年来最大更新”,英伟达CUDA带来了什么?

0
分享至

2025 年 12 月,NVIDIA 推出 CUDA 13.1,此次更新被官方定位为 2006 CUDA 平台诞生以来最大、最全面的升级。其核心亮点之一,是引入了新的编程模型 CUDA Tile。这个变化,有可能不仅仅是一项技术迭代,而是标志着 GPU 编程范式迈入一个新的阶段。

CUDA 13.1 + CUDA Tile:到底带来了什么新东西?

CUDA Tile 是一种基于 tile(瓦片、数据块)的 GPU 编程模型。与传统的 SIMT(single-instruction, multiple-thread,多线程单指令流)方式不同,Tile 编程允许开发者将数据组织为tile (例如矩阵块、张量块、数据块),然后对这些 tile 进行操作,由编译器和运行时负责将它们映射到底层线程、内存布局、专用硬件等资源。换句话说,开发者只需专注对块做什么计算,无需关心哪个线程做哪一部分、怎样同步的问题。

为了支持 Tile,NVIDIA 在 CUDA 13.1 中引入了虚拟指令集 (Tile IR),并配套提供 cuTile。这是一个允许用高级语言编写 tile-based kernel 的工具,通过 cuTile,开发者可以用熟悉的 Python 编写 GPU kernel,从而极大降低 GPU 编程的门槛。

根据官方描述,Tile 编程并不是要取代 SIMT,而是作为一种并存或可选的编程路径。也就是说,开发者根据需求,可以继续使用传统 SIMT,也可以在适合场景下使用 Tile。

CUDA 13.1 除了 Tile,还对运行时(runtime)和工具链进行了升级,例如对 GPU 资源调度与管理机制进行了增强,使 GPU 的多任务、并发、异构任务支持更灵活可靠。

官方同时对数学计算库(如矩阵、张量库)与底层支持的兼容性进行了优化,以更好支持未来 GPU 特性(例如 tensor core、多级缓存、异构资源分配等)。由此看来,这次更新不仅是对编程模型的改变,也为构建新一代高层、跨架构 GPU 的计算库、框架和DSL 奠定了基础。

综合来看,CUDA 13.1 + CUDA Tile 的意义,不仅在于新增一个功能或对性能进行优化,而更在于为 GPU 编程提供了一个新的、更高层、更抽象、更便捷,且可维护和可移植的选项。

GPU 越来越复杂,手动管理变得不足够

随着 GPU 架构不断演进,引入越来越多专用硬件(例如 tensor core、混合精度加速、多级缓存与内存层次、异构资源、多流或多任务支持等),底层硬件复杂度大幅增加。对开发者而言,手动管理线程、同步、内存布局、调度、硬件兼容性等负担越来越重。传统 SIMT 模型虽然灵活,但对高性能、可移植、可维护的要求而言,其复杂性和维护成本日益凸显。

在这种背景下,Tile 编程所引入的高层抽象、由系统负责的资源映射、调度、硬件利用,恰好切中了现实需求。对于 AI、大规模矩阵、张量计算、科学计算、深度学习等领域,非常具有吸引力。NVIDIA 官方也明确指出,Tile 的设计初衷是为了帮助创建适用于当前和未来 GPU 的软件。

借助 cuTile (Python DSL),许多过去因为不擅长 CUDA C、对底层 GPU 编程不熟悉的数据科学家、研究者,也可能开始编写 GPU 加速代码。对于深度学习、科学计算、AI 团队或高校研究机构来说,这意味着 GPU 加速不再只属于少数 GPU 专家核心团队,而可能被更多人使用。此外,对于那些需要跨 GPU 架构的团队来说,一次编写、多代兼容的可能性,将大大降低重构、优化和维护的成本


(来源:英伟达)

同时,Tile 提供了一条新的 GPU 编程路径。这条路径不仅对单个项目或团队有利,也可能促使整个 GPU 软件生态走向更高层、更抽象、更通用、更易维护和跨架构兼容。这种变化对未来 GPU 编程规范化、标准化以及广泛应用具有潜在推动力。这次更新可能不仅仅是一个版本号的提升,而是 GPU 编程范式的一次质变。

从硬核到普惠的转折点

在技术社区中,CUDA 13.1 的发布引发了截然不同的两种情绪,而这恰恰印证了这次更新的变革性。

对于资深的高性能计算(HPC)工程师而言,反应是复杂的。一方面,他们习惯了对每一个寄存器、每一块共享内存(Shared Memory)的精细控制,CUDA Tile 这种将细节交给编译器的做法,不可避免地引发了关于性能上限的讨论。正如在 Reddit 和 Hacker News 上一些硬核开发者所担忧的:“我们是否正在用极致的性能换取开发的便利性?”

然而,对于更广泛的数据科学家和 AI 算法工程师群体,这无疑是一个好消息。长期以来,将 PyTorch 或 TensorFlow 中的高层逻辑转化为高效的 CUDA 核心代码,是一道难以逾越的技术鸿沟。cuTile Python 的出现,实际上是在填平这道鸿沟。它意味着开发者不再需要精通 C++ 和计算机体系结构,仅凭 Python 就能触达 GPU 80% 甚至 90% 的理论性能。这种性能平权可能会引爆新一轮的 AI 算子创新。当编写一个高效的 Attention 变体不再需要两周的 C++ 调试,而只需一下午的 Python 脚本时,创新的飞轮将转得更快。


(来源:Shutterstock)

竞争格局的深层变化:从代码兼容到架构抽象

在 CUDA 13.1 之前,竞争对手(如 AMD 的 ROCm 或 Intel 的 OneAPI)主要的追赶策略,是通过兼容层(如 HIP)来转译现有的 CUDA 代码。这种策略主要基于 C++ 语法的相似性。

然而,CUDA Tile 的出现改变了这种竞争的维度。通过引入 Tile IR(虚拟指令集)和高层抽象,NVIDIA 实际上是在硬件和软件之间增加了一个更厚的中间层。

当开发者开始习惯使用 Tile 编程模型,更多地关注数据块的逻辑而非底层线程调度,代码与底层硬件的解耦程度变得更高。这意味着,代码的执行效率将更多地依赖于编译器如何理解和优化这些 Tile 操作。对于竞争对手而言,要支持这种新模式,仅仅做代码转译是不够的,还需要构建一个同样智能的编译器来处理这些高层抽象,这无疑增加了技术对齐的难度,也客观上提高了生态系统的粘性。

面向云环境的演进:Green Contexts 的实际价值

除了编程模型,CUDA 13.1 在运行时环境上的改进,特别是 Green Contexts 从驱动层走向运行时 API,反映了 GPU 使用场景的结构性变化。

在 Blackwell 架构时代,GPU 已经从单纯的加速卡转变为数据中心的核心算力单元。随着单卡算力(如 B200 系列)的大幅提升,对于许多单一任务来说,独占整块 GPU 往往是一种资源浪费。

Green Contexts 允许开发者或系统管理员在运行时更安全、更细粒度地划分 GPU 资源(SM)。这在技术上解决了多任务并行时的干扰问题,使得 GPU 能够像 CPU 一样,高效、稳定地同时处理多个用户的任务。对于云服务商和企业内部的算力调度来说,这直接提升了昂贵硬件的利用率和投资回报率。

新的挑战:抽象化带来的黑盒隐忧

当然,这种向高层抽象的演进也并非没有代价。CUDA Tile 带来的最大挑战在于调试与性能优化的透明度降低。

在传统的 SIMT 模式下,开发者清楚地知道每一行代码对应什么指令,数据在寄存器和内存间如何移动。而在 Tile 模式下,编译器接管了大量的数据布局和映射工作。一旦性能不如预期,或者出现非功能性 Bug,开发者可能会发现很难像以前一样精准定位问题。

虽然 NVIDIA 在 Nsight 工具链中增加了对 Tile 的支持,但如何让开发者理解编译器的优化逻辑,而不是面对一个无法干预的“黑盒”,将是这一新模式能否被资深开发者广泛接受的关键。此外,这也意味着软件性能将更加依赖于 NVIDIA 编译器团队的优化水平,而非开发者个人的微调能力。

CUDA 13.1 的发布,本质上是 NVIDIA 应对硬件复杂度爆发的解决方案。通过 CUDA Tile,NVIDIA 试图建立一种新的分工模式:开发者专注于高层的算法逻辑与数据流,而将复杂的硬件适配工作交给编译器和运行时环境。

这不仅降低了高性能计算的门槛,也让 CUDA 平台在异构计算和云原生时代,具备了更强的适应性和生态掌控力。对于开发者而言,这或许意味着是时候调整思维习惯,从微观的线程管理,转向宏观的数据块编排了。

参考文章:

1.https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains/

2.https://github.com/NVIDIA/cutile-python

3.https://developer.nvidia.com/blog/simplify-gpu-programming-with-nvidia-cuda-tile-in-python/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

老马拉车莫少装
2026-03-01 17:23:52
凯特王妃威尔士之行翻车!雨中公务被吐槽,苍老状态不被谅解

凯特王妃威尔士之行翻车!雨中公务被吐槽,苍老状态不被谅解

老特有话说
2026-03-02 15:19:07
伯乐是蔡斌,被视为国家队最差接应,如今正式宣布退役,去向曝光

伯乐是蔡斌,被视为国家队最差接应,如今正式宣布退役,去向曝光

跑者排球视角
2026-03-03 12:53:05
日本1月失业率为2.7%

日本1月失业率为2.7%

每日经济新闻
2026-03-03 07:40:05
“反诈老陈”账号被封,本人回应:问心无愧!MCN机构:即刻解除所有合约,双方合作立即终止

“反诈老陈”账号被封,本人回应:问心无愧!MCN机构:即刻解除所有合约,双方合作立即终止

都市快报橙柿互动
2026-03-01 07:15:47
街头已大量出现,不要踩!不要踩!

街头已大量出现,不要踩!不要踩!

南国今报
2026-03-01 20:00:00
为何历史课本只教我们苟且一隅的南宋,却不提威震中亚的西辽?

为何历史课本只教我们苟且一隅的南宋,却不提威震中亚的西辽?

掠影后有感
2026-03-03 10:50:35
孙颖莎夺冠发声!用两个称呼去喊王曼昱,却和王楚钦互相不晒合影

孙颖莎夺冠发声!用两个称呼去喊王曼昱,却和王楚钦互相不晒合影

三十年莱斯特城球迷
2026-03-02 23:01:58
消失的热爱:70/80后一代“神车”集体谢幕

消失的热爱:70/80后一代“神车”集体谢幕

优视汽车
2026-03-02 10:28:13
谢贤前女友CoCo大曝张柏芝三胎生父内幕,无底线爆料,账号被封!

谢贤前女友CoCo大曝张柏芝三胎生父内幕,无底线爆料,账号被封!

娱乐团长
2026-03-03 13:00:37
上海一女子回老家过年 把两只宠物鸭留在公园“放养”10天 回来一看两只鸭毫发无损

上海一女子回老家过年 把两只宠物鸭留在公园“放养”10天 回来一看两只鸭毫发无损

闪电新闻
2026-03-03 11:15:11
第11波打击,以色列本土告急,伊朗战果显赫,英法德宣布下场?

第11波打击,以色列本土告急,伊朗战果显赫,英法德宣布下场?

原来仙女不讲理
2026-03-03 04:09:10
央视元宵晚会主持阵容曝光,任鲁豫龙洋造型亮眼,气场却不及朱迅

央视元宵晚会主持阵容曝光,任鲁豫龙洋造型亮眼,气场却不及朱迅

查尔菲的笔记
2026-03-03 13:27:39
约基奇真不是第一次这样干了!

约基奇真不是第一次这样干了!

篮球大图
2026-03-03 11:19:32
韩国股市暴跌触发熔断

韩国股市暴跌触发熔断

界面新闻
2026-03-03 11:26:20
伊朗不值得同情!两大国亲手为他搭好擂台,却反手被卖

伊朗不值得同情!两大国亲手为他搭好擂台,却反手被卖

毛豆论道
2026-03-02 17:01:06
中国95%的房子,其实已经没有任何投资价值

中国95%的房子,其实已经没有任何投资价值

流苏晚晴
2026-03-01 16:56:00
周鸿祎:360锁定3名潜伏长达十年的美国特工,并上报国家!

周鸿祎:360锁定3名潜伏长达十年的美国特工,并上报国家!

达文西看世界
2026-03-02 11:48:37
84年排长汇报作战报告,师长廖锡龙连忙打断:停下,你毕业于哪里

84年排长汇报作战报告,师长廖锡龙连忙打断:停下,你毕业于哪里

混沌录
2026-03-02 22:24:05
陈红也没想到,费心养大的25岁儿子,竟成了陈凯歌的绝佳“招牌”

陈红也没想到,费心养大的25岁儿子,竟成了陈凯歌的绝佳“招牌”

八斗小先生
2026-03-03 09:49:16
2026-03-03 15:04:49
问芯 incentive-icons
问芯
访遍天下芯事,聆听大时代人物芯声
173文章数 29关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

特朗普:不担心美领土遭受袭击威胁 这是战争的一部分

头条要闻

特朗普:不担心美领土遭受袭击威胁 这是战争的一部分

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

借壳上市纳斯达克?小杨哥海外"洗白"之路

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

房产
游戏
家居
公开课
军事航空

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

《战神》新作回归动作本源?风格更接近《鬼泣》

家居要闻

万物互联 享科技福祉

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版