DeepReinforce突破：AI生成超越英伟达官方性能的CUDA核心代码|算法|张量|寄存器|新模型|cuda

分享至

这项由DeepReinforce团队完成的突破性研究发表于2025年12月，研究编号为arXiv:2512.02551v1。论文的主要作者包括苏松桥、孙晓飞、李小雅、王阿尔伯特、李机伟和沈克里斯等研究人员。这项研究首次证明了人工智能可以在矩阵计算这一GPU最核心的操作上超越英伟达官方优化库，对整个人工智能和高性能计算领域具有重大意义。

想象一下你在厨房做菜，需要快速切菜、炒菜、调味等各种操作。在计算机的世界里，GPU（图形处理器）就像一个超级厨房，而矩阵乘法就是其中最重要的"主菜制作技术"。无论是训练人工智能模型，还是让ChatGPT这样的大语言模型运行，几乎所有重要的计算都离不开矩阵乘法这道"主菜"。

长期以来，英伟达公司作为GPU领域的绝对霸主，就像顶级厨师一样，精心优化着这些核心计算代码，他们的cuBLAS和cuBLASLt库被全世界的开发者广泛使用。这些库经过了无数工程师多年的精心调优，性能已经达到了极高的水准。然而，DeepReinforce团队却提出了一个大胆的想法：能否让人工智能自己学会编写这些核心代码，甚至超越人类专家的优化水平？

这个想法听起来就像让一个机器人学会做菜，不仅要做得像人类大厨一样好，还要做得更好。在计算机编程领域，这个挑战尤其艰难，因为GPU编程需要对硬件架构有深入理解，需要掌握复杂的内存管理、线程调度、缓存优化等技术。不同的矩阵大小需要完全不同的优化策略，就像烹饪不同食材需要不同的火候和技巧一样。

研究团队开发了一个名为CUDA-L2的系统，这个系统结合了大型语言模型和强化学习技术。可以把它理解为一个会编程的AI厨师，它不仅懂得基本的"烹饪技巧"（编程知识），还能通过不断尝试和改进来发现更好的"菜谱"（优化策略）。系统的工作原理就像一个永不疲倦的实验者，它会生成成千上万种不同的代码方案，每一种都在GPU上实际运行测试，然后根据性能表现来学习哪些方法更有效。

为了验证系统的能力，研究团队设计了一个全面的测试环境。他们选择了1000种不同的矩阵配置进行测试，这些配置涵盖了从小型到超大型矩阵的各种情况，包括了当前主流AI模型如Qwen、Llama和DeepSeek中实际使用的所有矩阵尺寸。这就像在不同的厨房环境下，用不同的食材和份量来测试厨师的真实水平。

测试结果令人震惊。在"离线模式"（连续执行计算任务）下，CUDA-L2生成的代码平均比PyTorch的标准矩阵乘法函数快22%，比英伟达的cuBLAS库快19.2%，比更先进的cuBLASLt库快16.8%，甚至比cuBLASLt的自动调优版本还要快11.4%。而在"服务器模式"（模拟实际应用中的间歇性计算）下，性能提升更加显著，分别达到了28.7%、26.0%、22.4%和15.9%。

这样的性能提升意味着什么呢？如果把计算速度比作汽车的行驶速度，那么CUDA-L2就像给原本时速100公里的车子提速到115-130公里。对于需要大量计算的AI训练和推理任务来说，这种提升能够显著减少计算时间和电力消耗，降低成本。

一、揭开矩阵乘法的神秘面纱

要理解这项研究的重要性，我们首先需要了解矩阵乘法在现代计算中的地位。矩阵乘法就像建筑工程中的混凝土浇筑一样，是几乎所有复杂计算结构的基础。无论是图像识别、语音识别，还是自然语言处理，背后都有大量的矩阵运算在支撑。

在GPU的世界里，有一种特殊的矩阵乘法叫做HGEMM（半精度通用矩阵乘法）。这种计算使用16位的数字精度，就像用更轻的材料建房子一样，在保持足够精度的同时大大提高了计算效率。现代的AI模型几乎都依赖这种计算方式来实现快速训练和推理。

GPU执行矩阵乘法的过程就像一个高度组织化的工厂流水线。首先，巨大的矩阵被分割成较小的"瓦片"（tile），就像把大块布料切成小块便于缝纫一样。每个GPU线程块负责计算一个输出瓦片，内部再进一步细分来匹配GPU的张量核心（tensor core）的维度要求。

整个计算过程分为三个主要阶段。第一阶段是数据准备，系统将矩阵瓦片从全局内存加载到共享内存中，就像把原料从仓库搬运到工作台一样。第二阶段是主要计算循环，数据在多级内存之间流动，从共享内存到寄存器，再由张量核心执行实际的乘法累加运算。第三阶段是结果回写，累积的计算结果从寄存器写回共享内存，最后传输到全局内存。

这个过程看似简单，实际上涉及大量的优化细节。不同的矩阵尺寸需要不同的瓦片大小、不同的内存访问模式和不同的线程调度策略。就像烹饪一样，同样的食材在不同的火候和时间下会产生完全不同的效果。

二、挑战英伟达官方库的勇气

英伟达的cuBLAS库就像经典的老字号餐厅，经过数十年的精心打磨，每一道"菜"（算法）都达到了极高的水准。这个库包含了大量手工优化的核心代码，由世界顶级的GPU编程专家开发和维护。PyTorch这样的深度学习框架在执行矩阵运算时，内部实际上就是调用cuBLAS库。

cuBLAS提供了多种矩阵布局选项，主要包括NN（正常-正常）和TN（转置-正常）两种布局。这就像摆放餐具可以有不同的方式，每种方式在不同情况下都有其优势。对于每种矩阵配置，cuBLAS会自动选择最优的布局和算法。

更先进的cuBLASLt库则提供了更加精细的控制能力。如果说cuBLAS像是高级餐厅的标准菜单，那么cuBLASLt就像是可以根据客人喜好定制的私人厨师服务。它暴露了更多的算法选项，允许开发者进行更深入的性能调优。

cuBLASLt提供了两种使用方式。第一种是启发式模式，系统根据矩阵配置推荐最佳算法，就像资深侍酒师根据菜品推荐酒水一样。第二种是自动调优模式，系统会测试多达100种不同的算法候选，选择性能最佳的那一种，这就像让100个厨师分别做同一道菜，然后选择最美味的版本。

研究团队选择挑战这些久经考验的库，需要极大的勇气和技术实力。这就像一个年轻厨师决定挑战米其林三星餐厅的招牌菜一样，不仅需要深厚的技术功底，还需要创新的思维方式。

三、CUDA-L2系统的工作原理

CUDA-L2系统的核心思想是让人工智能学会编写高性能的GPU代码。这个过程就像培养一个编程天才，从基础知识学习开始，逐步发展到能够创造性地解决复杂问题。

系统的第一个关键组件是基于大型语言模型的代码生成器。研究团队选择了DeepSeek 67B模型作为基础，这相当于选择了一个具有强大语言理解能力的"学徒"。然后，他们对这个模型进行了持续预训练，喂给它大量的CUDA编程代码，包括来自PyTorch、ATen、CUTLASS等知名库的实现，以及从网络收集的各种GPU编程示例。

这个过程就像让一个聪明的学生阅读所有相关的编程教材和优秀代码示例。为了让模型理解这些代码的含义，研究团队还使用了Claude Sonnet模型来生成代码描述，为每段代码配上详细的解释说明。此外，系统还集成了检索增强功能，能够在生成代码时查询相关的文档和示例，就像程序员在编程时会查阅手册一样。

接下来是强化学习训练阶段，这是整个系统最关键的部分。强化学习就像训练运动员一样，通过不断的练习和反馈来提高表现。系统分为两个阶段的强化学习训练。

第一阶段是通用核心优化训练。系统学习优化各种类型的GPU核心代码，包括线性代数运算、卷积操作、归约操作、逐元素操作、注意力机制等等。这就像让一个厨师学习各种基本烹饪技巧，掌握切菜、炒菜、调味等基础技能。每个生成的核心代码都会在实际的GPU硬件上运行测试，系统根据执行速度来调整生成策略。

第二阶段专门针对HGEMM矩阵乘法进行训练。系统将注意力集中在不同配置的矩阵乘法优化上，通过大量的实验来发现最佳的优化策略。这就像专门训练厨师制作某道招牌菜，通过反复练习来达到完美。

系统的奖励机制设计得非常巧妙。主要奖励来自代码的执行速度，速度越快奖励越高。同时，系统还会对数值准确性进行检查，确保生成的代码不仅快速而且正确。此外，代码长度也被纳入考虑，鼓励系统生成简洁高效的代码。

四、超越人类专家的优化技巧

在大量的实验和训练过程中，CUDA-L2系统学会了许多高级的优化技巧，有些甚至超出了人类专家的常规思维。这些技巧就像厨师在长期实践中发现的独特烹饪诀窍，既实用又出人意料。

系统首先学会了根据不同的矩阵尺寸选择合适的实现方式。对于较小的矩阵，它倾向于使用直接的WMMA（Warp Matrix Multiply Accumulate）指令，这种方法简单直接，就像制作简单料理时不需要复杂的设备一样。而对于大型矩阵，系统则倾向于使用更复杂的CuTe抽象框架，这样可以实现更精细的多阶段流水线优化。

特别有趣的是，CUDA-L2发现了一种反直觉的优化策略：矩阵零填充技术。传统的GPU编程通常要求矩阵维度能够被块大小整除，以避免边界处理的复杂性。但CUDA-L2发现，有时候故意选择不能整除的块大小，然后通过零填充来扩大矩阵，反而能够获得更好的性能。

举个具体例子，对于8192×512×2048的矩阵乘法，传统方法会选择能够整除8192的块大小，比如128。但CUDA-L2选择了块大小160，将矩阵M维度从8192填充到8320，虽然增加了大约1.6%的计算开销，但整体性能提升了15.2%。这就像在烹饪时故意多加一点水，虽然看似浪费，但能让食材更好地融合，最终味道更佳。

在内存访问优化方面，CUDA-L2掌握了高级的双缓冲技术。传统方法在执行矩阵运算时，会先加载数据A，然后加载数据B，最后进行计算。但CUDA-L2学会了使用乒乓缓冲策略：分配两套寄存器空间，在使用一套进行计算的同时，另一套预先加载下一轮的数据。这种技术极大地提高了计算和内存访问的重叠度，减少了等待时间。

系统还发现了激进的寄存器级预取策略。标准的预取通常只提前一步加载数据，但CUDA-L2在某些配置下会提前多步加载数据，将多个迭代的数据都预先准备好。这种策略在循环次数较多且寄存器资源充足时特别有效，就像厨师在制作复杂菜品时会提前准备好几个步骤的食材一样。

在数据传输方面，CUDA-L2优化了结语阶段的寄存器到共享内存的拷贝过程。传统方法通常需要两步：先将寄存器数据拷贝到临时张量，再从临时张量拷贝到共享内存。但系统发现，当寄存器布局与共享内存布局匹配时，可以直接进行拷贝，并且使用更宽的数据类型（如uint128_t）来提高传输效率。

另一个创新是错位的A-B预取调度策略。传统方法会连续预取矩阵A和B的数据，然后执行计算。但CUDA-L2发现，将A矩阵预取、计算执行和B矩阵预取交错进行，可以更好地利用GPU的指令级并行能力，提高整体吞吐量。

五、验证与测试：科学的性能评估

为了确保研究结果的可靠性，研究团队设计了一套严格的测试和验证体系。这个过程就像为一款新药进行临床试验，需要在各种条件下验证其安全性和有效性。

首先是代码正确性验证。GPU编程的一个挑战是浮点运算的非结合性，也就是说(a+b)+c的结果可能与a+(b+c)不同，这在普通的整数运算中是不可能发生的。为了解决这个问题，研究团队设计了巧妙的验证方法。

他们使用二进制输入矩阵进行精确匹配测试。矩阵元素只能是0或1，这样每次乘法运算的结果也只能是0或1，最终的求和结果是确定的整数。由于半精度浮点格式能够精确表示0到2048之间的所有整数，团队要求在结果小于2048的位置必须与参考实现完全一致。这种方法既保证了计算的准确性，又避免了浮点运算固有的精度问题。

对于一般情况的验证，团队采用了基准界限偏差法。他们选择了包括cuBLAS-NN、cuBLAS-TN、cuBLASLt-启发式和cuBLASLt-自动调优在内的多个高可靠性基准库，计算它们之间的最大逐元素差异，将此作为浮点计算变异性的上界。如果CUDA-L2生成的代码的偏差超过这个上界，则认为是不正确的。

性能测试采用了严格的时间测量方法。团队使用CUDA事件进行精确计时，每次测试包括预热阶段和正式计时阶段，测试时间至少持续30秒以确保统计的稳定性。为了消除执行顺序的影响，每次迭代都会随机化执行顺序。

测试环境分为两种模式来模拟不同的应用场景。离线模式中，核心代码连续执行，模拟批量处理的情况，这时GPU保持满负荷运行状态。服务器模式中，核心代码以随机间隔执行，模拟实际推理服务中请求到达的不规律性。有趣的是，服务器模式下的性能提升通常更大，这是因为间歇性执行会导致GPU缓存失效和热状态变化，而优化良好的代码能够更快地重新达到最佳状态。

测试范围覆盖了1000种不同的矩阵配置，这些配置代表了从64到16384各种尺寸的所有10^3种组合。这个测试集不仅规模庞大，而且具有很强的实际意义，涵盖了当前主流AI模型中实际使用的所有矩阵尺寸。

六、令人震惊的性能表现

测试结果展现了CUDA-L2系统的卓越性能。在1000种不同配置的综合测试中，系统在所有基准测试中都取得了显著的性能提升。这种全面的优势表明，CUDA-L2发现的优化策略具有广泛的适用性，而不仅仅是在特定情况下的偶然成功。

在离线模式下，CUDA-L2相比PyTorch标准矩阵乘法平均快22.0%，这个提升幅度相当可观。考虑到PyTorch是目前最流行的深度学习框架，这意味着使用CUDA-L2的优化代码可以让大量现有应用获得显著的性能提升。相比英伟达的cuBLAS库，CUDA-L2在最优布局配置下平均快19.2%，这个结果特别令人震惊，因为cuBLAS经过了多年的精心优化。

更加难得的是，CUDA-L2甚至超越了cuBLASLt的高级优化版本。相比cuBLASLt启发式模式快16.8%，相比最强的cuBLASLt自动调优模式仍快11.4%。要知道，cuBLASLt自动调优会测试多达100种不同的算法候选并选择最佳的，这已经是相当彻底的优化了。

在服务器模式下，性能提升更加显著。相比PyTorch的28.7%提升、相比cuBLAS的26.0%提升，都比离线模式有进一步的改善。这种现象可能与GPU的热力学特性有关：在间歇性执行时，GPU会经历冷启动、加速、热调节等不同状态，而优化良好的代码能够更快适应这些状态变化。

胜率统计进一步证实了性能提升的普遍性。CUDA-L2在79.3%到95.7%的配置上都超过了各种基准，这表明性能提升不是由少数特殊情况驱动的，而是具有系统性的优势。即使在表现相对较弱的配置上，CUDA-L2通常也能保持与基准相当的性能。

从矩阵尺寸的角度分析，CUDA-L2表现出有趣的特征。对于较小的矩阵（总元素数量约为2^18到2^20），性能提升最为显著，可达40%以上。这是因为小矩阵往往无法充分利用GPU的计算资源，存在较大的优化空间。随着矩阵尺寸增大，性能提升逐渐降低，但即使对于最大的矩阵配置，CUDA-L2仍能保持与基准相当或略优的性能。

这种尺寸相关的性能特征具有重要的实际意义。在AI推理服务中，特别是处理较短序列或较小批次的情况下，小到中等尺寸的矩阵运算占据很大比例。CUDA-L2在这些场景下的显著优势意味着实际部署中可能获得比平均数据更大的性能提升。

七、深度分析：优化策略的智慧

通过对CUDA-L2生成的1000个最优配置进行系统分析，研究团队发现了许多有价值的优化模式。这些发现不仅验证了现有的GPU优化理论，还揭示了一些新的洞察。

在块大小选择方面，CUDA-L2展现出了清晰的策略。BM（M维度的块大小）与矩阵的M维度呈现强正相关（相关系数0.652），当M从256增长到4096以上时，BM相应地从约60增长到160。类似地，BN与N维度的相关性更强（相关系数0.705）。这种模式符合GPU架构的特点：较大的矩阵需要较大的块来提高计算密度和内存效率。

有趣的是，BK与K维度的相关性较弱（相关系数仅0.256），这表明BK的选择受到更复杂因素的影响，包括寄存器压力、内存带宽限制和流水线级数等。CUDA-L2学会了在这些约束之间找到最佳平衡点。

BM和BN之间的高度相关性（相关系数0.695）反映了张量核心的设计特点。现代GPU的张量核心通常采用正方形或接近正方形的指令格式（如16×8×16），使用平衡的块尺寸可以减少资源不平衡导致的性能损失。

在多阶段流水线的使用上，CUDA-L2展现出明智的策略。对于K维度较小的矩阵（≤128），系统通常选择2-3个流水线阶段，这已经足够隐藏内存延迟。而对于K维度较大的矩阵（>8192），系统会使用6个或更多的流水线阶段，通过保持多个数据加载在传输过程中来维持高吞吐量。

块交换（Block Swizzling）的使用策略反映了对内存层次结构的深刻理解。对于小问题（少于2^27次操作），系统在44%的配置中使用块交换，因为此时的开销可能超过收益。但对于大问题（超过2^36次操作），使用率达到99%，因为此时内存访问模式的优化变得至关重要。

交换步长的选择也表现出规律性。小问题使用8-128的步长值，而大问题使用512-16384的更大步长。这种模式优化了L2缓存的利用率，通过重新排列线程块的执行顺序来提高空间局部性。

这些分析结果为GPU编程提供了宝贵的指导原则。虽然CUDA-L2是通过机器学习发现这些模式的，但它们背后都有坚实的计算机架构理论支撑。这表明AI不仅能够发现有效的优化策略，还能够隐式地学习和应用复杂的硬件特性。

八、实际应用中的重大意义

CUDA-L2的突破性成果对整个AI和高性能计算领域都具有深远的影响。这不仅仅是一个学术研究的胜利，更是一个可能改变行业生态的技术突破。

从成本效益角度来看，CUDA-L2的性能提升意味着实实在在的经济价值。在大规模AI训练中，即使10%的性能提升也能带来巨大的成本节约。考虑到目前训练一个大型语言模型可能需要数百万美元的计算资源，CUDA-L2的15-30%性能提升可能节省数十万甚至数百万美元的成本。

对于AI推理服务来说，影响同样显著。云服务提供商如AWS、Azure和Google Cloud每天要处理数亿次的AI推理请求，CUDA-L2的优化可以让他们用更少的GPU提供相同的服务能力，或者在相同硬件上服务更多用户。这种效率提升最终会惠及所有AI应用的最终用户。

从技术发展趋势来看，CUDA-L2开创了一个新的范式：使用AI来优化AI的基础设施。这种自我优化的能力可能会成为未来AI系统的标准特征。随着AI模型变得越来越复杂，人工优化的成本和难度都在急剧上升，而自动化优化工具变得不可或缺。

环境影响方面，CUDA-L2的贡献也不容忽视。AI训练和推理的能耗已经成为一个重要的环境问题，性能优化直接意味着能耗的降低。按照CUDA-L2的性能提升幅度估算，在全球范围内可能节约数千兆瓦时的电力消耗，相当于减少大量的碳排放。

技术普及的角度也很重要。CUDA-L2降低了高性能GPU编程的门槛，使得更多开发者能够获得接近专家级的优化效果。这种技术民主化可能会催生更多创新的AI应用，推动整个行业的发展。

然而，这项技术的影响也带来了一些思考。如果AI能够在如此核心的技术领域超越人类专家，这对传统的软件开发模式意味着什么？未来的程序员需要具备哪些新的技能来适应这种变化？这些都是值得深入探讨的问题。

九、未来发展的无限可能

虽然CUDA-L2目前专注于A100 GPU架构，但研究团队已经规划了更加宏大的发展路线图。他们正在将这套方法扩展到其他GPU架构，包括RTX系列的Ampere架构、RTX 4090等的Ada Lovelace架构、H100的Hopper架构，以及最新的B200等Blackwell架构。

每种GPU架构都有其独特的特性和优化要点，就像不同品牌的炊具需要不同的烹饪技巧一样。Ampere架构引入了稀疏矩阵计算能力，Hopper架构具有更强大的张量核心和变换器引擎，而Blackwell架构则进一步提升了AI推理的效率。CUDA-L2的框架设计具有很强的可扩展性，能够适应这些不同架构的特点。

除了硬件架构的扩展，研究团队还在探索更多类型的计算核心优化。矩阵乘法只是GPU计算的一部分，还有卷积、归约、注意力机制、激活函数等众多重要操作都有优化的潜力。CUDA-L2的方法论可以应用到这些领域，potentially creating a comprehensive AI-driven optimization ecosystem。

在算法层面，团队正在研究更先进的强化学习策略和代码生成技术。当前的系统主要基于文本生成，未来可能会融入更多结构化的程序合成技术，使AI能够更好地理解和生成复杂的优化策略。

代码生成的范围也在扩展。除了CUDA C++，团队正在探索支持更多编程模型，包括OpenAI Triton、HIP、OpenCL等。这种多平台支持将使CUDA-L2的优化能力扩展到更广泛的硬件生态系统。

更令人兴奋的是，这种AI辅助优化的理念可能会扩展到整个软件栈。从编译器优化、内存管理、任务调度，到网络通信、存储系统，都可能受益于类似的自动化优化方法。我们可能正在见证一个新时代的开始，在这个时代里，AI不仅是应用的主角，也是优化自身基础设施的重要工具。

从更宏观的角度看，CUDA-L2代表了AI研究的一个重要方向转变。传统的AI研究主要关注算法的准确性和泛化能力，而现在我们开始看到更多关注效率和实用性的研究。这种转变反映了AI技术从实验室走向实际应用的成熟过程。

说到底，CUDA-L2的成功不仅仅是一个技术突破，更是一个概念上的突破。它证明了AI系统可以在高度专业化的技术领域超越人类专家，这为我们重新思考AI与人类专家的关系提供了新的视角。未来的技术发展可能更多地依赖于人机协作，其中AI处理大规模的搜索和优化任务，而人类专家提供创意、直觉和战略指导。

归根结底，CUDA-L2为我们展示了一个充满可能性的未来。在这个未来里，AI不仅能够解决我们交给它的问题，还能够不断改进自己解决问题的能力。这种自我改进的特性可能是通向更强大AI系统的关键路径，也是实现AI技术真正普及和民主化的重要途径。有兴趣深入了解这项研究的读者可以通过arXiv:2512.02551v1查询完整的论文内容。

Q&A

Q1：CUDA-L2是什么，它有什么特别之处？

A：CUDA-L2是DeepReinforce团队开发的AI系统，它能自动编写GPU计算代码，并且性能超越了英伟达官方库。它的特别之处在于首次证明了人工智能可以在矩阵计算这一GPU最核心操作上超越人类专家的手工优化，平均性能提升11.4%-28.7%。

Q2：CUDA-L2的性能提升对普通用户有什么实际好处？

A：对普通用户来说，这意味着AI模型训练和推理会更快更便宜。比如ChatGPT这样的服务响应速度会更快，训练成本降低也可能让AI服务价格更便宜，同时减少电力消耗对环境更友好。

Q3：CUDA-L2是如何工作的？

A：CUDA-L2结合了大型语言模型和强化学习技术，就像一个会编程的AI厨师。它先学习大量GPU编程代码，然后通过不断尝试生成新代码并在实际硬件上测试性能，根据结果反馈来改进自己的代码生成能力，最终发现了超越人类专家的优化策略。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.