网易首页 > 网易号 > 正文 申请入驻

英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核

0
分享至



机器之心编辑部

近日,来自字节跳动 Seed 团队和清华大学 AIR的新研究CUDA Agent,在 AI 领域引发了不小的轰动。

研究人员训练了一个能够编写快速 CUDA 内核的模型:不只是正确的内核,而是真正经过优化的内核。

在简单/中等内核上,它的性能比 torch.compile高出 2 倍;在复杂内核上,它的性能比 torch.compile高出约 92%;即使在最难的设置下,它的性能也比 Claude Opus 4.5 和 Gemini 3 Pro高出约 40%



  • 论文链接:https://arxiv.org/abs/2602.24286
  • 项目主页:https://cuda-agent.github.io/
  • Github链接:https://github.com/BytedTsinghua-SIA/CUDA-Agent
  • 数据集链接:https://huggingface.co/datasets/BytedTsinghua-SIA/CUDA-Agent-Ops-6K

在此之前,GPT、Claude 等大模型已经能写出「正确」的 CUDA 代码,AI 生成的代码也已获得了一定程度的应用,但能跑通和跑得快完全是两码事。

GPU 内核优化是现代深度学习的基础,但它仍然是一项高度专业化的工作,需要深厚的硬件知识。现有的 AI 生成 CUDA 代码通常依赖无训练的提示工程(Prompting)或多轮执行反馈微调的机制。这导致模型只能解决表面上的语法错误,无法真正理解底层硬件逻辑,一定程度上限制了其内在的优化能力。

真正极致的 CUDA 优化需要处理的任务,是只有在性能分析器中才能看到的硬件级指标。人们一直期待能出现一个像人类 CUDA 专家一样思考的 AI。

针对这一矛盾,CUDA Agent 的核心理念简单而巧妙:CUDA 性能并非取决于正确性,而是取决于硬件。线程束、内存带宽、内存冲突——这些只有在性能分析器中才能看到的东西。

研究人员不再奖励「是否编译成功」,而是奖励实际的GPU速度。真实的性能分析数据。强化学习直接基于性能进行训练。

产生的效果出乎人们的预料。

在 KernelBench 基准测试上,CUDA Agent 取得了 SOTA 的成绩:在 Level-1、Level-2 和 Level-3 三个划分上,相比 torch.compile 分别实现了 100%、100% 和 92% 的加速比例(faster rate)。



CUDA Agent 与 torch.compile 和强大的专有模型在 KernelBench 上的对比。

简而言之,CUDA Agent是一个大规模的智能体强化学习系统,包含三个核心组成部分:可扩展的数据合成机制、一个集成技能增强且具备可靠验证与性能分析能力的 CUDA 开发环境,以及用于稳定长上下文训练的强化学习算法技术。

此外,研究团队同时发布了CUDA-Agent-Ops-6K,一个经过严格筛选与数据污染控制的高质量合成训练数据集,可支持基于强化学习的 CUDA 内核优化研究的复现。

系统管线设计

数据合成

研究团队通过一个三阶段的管线来构建训练任务:种子问题爬取、基于 LLM 的组合式合成,以及基于执行结果的筛选。

  • 从 torch 和 transformers中挖掘种子算子。每个算子都以一个 Python 类的形式表示,包含初始化和前向传播方法。
  • 在组合式合成阶段,最多采样 5 个 torch 算子,并将它们按顺序组合,构造成融合任务。
  • 筛选阶段仅保留那些在 eager 模式和 compile 模式下都能正常运行的任务,同时移除包含随机性的算子。
  • 为防止「投机取巧」,剔除在不同输入下输出为常数或无法区分的任务。
  • 在工作负载控制方面,将 eager 模式下的运行时间限制在 1ms–100ms 区间内,并移除与 KernelBench 高度相似的样本。



三阶段数据收集管线

最终整理得到 6000 条训练样本,构建了 CUDA-Agent-Ops-6K 数据集,该数据集专为可扩展的强化学习训练而设计,兼具广泛的任务多样性和较低的数据污染风险。

智能体环境

智能体循环管线遵循一种 ReAct 风格的工作流,结合代码工具与 CUDA Skill 规范(SKILL.md),支持迭代式的编码-编译-调试循环,以及基于性能分析器的优化过程。

  • 标准工作流程:对原生 PyTorch 实现进行性能分析,编写 CUDA 内核及其绑定代码,在 GPU 沙盒环境中完成编译,并不断迭代优化。
  • 目标要求:通过正确性检查,并在性能上相对于 torch.compile 实现超过 5% 的加速。
  • 稳健的奖励机制采用基于里程碑的离散奖励设计,根据正确性达标情况和性能提升幅度分别给予奖励。
  • 防止奖励作弊的控制措施包括:对验证与性能分析脚本进行保护,禁止回退调用,采用 5 组不同输入进行正确性检查,在同步预热后进行性能分析,以及禁止网络检索。



这些约束共同构建了可靠的、基于真实执行结果的反馈机制,使策略学习聚焦于内核质量的实质性提升,而非依赖取巧或捷径行为。

训练流程

训练过程采用分阶段设计,以稳定 CUDA 编码这一长时序强化学习任务。首先进行单轮 PPO 预热训练,随后分别初始化 actor 和 critic,最后进入完整的多轮智能体强化学习阶段。

  • 单轮预热阶段旨在提升基础的 CUDA 代码生成能力,为后续的交互式智能体训练打下基础。
  • 在 actor 初始化阶段,采用基于正向结果轨迹采样的拒绝式微调(RFT)。
  • RFT 过滤机制会剔除低效循环以及无效的工具调用模式,从而降低策略崩溃的风险。
  • critic 初始化阶段通过价值函数预训练,使得从训练早期开始,优势估计就具备较高可靠性。



借助这一多阶段训练设计,系统在长上下文设定下(最长 128k 上下文、训练阶段最多 150 轮、评估阶段最多 200 轮)依然保持稳定,从而实现持续的奖励增长。

核心实验结果

研究团队在 KernelBench 上报告了针对整体和 Level-3 拆分的完整指标,包括通过率、提速率(与 Eager 对比/与 Compile 对比)以及几何平均加速比(与 Eager 对比/与 Compile 对比)。



与强大的专有基线模型相比,CUDA Agent 在相对于 Compile 的性能优化上展现出显著优势:在整体 KernelBench 基准测试中,其相对 Compile 的加速达成率达到 96.8%,几何平均加速比为 2.11 倍

这一优势在高难度设置下尤为明显:在 Level-3 上,CUDA Agent 相对 compile 的加速达成率达到 90%,相比最强的专有基线高出约 40 个百分点;在 Level-2 的算子序列任务上,其加速达成率达到 100%,几何平均加速比达到 2.80 倍。



在 KernelBench 上的整体性能和加速指标。

本研究存在两个主要局限。

首先,此次研究未将 CUDA Agent 与更为复杂的编译器框架(如 TVM)进行对比。其次,训练流程依赖于大规模 GPU 资源池以及进程级隔离机制,这带来了相当可观的计算与工程成本。探索更加资源高效的训练策略,将是未来的重要研究方向。

看起来,CUDA Agent 等技术的出现即将打破传统编译器(如torch.compile或Triton)的优化瓶颈。它证明了:大语言模型不仅可以学习人类自然语言和高级编程语言,还可以通过基于硬件反馈的强化学习,内化出极高门槛的「硬件直觉」。

一条通向全自动、高度性能优化计算基础设施的道路正在出现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

橘子约定
2026-05-12 20:44:04
谢晖现状:重返上海申花,俄罗斯妻子风韵犹存,儿女双全财富自由

谢晖现状:重返上海申花,俄罗斯妻子风韵犹存,儿女双全财富自由

梁岱爱玩车
2026-05-03 18:54:17
53岁段奕宏跑步被偶遇,住北京豪宅小区环境如公园

53岁段奕宏跑步被偶遇,住北京豪宅小区环境如公园

萧鑟科普解说
2026-05-12 19:13:13
无忧传媒发布公告:经友好协商,与王暖暖女士正式解约;3年来完成超过300次商务合作

无忧传媒发布公告:经友好协商,与王暖暖女士正式解约;3年来完成超过300次商务合作

扬子晚报
2026-05-11 16:23:20
莫名其妙!世界银行前行长竟要求中国,“不许囤积化肥和粮食”

莫名其妙!世界银行前行长竟要求中国,“不许囤积化肥和粮食”

丁丁鲤史纪
2026-05-12 18:01:22
与日本荷兰同组!瑞典世界杯26人名单:1亿神锋入选 巴萨红星无缘

与日本荷兰同组!瑞典世界杯26人名单:1亿神锋入选 巴萨红星无缘

我爱英超
2026-05-12 23:03:21
伊朗没料到:打了一仗,没灭掉以色列,反在家门口逼出一个更狠的

伊朗没料到:打了一仗,没灭掉以色列,反在家门口逼出一个更狠的

一家说
2026-05-13 07:03:01
“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做6事

“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做6事

路医生健康科普
2026-05-11 17:39:53
天坛公园:5月13日至14日暂停开放

天坛公园:5月13日至14日暂停开放

南方都市报
2026-05-12 12:01:58
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
56岁张嘉益现状,住西安大别墅,二婚娶女演员,如今新剧获赞

56岁张嘉益现状,住西安大别墅,二婚娶女演员,如今新剧获赞

标体
2026-05-12 19:18:39
特朗普访华团名单大换血!多了个不该少的人,少了个不该多的人

特朗普访华团名单大换血!多了个不该少的人,少了个不该多的人

赵探长TALK
2026-05-12 17:20:15
坏消息,湖人队东契奇西班牙之行发现伤情严重,夏天复出希望渺茫

坏消息,湖人队东契奇西班牙之行发现伤情严重,夏天复出希望渺茫

好火子
2026-05-12 23:02:23
日乒赛后采访:三单派出桥本,是早已猜测国乒会派出蒯曼!

日乒赛后采访:三单派出桥本,是早已猜测国乒会派出蒯曼!

林子说事
2026-05-13 06:05:11
心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理学上说:如果一个人对家人不耐烦、易发火,对外人却客客气气、够温和,不是本性凉薄,根源无外乎有两点

心理观察局
2026-05-12 09:06:23
广东5人合同到期!杜润旺+2小将或留队,王少杰租借到期买断吗?

广东5人合同到期!杜润旺+2小将或留队,王少杰租借到期买断吗?

篮球资讯达人
2026-05-13 01:31:06
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

娶到小时候的女神是一种怎样体验?三天没出门,后来想想不过如此

另子维爱读史
2026-04-04 21:35:59
妻子参加同学聚会,我扮服务员潜入,见妻子被求婚她答应,我鼓掌

妻子参加同学聚会,我扮服务员潜入,见妻子被求婚她答应,我鼓掌

千秋历史
2026-05-11 20:35:52
曾因综艺爆红,广州东山口“明星老洋房”6310万元流拍

曾因综艺爆红,广州东山口“明星老洋房”6310万元流拍

中国房地产报官方号
2026-05-12 17:05:35
2026-05-13 08:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12979文章数 142648关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

凯文·沃什出任美联储主席 其岳父是特朗普总统的老友

头条要闻

凯文·沃什出任美联储主席 其岳父是特朗普总统的老友

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

利润再腰斩 京东干外卖后就没过过好日子

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

房产
数码
旅游
健康
时尚

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

数码要闻

首发883.15元!小米路由器BE7200 Pro开售:全2.5GE网口 家里网关都省了

旅游要闻

上海居民恢复金门马祖游后,首批游客已成行

干细胞能让人“返老还童”吗

普通人真该学学如何穿搭!多穿裙子比裤子更时髦,大方提气质

无障碍浏览 进入关怀版