网易首页 > 网易号 > 正文 申请入驻

英伟达23人梦之队,让AI用7天干翻了自己的GPU专家

0
分享至

AI在7天内自主完成了通常需要专家数月甚至数年的GPU内核优化,而且结果比自己家的王牌产品还快10%——今天,学术预印本平台arXiv上发布了一项被视为可能彻底改变软件和芯片优化方式的突破性研究。


这一研究由NVIDIA组建的一支23人的顶级团队完成,名为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》(AVO:用于自主进化搜索的智能体变异算子)。

简单来说,AVO(Agentic Variation Operators,智能体变异算子)是让AI自己当起了“程序员+架构师+测试员”的合体,去探索人类工程师可能永远想不到的底层代码优化方案,最终在英伟达最新的Blackwell(B200)GPU上,写出了比当今最顶尖人类专家团队(如cuDNN和FlashAttention-4)编写的代码还要快10%以上的高性能计算内核。

值得注意的是,其核心开发者许冰在X上表示,他一开始根本不懂GPU编程,也由此开启了这一段“盲编码”的探索——也许,“不懂”才是最大的优势,人类的认知反而会成为进化的局限。

再见!传统进化算法的局限

想象一下,你有一套非常精密的计算程序(比如现在最火的AI模型中的“注意力机制”),这套程序要在显卡(GPU)上跑得飞快。为了达到这个目标,专业的程序员们通常要花费几个月甚至几年时间,手动调整代码、优化内存访问、设计特殊算法,最终才能比通用版本快个20%、30%。

但这些手工优化有个大问题:太慢了、太依赖个人经验了。硬件在变、算法在变,每次都需要重新优化。

为了自动化这个过程,科学家们想到了“进化算法”:就像生物进化一样,随机生成一批代码,测试哪个跑得快,保留快的,变异出下一代,不断重复。但这个方法有个致命缺陷:变异操作是“盲目的”——传统进化算法中的"变异"就是简单的随机修改、交换代码片段。这就好比你想让猴子打出莎士比亚的作品,纯靠随机敲键盘是不行的。

而且,传统的进化算法和“大模型辅助设计”思路,通常把AI(大语言模型)限定在一个固定的流程里。比如,人类设定好规则(“变异”和“交叉”),让AI生成一堆代码候选方案,然后由人类或另一个程序来筛选和测试。


AVO的革命性在于,它彻底颠覆了这个关系。 它不再把AI当作流程中的一个“候选生成器”,而是将整个变异过程本身,交给一个自主的智能体循环来完成。这个智能体拥有更高的权限和更全面的视角,它可以:

  • 查阅整个进化家谱:查看当前所有代码版本的优劣和历史。
  • 调用领域知识库:学习特定领域(如GPU硬件架构)的专门知识。
  • 分析执行反馈:根据代码的实际运行性能数据,进行自我诊断。

基于这些信息,这个智能体可以自主完成提出修改、修复错误、批判方案、验证结果等一系列完整动作。这就像一个不知疲倦、知识渊博且具备批判性思维的全栈工程师,在持续地重构和优化代码。


实战成绩:在最难优化的战场上击败人类冠军

为了证明AVO的强大,研究团队选择了一个公认的“硬骨头”作为测试场:注意力机制(Attention)的计算内核。这是驱动当今所有大语言模型(如ChatGPT、Gemini)的核心组件,也是全球顶尖工程师和科学家投入巨资、激烈优化的焦点。英伟达的cuDNN和Tri Dao团队的FlashAttention系列,就是这一领域的标杆。

在让AVO在最新的NVIDIA Blackwell (B200)显卡上运行7天后,实验的结果惊人:



  • 超越cuDNN:AVO形成的多头注意力(Multi-Head Attention,MHA)计算内核,在测试的各项配置中,性能超越了cuDNN高达3.5%。cuDNN是NVIDIA自家工程师花了多年打磨的闭源库,AVO一个AI系统跑了7天就超越了它。这相当于学生超越了老师,而且这个老师已经是全世界最好的。
  • 超越FlashAttention-4:比学术界最先进注意力计算方法FlashAttention-4快10.5%。这种程度的提升已经可以称之为革命性的突破了。
  • 迁移能力:更神奇的是,AVO优化好的代码还能举一反三——在MHA上进化7天的成果,迁移到GQA(Grouped-Query Attention,分组查询注意力)只需30分钟就能获得7%-9%的提升。说明AVO学到的不是死记硬背的特定优化,而是通用的优化策略和思维方式。
  • 微架构级别的深度优化:AVO发现的优化不是简单的换个算法,而是深入到GPU寄存器分配、warp调度、流水线时序的微架构级别。这说明AI已经具备了理解硬件底层行为的能力。
这意味着什么?

传统方法像是在填空题里选答案,而AVO像是在开放题中自由发挥,可以探索各种可能性。而且,AVO不是靠猜什么优化有用,而是真正运行代码、测量性能,用数据驱动进化。同时,智能体会从每次尝试中学习,失败的尝试也有价值,告诉它这条路不通。

AVO让AI像真正的程序员一样,会学习、会思考、会测试,最终写出了比人类专家还快的代码。这是AI优化自身能力的重要一步。

从其进化结果来看,对AI硬件优化意味着:更快的大模型训练,如果注意力机制计算能加速10%,整个大模型训练都能更快;降低硬件门槛,同样的硬件能跑更大的模型,或者同样的模型能用更便宜的硬件;解放专家,不再需要顶尖优化工程师花费数月手工调优。

从这一AI研究方向而言,这篇论文证明了一个重要观点:AI不仅可以用来自动化任务,还可以用来自动化优化本身。未来可能会有更多“AI优化AI”的场景。

结语

这篇论文全部23位作者涵盖了AI编译器、高性能计算、计算机视觉、生成式AI等多个顶级子方向——AI智能体编程先锋(Terry Chen, 许冰)、 AI编译器之父(陈天奇)、NVIDIA研究VP(Ming-Yu Liu)、 GPU内核专家(John Tran, Andrew Kerr)、注意力机制专家(Ali Hassani)、学术界权威(Humphrey Shi, Luis Ceze),以及系统工程支撑团队。

这是一个从理论到工程、从学术到产品全链路覆盖的顶级团队。AVO不是一篇试试看的探索性论文,而是NVIDIA精心布局的战略级成果。

从更宏观的视角看,AVO代表了AI研发范式的又一次进化。它不再满足于让AI生成内容或遵循指令,而是赋予其长期的、目标导向的、具备反思能力的自主探索权。它也为我们打开了一扇门:未来,在芯片设计、编译器优化、算法创新等需要极度专业知识和创造力的领域,自主进化的AI智能体可能成为人类最得力的“共研者”。它们可以不知疲倦地探索人类思维难以触及的“微观架构”组合空间,加速我们迈向更强大、更高效计算未来的进程。

或许,这项研究正像一颗投入湖面的石子,其涟漪将逐渐扩散至整个计算产业的每一个角落。

论文地址 https://arxiv.org/pdf/2603.24517v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方:CCTV16转播U23国足vs朝鲜U23

官方:CCTV16转播U23国足vs朝鲜U23

懂球帝
2026-03-27 11:49:27
这三个生肖人不能养猫,普贤菩萨:不是养不起,是相生相克,因果相撞

这三个生肖人不能养猫,普贤菩萨:不是养不起,是相生相克,因果相撞

古怪奇谈录
2025-09-26 13:03:13
谁赢,他们帮谁,伊朗等来最大强援,美陷入死局,后悔也来不及了

谁赢,他们帮谁,伊朗等来最大强援,美陷入死局,后悔也来不及了

阿伧说事
2026-03-28 01:58:57
认清六合彩违法本质:涉赌必追责,广东多地判例敲响警钟

认清六合彩违法本质:涉赌必追责,广东多地判例敲响警钟

花小猫的美食日常
2026-03-27 18:37:58
国企老总收法国间谍18亿贿赂,大肆出卖国家利益,后来如何

国企老总收法国间谍18亿贿赂,大肆出卖国家利益,后来如何

老黄有话
2024-04-09 08:00:03
我自驾西藏,遇徒步女大学生搭车,同行3天后,才知自己躲过一劫

我自驾西藏,遇徒步女大学生搭车,同行3天后,才知自己躲过一劫

千秋文化
2026-03-09 20:53:50
钟楚曦马尔代夫度假,大尺度泳衣大秀好身材,大长腿太吸睛!

钟楚曦马尔代夫度假,大尺度泳衣大秀好身材,大长腿太吸睛!

圆梦的小老头
2026-03-02 22:32:57
记者:卢卡库拒绝回到那不勒斯进行恢复,他将遭到俱乐部罚款

记者:卢卡库拒绝回到那不勒斯进行恢复,他将遭到俱乐部罚款

懂球帝
2026-03-27 20:42:22
贾康重磅发声!3月25日北京传来大消息,房地产真的止跌回暖了?

贾康重磅发声!3月25日北京传来大消息,房地产真的止跌回暖了?

林子说事
2026-03-28 04:43:11
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

灿若银烂
2026-02-27 20:11:39
这种成熟女人的打扮,比起网红小姐姐的穿搭,显得更有韵味

这种成熟女人的打扮,比起网红小姐姐的穿搭,显得更有韵味

美女穿搭分享
2026-03-20 19:00:03
年终盘点:速腾L连续十年细分市场销冠,品牌护城河深不可测?

年终盘点:速腾L连续十年细分市场销冠,品牌护城河深不可测?

汽车网评
2025-12-29 15:42:26
高龄老人不用吃他汀?权威研究:70岁以上高危者吃了更长寿

高龄老人不用吃他汀?权威研究:70岁以上高危者吃了更长寿

医学科普汇
2026-02-26 21:15:04
别再用现金行贿受贿了!大数据一查就现形,全程 “裸奔” 藏不住

别再用现金行贿受贿了!大数据一查就现形,全程 “裸奔” 藏不住

复转这些年
2026-02-09 23:45:54
赖清德还在窃喜?柯文哲判17年、蔡正元入狱,国防部当场撂下硬话

赖清德还在窃喜?柯文哲判17年、蔡正元入狱,国防部当场撂下硬话

奇思妙想生活家
2026-03-28 03:55:42
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

潮鹿逐梦
2026-03-18 10:26:41
秘密曝光了!欧尔班政府的飞机从俄罗斯运回大量的资金和贵重物品

秘密曝光了!欧尔班政府的飞机从俄罗斯运回大量的资金和贵重物品

蓝色海边
2026-03-28 04:02:59
朱芳雨和杜锋产生了意见分歧!

朱芳雨和杜锋产生了意见分歧!

体育哲人
2026-03-27 18:33:05
2026-03-28 05:44:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131457文章数 862022关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

伊朗:正制定战争结束条件 美以将被迫接受现实

头条要闻

伊朗:正制定战争结束条件 美以将被迫接受现实

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

房产
教育
时尚
健康
手机

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

教育要闻

985保卫处招聘要求硕士及以上,学校回应

推广中奖名单-更新至2026年3月11日推广

干细胞抗衰4大误区,90%的人都中招

手机要闻

苹果iOS 26.4导致《生化危机》游戏崩溃,官方回应“正在调查”

无障碍浏览 进入关怀版