网易首页 > 网易号 > 正文 申请入驻

华人团队实现AI自动寻优,矩阵乘法核心首超CUDA闭源库

0
分享至

“矩阵乘法是英伟达 CUDA 生态最核心的护城河之一。而我们打造的 CUDA-L2 在大规模、系统性的评测中,超越英伟达针对该核心算子的闭源优化方案。我们不仅实现了超越,而且将方法开源,这对于打破技术壁垒具有标志性意义。”DeepReinforce 公司工程师苏松乔告诉 DeepTech。

近日,苏松乔和合作者打造出一款名为 CUDA-L2 的智能系统,通过结合 AI 模型和强化学习,成功造出能以极高速度在 GPU 上运行的矩阵乘法核心程序。CUDA-L2 能够自动搜索成千上万种可能的程序编写方式,以实际运行速度作为奖励,引导 AI 找到最优解。

在 A100 这款高性能 GPU 上,它生成的程序比当今业界最优秀的官方库比如英伟达的 cuBLAS 还要快上 19%,在模拟真实服务器环境的测试中,速度优势更是扩大到 26%。这意味着未来的 AI 应用,从实时对话到复杂科学计算,都可能因此变得更快和更高效。

苏松乔表示:“这项成果的应用前景非常直接。大模型超过一半的 GPU 计算时间都花在矩阵乘法上。因此,矩阵乘法算子的性能提升,将直接、成比例地提升大模型的整体运行效率。理论上,若矩阵乘法速度提升 10%,大模型的效率可提升约 5%。”

他和合作者曾用 ChatGPT 粗略估算,矩阵乘法 10% 的性能提升,可能为全球 GDP 带来约 4,400 亿美元的增长,相当于全球 GDP 的 0.4%。虽然这只是估算,但足以说明其底层基础性技术带来的巨大经济影响力。实际应用上,只需将现有大模型框架中的矩阵乘法计算替换为我们更快的实现即可。


(来源:https://arxiv.org/abs/2512.02551)

在 GPU 上高效执行矩阵乘法到底有多难?

矩阵乘法是 AI 模型中最基础、最耗时的计算操作之一。过去,优化这类计算程序是顶级工程师的专属领域,需要针对不同的问题规模和不同硬件进行极其复杂且耗时的调整。

我们可以把矩阵乘法想象为一个排列整齐的 Excel 表格。矩阵乘法就是一种特殊的规则,用于将两个这样的表格合并从而生成一个全新的表格。这个操作在 AI 领域几乎无处不在,几乎是所有智能计算的基石。无论是让 AI 生成一幅画还是理解一句话,亦或是推荐一个视频,背后都有海量的矩阵乘法在默默工作。

然而,在 GPU 上高效执行这个矩阵乘法非常困难。GPU 就像一台拥有成千上万个小型计算核心的超级引擎,如何把计算任务合理分给这些核心,如何让数据在高速但是容量有限的记忆单元之间流畅移动,都需要精秒的设计,同时不同大小的表格需要完全不同的优化策略。


(来源:https://arxiv.org/abs/2512.02551)

当 AI 遇见强化学习

传统上,设计这些高速计算程序也就是内核,是人类工程师所要面临的艰巨任务之一。但是本次 CUDA-L2 系统引入了一个全新的设计师:即一个经过海量代码训练的大模型。这个模型从一开始就懂得很多编程知识,可谓非常的博学。

但是,光有博学还不够,关键是要学会优化。CUDA-L2 采用了强化学习的方法来开展训练。强化学习不会告诉模型每一步具体怎么走,而是设置一个目标让模型去尝试各种动作。

当它做出一个动作导致分数增加时,它就得到了奖励,从而知道这个动作是好的;反之,分数减少则是一种惩罚。通过多次的尝试,模型就能自己摸索出来通关的最佳策略。

CUDA-L2 的训练过程也是如此。模型尝试生成不同的计算程序,系统会实际地运行它们,并使用运行速度作为奖励分数。同时,程序如果出错或者写得太冗长也会被扣分。就这样,在数百万次的尝试和学习中国,模型逐渐掌握了编写超高速矩阵乘法程序的秘籍。它甚至能够参考详细的硬件性能报告,从内存吞吐量、计算单元利用率等数据中学习如何调整程序。


(来源:https://arxiv.org/abs/2512.02551)

谈及这一成果的后续计划,苏松乔说道:“目前,这篇论文尚未正式投稿,我们更关注于在 GitHub 上持续开源和更新代码,推动工业界的实际应用。我个人已工作多年,此前长期在 Meta(原 Facebook)从事与 AI 基础设施、网络、数据库和推理优化相关的系统研发工作,目前处于创业阶段。”

参考资料:

相关论文 https://arxiv.org/abs/2512.02551

Github 链接:https://github.com/deepreinforce-ai/CUDA-L2

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
民进党政客就军购议题“告洋状”,国民党拟过年后启动反制

民进党政客就军购议题“告洋状”,国民党拟过年后启动反制

海峡导报社
2026-02-07 15:23:20
男子离婚5年,街头偶遇前妻摆摊:没想到一问情况彻底崩溃!

男子离婚5年,街头偶遇前妻摆摊:没想到一问情况彻底崩溃!

农村情感故事
2026-01-14 12:34:53
末节15分连中关键球!哈登骑士首秀成逆转功臣 轰23+8减压米切尔

末节15分连中关键球!哈登骑士首秀成逆转功臣 轰23+8减压米切尔

颜小白的篮球梦
2026-02-08 13:30:25
高市警告普京:俄日未签和平条约,领土谈不妥,就等着终极手段?

高市警告普京:俄日未签和平条约,领土谈不妥,就等着终极手段?

时光在作祟
2026-02-08 15:59:07
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
哈登:总冠军每年只有一队能拿 但你在任何地方都可以做一个好人

哈登:总冠军每年只有一队能拿 但你在任何地方都可以做一个好人

罗说NBA
2026-02-08 15:25:55
英媒爆料:中方考虑拒绝特朗普访华!警告已发出,就看美国怎么选

英媒爆料:中方考虑拒绝特朗普访华!警告已发出,就看美国怎么选

荷兰豆爱健康
2026-02-07 20:31:32
95比39狂胜56分!中国女篮首秀杀红眼:张子宇11投9中砍21分

95比39狂胜56分!中国女篮首秀杀红眼:张子宇11投9中砍21分

篮球快餐车
2026-02-08 00:47:22
1954年,毛泽东在家中设宴招待郑洞国,郑洞国迟到片刻,毛泽东见状问道:你今年51岁?

1954年,毛泽东在家中设宴招待郑洞国,郑洞国迟到片刻,毛泽东见状问道:你今年51岁?

源溯历史
2026-01-05 16:46:20
他带着副官回老家接母亲和妻儿,母亲觉得儿媳配不上他,建议休了

他带着副官回老家接母亲和妻儿,母亲觉得儿媳配不上他,建议休了

抽象派大师
2026-02-02 04:20:47
全球首个接收大毛苏57E国家疑似被网友拍到,可能在阿尔及利亚乌姆布瓦吉附近

全球首个接收大毛苏57E国家疑似被网友拍到,可能在阿尔及利亚乌姆布瓦吉附近

蓝海梦想
2026-02-08 11:51:43
立陶宛认错求和,问如何才能恢复关系,中方开出1个条件

立陶宛认错求和,问如何才能恢复关系,中方开出1个条件

纪中百大事
2026-02-08 16:33:11
港圈史诗级聚会!周润发刘德华同框,谭咏麟开唱,陈百祥缺席!

港圈史诗级聚会!周润发刘德华同框,谭咏麟开唱,陈百祥缺席!

距离距离
2026-01-31 22:44:45
湖北工地挖出3000具尸骸,一老人见后泪流不止:我知道他们是谁

湖北工地挖出3000具尸骸,一老人见后泪流不止:我知道他们是谁

明月清风阁
2026-02-08 08:55:11
上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

上海两会炸锅!取消中高考是必然?82%家长怒怼:断了普通娃活路

户外小阿隋
2026-02-07 08:46:28
强烈的感觉28岁的樊振东,会是25岁王楚钦这辈子都忘不掉的对手。

强烈的感觉28岁的樊振东,会是25岁王楚钦这辈子都忘不掉的对手。

小光侃娱乐
2025-11-19 06:45:03
重要赛事!2月8晚上19:30,中央5套CCTV5、CCTV5+直播节目表​

重要赛事!2月8晚上19:30,中央5套CCTV5、CCTV5+直播节目表​

皮皮观天下
2026-02-08 14:40:21
前夫恢复名誉后,现任丈夫决定离婚成全妻子:你以后把我当弟吧

前夫恢复名誉后,现任丈夫决定离婚成全妻子:你以后把我当弟吧

大运河时空
2026-02-07 17:05:03
就业真卷啊!上交大、同济大学的博士,也以劳务派遣的形式就业了

就业真卷啊!上交大、同济大学的博士,也以劳务派遣的形式就业了

火山詩话
2026-01-02 18:10:27
山姆与小象超市共享同一供应商?网友质疑会员卡价值,三方回应

山姆与小象超市共享同一供应商?网友质疑会员卡价值,三方回应

齐鲁壹点
2026-01-02 20:48:10
2026-02-08 17:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16237文章数 514593关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

健康
房产
本地
手机
时尚

转头就晕的耳石症,能开车上班吗?

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

澎湃OS NEXT再次被确认:底层重构,让千元机起飞!

40+女性冬季这样穿:“长外套+裙子”,保暖与洋气双向在线

无障碍浏览 进入关怀版