网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI生成苹果Metal内核，PyTorch推理速度提升87%

2025-09-04 17:21:50　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

AI自动生成的苹果芯片Metal内核，比官方的还要好？

Gimlet Labs的最新研究显示，在苹果设备上，AI不仅能自动生成Metal内核，还较基线内核实现了87%的PyTorch推理速度提升。

更惊人的是，AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速，其中一些工作负载甚至比基准快了数百倍

真就AI Make苹果AI Great Again？

用AI为苹果设备生成内核

先说结论：通过AI自动实现内核优化，可以在无需修改用户代码、无需新框架或移植的情况下，显著提升模型性能。

为了证明这一点，研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型，让它们为苹果设备生成优化的GPU内核，以加速PyTorch推理速度。

至于为什么是苹果？别问——问就全球最大硬件供应商（doge）

接下来，让我们看看研究人员是怎么做的：

实验设置

首先，在模型选择方面，参与测试的模型包括：claude-sonnet-4、claude-opus-4；gpt-4o、gpt-4.1、gpt-5、o3；deepseek-v3、deepseek-r1。

其次，在测试输入方面，研究使用了KernelBench数据集中定义的PyTorch模块，并选取了其中215个模块进行测试。

这些被选取的模块被划分为三个等级，分别是第一级的简单操作（如矩阵乘法、卷积）；第二级是由第一级操作组成的多操作序列；第三级是完整的模型架构（如 AlexNet、VGG）。

再次，在评估指标方面，研究人员主要关注两个指标：一是AI生成内核的正确性，二是其相较于基准PyTorch的性能提升。

最后，研究使用的苹果硬件为Mac Studio (Apple M4 Max chip)，Baseline为PyTorch eager mode（划重点，一会要考）

实验测试

在上述准备完毕后，研究团队展开了测试。

测试流程如下：

接收提示（prompt）和PyTorch代码；
生成 Metal 内核；
评估其是否在正确性（correctness^4）上与基准PyTorch一致；
如果编译失败或不正确，则将错误信息回传给智能体重试，最多允许重试5次。

如上所说，研究者首先关注AI生成内核的正确性。

实验表明，正确性会随着尝试次数的增加而提升。以o3为例：第一次尝试就有约60%的概率得到可用实现，到第5次尝试时可用实现比例达到94%

此外，研究还发现推理模型非常擅长跨层级生成正确的内核，尽管非推理模型有时也能做到这一点。

那么，AI生成的内核表现如何呢？

实验结果相当惊艳，几乎每个模型都生成了一些比基准更快的内核。

例如，GPT-5在一个Mamba 25状态空间模型上实现了4.65倍的加速，其主要通过内核融合（kernel fusion）来减少内核调用的开销，并改善内存访问模式。

在一些案例中，o3甚至将延迟提升了超过9000倍！

总体而言，GPT-5平均可以带来约20%的加速，其他模型则落后。

不过，GPT并非是门门最优，研究人员发现GPT-5在34%的问题上生成了最优解

但在另外30%的问题上，其他模型生成的解比GPT-5更优！

这就意味着没有单一模型能在所有问题上都生成最优内核。

因此，如果把多个模型组合起来，就能更大概率生成最优内核。

于是乎，研究人员又展开了智能体群体实验（Agentic Swarm）。

智能体群体实验

果不其然，相较于单个模型，智能体群体策略实现了更高的性能提升。

与GPT-5相比，智能体群体在各层级平均加速31%，在Level 2问题上加速42%

在几乎没有上下文信息的情况下（仅有输入问题和提示），智能体群体就已经表现得相当不错。

接下来，研究人员尝试为智能体提供更多上下文，以获取更快的内核。

这里主要包含两个额外的信息来源：

CUDA实现（由于 Nvidia GPU的普及，通常可以获得优化过的CUDA参考实现）；
M4上gputrace 的性能分析信息。(包含Apple Script捕获的gputrace摘要、内存和时间线视图)

在具体的实施步骤中，研究者先将截图处理任务分配给一个子智能体（subagent），让它为主模型提供性能优化提示。

在收到提示后，主智能体先进行一次初步实现，然后对其进行性能分析和计时。

随后，再将截图传给子智能体以生成性能优化提示。

实验表明，在上下文配置方面也没有所谓的“单一最佳”方案。

不过，在具体的性能加速方面，加入这些额外上下文实现了平均1.87倍的加速，相较于普通智能体仅实现的1.31倍的平均加速，额外上下文将提升幅度提高了三倍！

有提升，但看跟谁比

为了更深入地讨论，我们有必要先回顾一些背景知识。

在PyTorch中，我们通常会调用如Sequential、ReLU这样的函数。

在具体的执行中，PyTorch会先将函数拆解为张量运算（矩阵乘法、加法等），再交给GPU执行。

这时就需要GPU内核（kernel）负责把这些数学操作转成GPU可理解的低级并行指令。

因此，在某种程度上，我们可以说GPU内核就像C编译器一样，其性能对于运算效率至关重要。

而上面这篇工作所做的，就是让原本必须由工程师手写的内核优化交给AI自动完成，并测试它的性能。

不过，问题就来了。

众所周知，苹果硬件并不像英伟达的CUDA一样，对PyTorch有很好的优化。

因此，这篇研究直接拿MPS后端原生实现和AI生成的内核对比是有失公允的。

不少眼尖的网友也是发现并指出了这一点：文章里所用的baseline是eager mode，这通常只用于训练调试或指标计算，不会被真正部署到设备上。

在真实部署中，一般会先把模型导出为ONNX，再编译成设备原生格式（Metal、CUDA 或 ROCm 等），这样效率会比直接用PyTorch eager mode高很多。

所以，无论内核是工程师手写，还是AI自动生成，经过优化的GPU内核都会比未优化的PyTorch推理快得多。

因此，拿调试过的内核和eager比，多少有点奇怪。

对此，研究人员回应道：

这篇工作不是为了展示部署环境的最终性能极限，而是展示AI自动生成内核的可行性。

研究的目的是在内核工程方面获得人类专家一定程度的效益，而无需开发人员的额外投入，希望通过A将部分流程自动化。

所以，重点不在于性能提升，而在原型验证。

对此，你怎么看？

[1]https://gimletlabs.ai/blog/ai-generated-metal-kernels#user-content-fn-4

[2]https://news.ycombinator.com/item?id=45118111

[3]https://en.wikipedia.org/wiki/Compute_kernel

[4]https://github.com/ScalingIntelligence/KernelBench/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

苹果开放第三方大模型：开发工具接入AI，小白10分钟造APP不是梦

雷科技 2026-02-07 16:46:36
2 跟贴 2
苹果把传统手艺交给AI了：微调千问模型自动完成UI设计

DeepTech深科技 2026-02-07 20:37:51
0 跟贴 0

AI编程节省95%token，工具调用上限狂飙20倍，记忆系统登顶GitHub

量子位 2026-02-08 12:58:38
1 跟贴 1

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

量子位 2026-02-07 18:48:49
1 跟贴 1
Claude新模型4.6让更多饭碗没了：华尔街财务、编译器、安全白帽

量子位 2026-02-06 15:23:23
5 跟贴 5

阶跃星辰Step 3.5 Flash，两天登顶OpenRouter趋势榜

雷科技 2026-02-06 23:03:27
0 跟贴 0

让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

机器之心Pro 2026-01-09 14:22:47
0 跟贴 0
7000亿美元一把梭哈？AI尚未变现，Top科技巨头已面临资金困局

钛媒体APP 2026-02-08 11:22:07
0 跟贴 0

大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0
教科书《性能之巅》作者入职OpenAI！迷弟总裁亲自欢迎

量子位 2026-02-08 13:35:04
0 跟贴 0
堪比“ChatGPT”时刻！SemiAnalysis深度解读：Claude Code将是AI “智能体”的转折点

华尔街见闻官方 2026-02-06 20:19:24
3 跟贴 3
中国联通研究院开展智能体互联网跨域协同试验

通信世界 2026-02-06 21:02:26
0 跟贴 0
程序员绝命！Claude Code疯狂渗透GitHub，26年底将提交20%

新智元 2026-02-07 17:11:17
218 跟贴 218
CUDA护城河破了？AI暴力直出82%算子，开发彻底告别手搓时代

新智元 2026-02-06 10:39:34
1 跟贴 1
MiniMax来承包你的桌面了-4

机器之心Pro 2026-01-20 20:19:42
0 跟贴 0
天下苦CUDA久矣，又一国产方案上桌了

量子位 2026-01-30 21:59:52
0 跟贴 0
延迟下降20×，token减少4.4×！突破多智能体「共识」瓶颈

新智元 2026-02-07 12:23:24
1 跟贴 1
机器人成精了？Figure 03下厨房，不经意关抽屉那一下，太像人了

新智元 2026-02-08 13:28:08
1 跟贴 1
AI看图一本正经胡说八道？「一拉一推」让模型看得全又准

量子位 2026-02-08 14:04:00
3 跟贴 3
AI进化的“新燃料”从哪来？答案就在“数据工厂”里

央视财经 2026-02-08 14:40:49
0 跟贴 0
苹果更新了 AirTag 第二代，249 元的防丢神器

爱范儿 2026-02-06 21:26:03
1 跟贴 1
OpenAI、Anthropic发新模型，一个替你写代码，一个替公司管流程

DeepTech深科技 2026-02-06 14:59:53
2 跟贴 2
具俊晔被扒！韩媒揭秘大S死亡真相，时间线反转惊人

雾以泪聚i 2026-02-07 09:30:04
0 跟贴 0
苹果用 5 年时间就优化了一个声音

爱范儿 2026-02-06 21:26:06
0 跟贴 0
苹果手机变瓷砖后续：同事爆猛料，事情不简单，策划师恐被处罚！

奇思妙想草叶君 2026-02-07 23:06:34
8 跟贴 8
苹果官宣进军AI硬件，首款无屏AI眼镜

极果酷玩 2026-02-06 20:10:14
0 跟贴 0
苹果的优缺点展现得淋漓尽致

萌萌酱追剧 2026-02-05 16:40:02
1 跟贴 1
苹果 CEO 再次上脚「三方联名」！看来他是真喜欢这双鞋

FLIGHTCLUB中文站 2026-02-08 11:49:55
3 跟贴 3
苹果折叠设计师的工作日常be like

数科先驱 2026-02-04 15:36:43
0 跟贴 0
苹果偷偷换工艺，Ultra 3 表壳上竟然有细密纹理！

爱范儿 2025-11-19 13:45:55
53 跟贴 53
OpenAI强制「处死」GPT-4o！80万老粉全网拯救：它不是代码是爱人

新智元 2026-02-08 13:26:36
0 跟贴 0
男子年会抽中苹果17ProMax，回家拆开竟是块砖

南昌晚报 2026-02-07 18:54:08
0 跟贴 0
港府当面斥责：巴拿马自毁国家信用后果自负

北京日报 2026-02-08 07:50:06
10858 跟贴 10858
成本0.3美元，耗时26分钟！CudaForge：颠覆性低成本CUDA优化框架

机器之心Pro 2025-11-17 18:45:03
0 跟贴 0
大 S 离世时间线报道分歧，韩媒与台媒说法不同

木木爱讲事儿 2026-02-07 16:40:22
2 跟贴 2
苹果发布iOS 26.3 RC版：支持与安卓换机传输

快科技 2026-02-06 04:21:12
0 跟贴 0
面向Agent时代！小米MiMo推出HySparse混合稀疏注意力架构

智东西 2026-02-07 15:43:18
24 跟贴 24
不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

机器之心Pro 2026-01-13 12:57:27
32 跟贴 32
推理新范式：动态效能算法让算力资源实现最大化

智东西 2025-11-12 19:58:10
0 跟贴 0
性能真的不重要了吗？Jeff Dean给出反常答案

新智元 2025-12-28 17:20:51
0 跟贴 0

曼联连斩3大豪门，卡里克4连胜抢下12分，球迷：13连胜极限夺冠吧

曼联连斩3大豪门，卡里克4连胜抢下12分，球迷：13连胜极限夺冠吧

夏侯看英超

2026-02-08 03:24:31

为纳投名状，朱拉尼罕见交底，给了中国一个美俄都没有的特殊待遇

为纳投名状，朱拉尼罕见交底，给了中国一个美俄都没有的特殊待遇

前沿天地

2026-02-08 09:58:19

反制24小时，巴拿马将损失惨重！巴总统急降温，长和扔控制权能谈

反制24小时，巴拿马将损失惨重！巴总统急降温，长和扔控制权能谈

东极妙严

2026-02-07 17:40:02

iPhone Air 又刷新底价，这次太狠了！

iPhone Air 又刷新底价，这次太狠了！

花果科技

2026-02-08 12:35:21

陪睡上位，赶走原配？46岁宋佳再次官宣喜讯，彻底打脸整个娱乐圈

陪睡上位，赶走原配？46岁宋佳再次官宣喜讯，彻底打脸整个娱乐圈

素衣读史

2025-12-31 15:02:59

5年了！原八一男篮18名球员去哪了？9人效力CBA，多人处境窘迫

5年了！原八一男篮18名球员去哪了？9人效力CBA，多人处境窘迫

金山话体育

2025-12-23 10:03:16

二太蓝琼缨年轻时有多美？与丈夫何鸿燊留影，样貌出众，气质过人

二太蓝琼缨年轻时有多美？与丈夫何鸿燊留影，样貌出众，气质过人

TVB的四小花

2026-02-08 14:49:09

骡子是马和驴的杂交种，分马骡（公驴×母马）和驴骡（公马×母驴）

骡子是马和驴的杂交种，分马骡（公驴×母马）和驴骡（公马×母驴）

雪中风车

2026-02-08 14:16:09

韩先楚夫人有多美？这是1970年留影，她50岁，皮肤白皙，气质非凡

韩先楚夫人有多美？这是1970年留影，她50岁，皮肤白皙，气质非凡

雍亲王府

2026-01-07 10:05:02

亚乒联盟亚洲杯8日赛程：国乒包揽银铜牌，孙颖莎与蒯曼成亮点

亚乒联盟亚洲杯8日赛程：国乒包揽银铜牌，孙颖莎与蒯曼成亮点

格斗江湖人

2026-02-08 00:40:13

突发闪崩！币圈超级乌龙指，发生了什么？

突发闪崩！币圈超级乌龙指，发生了什么？

每日经济新闻

2026-02-08 08:08:02

休媒称火箭找到赢球方向！当下未来都靠年轻核心 KD只需锦上添花

休媒称火箭找到赢球方向！当下未来都靠年轻核心 KD只需锦上添花

颜小白的篮球梦

2026-02-08 13:55:57

他当兰州军区司令，政委意见很大？长期住在北京或外地看病休养

他当兰州军区司令，政委意见很大？长期住在北京或外地看病休养

楚风说历史

2026-02-08 13:00:03

25岁男子去昆仑山徒步后失联，救援人员找到人后愣住了

25岁男子去昆仑山徒步后失联，救援人员找到人后愣住了

青青会讲故事

2025-09-15 16:22:25

官方：因对球员未及时上场致开球延迟，皇马&本菲卡被罚4万欧

官方：因对球员未及时上场致开球延迟，皇马&本菲卡被罚4万欧

懂球帝

2026-02-07 11:49:26

胜勇士取3连胜！湖人终于解锁三分大狙，41岁詹姆斯仍是勇士克星

胜勇士取3连胜！湖人终于解锁三分大狙，41岁詹姆斯仍是勇士克星

小路看球

2026-02-08 13:55:45

头部金店紧急调整回购规则，节假日不能卖金了

头部金店紧急调整回购规则，节假日不能卖金了

21世纪经济报道

2026-02-08 07:15:39

当不成首相了？日本爆发抗议，高市早苗或被迫下台，特朗普选边站

当不成首相了？日本爆发抗议，高市早苗或被迫下台，特朗普选边站

各生欢喜者

2026-02-07 15:22:01

爱泼斯坦案又爆350万页猛料！安德鲁王子趴女孩身上，眼神很猥琐

爱泼斯坦案又爆350万页猛料！安德鲁王子趴女孩身上，眼神很猥琐

毒舌小红帽

2026-02-07 19:39:23

410次开房记录流出：央企“女老虎”陶荔芳，背后还有多少同伙

410次开房记录流出：央企“女老虎”陶荔芳，背后还有多少同伙

深度报

2025-12-14 22:36:54

追踪人工智能动态

12137文章数 176374关注度

往期回顾全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok：结论错误

头条要闻

印度三姐妹手机被没收后跳楼父亲娶两姐妹同住生5孩

头条要闻

印度三姐妹手机被没收后跳楼父亲娶两姐妹同住生5孩

体育要闻

铜牌与苏翊鸣的这四年，他说：我对得起自己

娱乐要闻

曝带女星回老家小区，罗云熙紧急回应

财经要闻

金银震荡144小时大爷大妈排队「抄底」

汽车要闻

VLA司机大模型优化理想汽车OTA8.3版本更新

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房产

本地

艺术

公开课

转头就晕的耳石症，能开车上班吗？

房产要闻

新春三亚置业，看过这个热盘再说！

本地新闻

围观了北京第一届黑色羽绒服大赛，我笑疯了

艺术要闻

10秒内认全狂草的人只有1%，你敢挑战吗？

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版