网易首页 > 网易号 > 正文 申请入驻

Karpathy团队3小时让大模型提速15%

0
分享至

606 MiB的模型跑在49 tokens/s,内存带宽吃掉30 GB/s,接近硬件天花板。这时候你让AI去优化SIMD指令集,就像给堵车路段换更宽的马路——车还是动不了。

这是Karpathy团队最近把自动研究系统(autoresearch)对准llama.cpp时遇到的真实现场。3小时、4台云虚拟机、5个有效优化,Flash Attention文本生成在x86上快了15%,ARM上快了5%。关键改动不是加算力,而是让AI先读论文、再写代码。

第一波实验:AI在代码里打转

团队给AI的任务很明确:优化llama.cpp的CPU推理路径。这个场景和之前的神经网络训练脚本完全不同——优化空间不是"调个学习率",而是"要不要融合这两次内存访问""算力瓶颈还是内存瓶颈""ik_llama.cpp已经试过什么"。

AI的第一反应很"工程师":直奔GGML矩阵乘法的热路径,在量化点积里折腾SIMD微优化。它试了各种向量化技巧,结果全部落在噪声范围里。

事后复盘,AI自己写了总结:「第一波结果表明,计算路径的微优化收益可以忽略,因为文本生成受内存带宽约束,而非算力约束。」

代码能告诉AI这里在做什么,但解释不了为什么慢。就像你拿到一份写得密密麻麻的账本,知道每一笔收支,但看不出公司为什么亏损——需要行业知识、竞品对标、外部研究。

加了一个环节:文献检索

团队给autoresearch循环加了一个文献检索阶段。现在AI动手之前,要先读论文、研究竞品项目。这个改动把"代码上下文"扩展成了"领域上下文"。

具体到llama.cpp,AI开始查:Flash Attention的原始论文、x86和ARM的内存架构差异、竞品实现里怎么处理KV Cache、社区已经讨论过哪些优化方向。这些原本需要资深工程师凭经验调用的外部知识,变成了AI工作流里的标准步骤。

3小时后产出的5个优化,核心思路转向内存布局重构:减少不必要的内存往返、对齐访问模式以提升带宽利用率、针对ARM的特定缓存层级调整分块策略。全是"怎么搬数据"的问题,而非"怎么算更快"。

结果验证了这个转向的价值。TinyLlama 1.1B的测试里,x86端提速15%,ARM端5%。数字不算炸裂,但考虑到这是零人工干预的自主优化,且全程有基准测试和单元测试兜底,意义在于证明了"读论文→写代码"这个闭环可以跑通。

从神经网络模板引擎到通用框架

这个系统的进化路径值得细说。Karpathy最初的autoresearch演示是自动改进神经网络训练脚本。团队上一篇文章把它扩展到16块GPU,8小时跑910个实验,把val_bpb压下去2.87%。那时候AI还只从代码上下文里 brainstorm 想法,实验全是围绕同一个train.py的变体。

后来的pi-autoresearch把这个循环通用化了,变成任何可基准测试目标都能用的扩展。Shopify CEO Tobi Lütke拿它跑Liquid——Shopify的Ruby模板引擎,每年处理2920亿美元商品交易流水。AI跑了约120个实验,提交93次代码,把解析+渲染时间砍掉53%,内存分配减少61%,974个单元测试零回归。

Liquid那个案例里,优化面在源码里肉眼可见。AI读一遍tokenizer,发现StringScanner是瓶颈,就能从代码库里 brainstorm 替代方案。但llama.cpp证明了这个假设的边界:当答案藏在代码之外,纯代码上下文的AI会生成浅层假设。

一个更深层的问题

这个实验指向一个正在被验证的判断:AI编程助手的下一个分水岭,不是生成代码的速度,而是"知道该优化什么"的准确率。

GitHub Copilot和同类工具已经把"写代码"的边际成本压得很低。但"写什么代码"——识别真正的瓶颈、理解硬件约束、追踪学术前沿——仍然依赖人的经验。Karpathy团队做的,本质上是把这部分经验用自动化检索替代了一部分。

具体实现上,文献检索阶段大概涉及:arXiv关键词搜索、相关仓库的issue和PR扫描、技术博客和文档的语义检索。这些动作本身不新,新的是把它们塞进一个自主循环,让AI能根据检索结果动态调整实验方向。

有个细节:整个llama.cpp优化跑在4台云VM上,3小时产出5个有效优化。成本可控,意味着这个模式可以频繁触发——比如每次硬件换代、每次上游依赖更新、每次业务负载特征变化时,自动重新跑一遍研究-实验循环。

Shopify的Liquid案例已经展示了商业价值:53%的渲染提速,直接换算成服务器成本节省和用户体验提升。llama.cpp的15%提速,对边缘部署和本地推理场景同样有意义。

但更值得观察的是反馈机制。AI在postmortem里自己识别出"内存带宽约束"这个关键洞察,说明系统具备了某种程度的自我诊断能力。这不是通用推理,而是在特定优化任务里的模式识别——从实验结果的噪声分布里,推断出假设空间的结构性问题。

下一步的悬念在于:当AI开始读论文,它会怎么选择读哪些论文?llama.cpp的优化相对有明确的技术文献指向,更模糊的工程问题——比如"为什么这个服务在峰值时延迟抖动"——需要检索和综合的信息源更杂,噪声也更大。这个筛选和排序的环节,目前还是人在设计检索策略,还是已经有一部分自动化了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!FCC拟禁止中国三大运营商!中方回应

突发!FCC拟禁止中国三大运营商!中方回应

EETOP半导体社区
2026-04-10 08:36:04
澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

环球网资讯
2026-04-09 14:51:06
郑丽文直言不讳:中国就是我们的国家,解放军就是我们的坚强后盾

郑丽文直言不讳:中国就是我们的国家,解放军就是我们的坚强后盾

小熊看国际
2026-04-10 12:29:18
杜兰特29+7+5迎里程碑,火箭击退76人豪取8连胜暂列西部第4

杜兰特29+7+5迎里程碑,火箭击退76人豪取8连胜暂列西部第4

湖人崛起
2026-04-10 10:25:47
政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

政变只是一个开始,伊朗要变天了,中国最担心的事情,恐将发生

混沌录
2026-04-09 16:05:29
全红婵被网暴被孤立的内幕,似乎被职场人给参透了

全红婵被网暴被孤立的内幕,似乎被职场人给参透了

穿透
2026-04-10 13:25:56
日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

日本企业2025财年破产超万家,创下近12年新高,招不到人成为重要原因

三言四拍
2026-04-09 13:59:27
全红婵又遭网暴!哥哥怒怼网友:我们全家都胖?吃你们家大米了?

全红婵又遭网暴!哥哥怒怼网友:我们全家都胖?吃你们家大米了?

念洲
2026-04-10 08:40:37
苏林,再次首访中国

苏林,再次首访中国

新民周刊
2026-04-10 09:05:29
陈丽华的富华国际集团旗下有哪些知名品牌

陈丽华的富华国际集团旗下有哪些知名品牌

蓝色海边
2026-04-10 03:35:13
开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

潮鹿逐梦
2026-04-10 12:03:49
中国通用技术(集团)原总经理助理李克全接受监察调查

中国通用技术(集团)原总经理助理李克全接受监察调查

界面新闻
2026-04-10 10:01:37
故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

故事:749局退休高人口述:陆家嘴有人渡劫的真相,让人毛骨悚然

诡谲怪谈
2025-01-18 14:09:34
父亲40年攒下的千亿帝国,儿子4年败光……

父亲40年攒下的千亿帝国,儿子4年败光……

快刀财经
2026-04-09 22:12:48
SpaceX去年营收超185亿美元,亏损近50亿美元

SpaceX去年营收超185亿美元,亏损近50亿美元

界面新闻
2026-04-10 08:27:09
南京图书馆原副馆长吴政接受审查调查

南京图书馆原副馆长吴政接受审查调查

界面新闻
2026-04-10 10:02:05
黄景瑜王玉雯恋情被曝光?两人被拍到进入饭局,随后一起到酒店,直到天亮了也没离开。

黄景瑜王玉雯恋情被曝光?两人被拍到进入饭局,随后一起到酒店,直到天亮了也没离开。

贴小君
2026-04-10 13:26:42
郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

郑丽文一行在上海参访 点赞大陆经济活力与城市魅力

新华社
2026-04-09 15:36:11
被问针织比基尼透不透气?你穿一次不就知道了!

被问针织比基尼透不透气?你穿一次不就知道了!

飛娱日记
2026-04-06 09:14:56
宝尊三年改造,一个跨国品牌的中国式重生

宝尊三年改造,一个跨国品牌的中国式重生

晚点LatePost
2026-04-08 18:07:59
2026-04-10 15:07:00
Ping值焦虑
Ping值焦虑
有态度网友ytd
1046文章数 21关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
房产
亲子
游戏
教育

艺术要闻

于小冬2026年4月油画新作《花季》

房产要闻

2400亩!大三亚又一个滨海度假区,规划曝光!

亲子要闻

手外纪事|第57期 束带宝宝,父母没有放弃治疗,换来孩子一个未来

KK官方对战平台CS1.6传奇联赛瑞士轮收官:八强席位即将揭晓

教育要闻

二年级培优,难倒99%的学生

无障碍浏览 进入关怀版