网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

比英伟达工程师还熟练！DeepSeek R1+测试时Scaling自动优化GPU内核

2025-02-15 13:07:16　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：英智

【新智元导读】英伟达巧妙地将DeepSeek-R1与推理时扩展相结合，构建了全新工作流程，自动优化生成GPU内核，取得了令人瞩目的成果。

本周英伟达的一篇技术博客引发了业界震动！

英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化，效果极佳。

随着AI模型的扩展，推理时扩展（inference-time scaling），也叫测试时扩展（test-time scaling）正闪亮登场。

推理时扩展就像是给AI模型配备了一个「智慧锦囊」。当模型进行推理时，它会额外分配计算资源，让模型有能力评估多种可能的结果，然后从中挑选出最优解。

通过这种方式，AI可以像人类一样，有条不紊地剖析复杂问题，找到最佳解决方案。

为了充分发挥DeepSeek-R1的优势，同时克服其在生成优化GPU内核时遇到的困难，英伟达的工程师们想出了一个创新的方法——将推理时扩展技术与DeepSeek-R1相结合，构建了一种全新的工作流程。

他们使用DeepSeek-R1，在推理过程中借助额外的计算能力来解决一个复杂问题：旨在自动生成数值正确且针对不同类型注意力机制进行优化的GPU注意力内核，整个过程无需任何显式编程。

在某些情况下，R1生成的内核甚至比娴熟的工程师开发出来的还要出色！

对此，网友评价道：「英伟达是在毁掉自己的护城河吗？」

优化注意力内核的挑战

深入了解推理时扩展技术如何发挥作用之前，先要认识一个LLM中至关重要的概念——注意力机制。

注意力机制就像是「聚光灯」，能让AI模型在处理任务时，有选择地聚焦在输入信息中最相关的部分，快速找到关键语句，做出更准确的预测，发现数据中的隐藏模式。

但是，注意力操作的计算复杂度与输入序列长度的平方成正比。输入的文本越长，模型处理起来就会越吃力，不仅计算量大幅增加，还可能出现运行时错误，比如内存不足的情况。

为了避免这些问题，提高计算效率，开发优化的底层实现，也就是GPU内核，十分必要。

另外，注意力机制有多种不同的变体，像因果注意力、相对位置嵌入、alibi等。工程师们在面对不同的任务时，往往需要把这些变体组合起来使用。

在多模态模型，比如视觉Transformer中，需要专门的注意力机制，像空间邻域注意力（Spatial Neighborhood Attention），来处理计算机视觉、视频生成模型中常见的时空信息。

开发一个优化的GPU注意力内核，对经验丰富的软件工程师来说，也是一项艰巨的任务，费时费力。

尽管像DeepSeek-R1这样的模型在代码生成任务中展现出了很大的潜力，但它们在第一次尝试生成优化代码时，还是会遇到不少挑战。

这使得在推理时必须使用其他策略来生成优化代码。

以下是为相对位置嵌入注意力内核输入的示例用户提示。

模型有时会产生幻觉，生成一些「不靠谱」的代码，要么在语法上有错误，要么把不同语言或框架的语法混在一起，导致无法运行或效率低下。

计算最优的GPU线程映射也不是一件容易的事，通常需要反复调整优化，才能得到一个正确又高效的内核。

DeepSeek R1与推理时扩展「强强联合」

为了攻克优化GPU注意力内核这个难题，英伟达的工程师们想出了一个巧妙的办法，他们把DeepSeek-R1模型和推理时扩展技术结合起来，创造了一种新的工作流程。

一开始，工程师会手动输入一个提示。然后，DeepSeek-R1会根据这个提示，在第一次遍历中生成GPU代码，也就是内核代码。

生成的代码会交给一个特殊的验证器，这个验证器运行在英伟达H100 GPU上，仔细分析生成的内核代码。

如果发现代码有不足的地方，验证器就会生成新的提示，再把这些提示作为输入，反馈给DeepSeek-R1。模型根据新的提示，对代码进行改进，如此循环往复。

工程师们发现，这个过程持续15分钟，就能得到一个性能更好的注意力内核。

根据斯坦福大学的KernelBench基准测试，它生成的内核在处理Level-1问题时，在数值上100%是正确的。在处理Level-2问题时，正确率也能达到96% 。

KernelBench Level-1问题解决率，是用来评估LLM为特定计算任务生成高效GPU内核能力的数值正确指标，它是一系列测试LLM GPU编程能力挑战的一部分。

推理时间预算对生成正确内核的影响也很明显。从测试结果来看，在Level-1问题中，如果每个问题分配的推理时间超过10分钟，就能为100个问题中的大多数生成数值正确的代码。

这也意味着，给模型足够的「思考时间」，它真的能给出更好的答案。

利用DeepSeek-R1模型，通过在推理时投入更多计算资源，可以生成比一些熟练工程师开发的优化内核还要好的结果，这为GPU内核的自动化生成开辟了一条新的道路。

目前这项技术还处于早期研究阶段，虽然已经取得了一些令人振奋的成果，但要想让它能稳定地产生更好的结果，还有很多工作要做。

研究者对DeepSeek-R1的最新进展及潜力感到兴奋。

参考资料：

https://x.com/anneouyang/status/1889770178487132384

https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

于东来从30岁开始吃药，拍CT上百次，身体出什么问题都不足为奇，哪天说不定没了就没了

新闻晨报 2026-03-25 21:24:37
4386 跟贴 4386
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
12 跟贴 12

中远海运恢复海湾国家订舱船舶暂不过霍尔木兹海峡

财联社 2026-03-25 20:20:04
11811 跟贴 11811

匈牙利外长：即日起逐步停止向乌克兰输送天然气

财联社 2026-03-26 00:09:09
234 跟贴 234
男子在树下荡绳子玩，结果乐极生悲掉水里了

南阳日报 2026-03-25 20:24:01
93 跟贴 93

火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
80 跟贴 80

10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
收评：沪指跌1.09% 全市场成交额不足2万亿元

证券时报 2026-03-26 15:22:10
193 跟贴 193

广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
1 跟贴 1
日本企业被指未受邀参加重要论坛商务部回应

澎湃新闻 2026-03-26 15:28:26
36 跟贴 36
联大通过决议，宣布“最严重反人类罪”

澎湃新闻 2026-03-26 11:03:06
2 跟贴 2
日经225指数跌幅扩大至1%，报53212.04点

每日经济新闻 2026-03-26 13:36:05
15 跟贴 15
首秀库拉索，国足主帅邵佳一：国家队的比赛没有友谊赛

澎湃新闻 2026-03-26 15:58:27
0 跟贴 0
无逃生通道、铁皮搭建，宁德这家 “黑舞厅” 被责令整改后仍营业

福建第一帮帮团 2026-03-26 19:39:41
0 跟贴 0
5家快递企业联合调价行业告别低价“内卷”

中国能源网 2026-03-26 07:40:03
125 跟贴 125
100只整装待发！量产机器狼“-20℃极寒测试”现场曝光

中国网 2026-03-26 15:55:11
93 跟贴 93
汇顶科技：2025年净利润同比增长38.66% 拟10派3.926元

证券时报 2026-03-26 19:14:22
1 跟贴 1
北京日报没有错，乐山公交车广告就是封建糟粕

书写者 2026-03-26 19:54:21
0 跟贴 0
争分夺秒！女子手臂被卡压面机济源消防紧急救援

金台资讯 2026-03-26 19:48:38
0 跟贴 0

王晶曝陈百强真正死因，64岁何超琼颜面尽失

王晶曝陈百强真正死因，64岁何超琼颜面尽失

君笙的拂兮

2026-03-22 03:44:36

“写作业就头痛，睡一觉又好了”，江苏一家长以为孩子装病逃避学习，为探究竟带往医院，结果孩子突发脑出血，被送ICU，家属：正在恢复中

“写作业就头痛，睡一觉又好了”，江苏一家长以为孩子装病逃避学习，为探究竟带往医院，结果孩子突发脑出血，被送ICU，家属：正在恢复中

潇湘晨报

2026-03-26 11:49:57

5分钟开通国家免费电视！不用机顶盒、不连网，永久免费

5分钟开通国家免费电视！不用机顶盒、不连网，永久免费

叮当当科技

2026-03-20 03:29:51

千万不要小看F-35，虽然打不过歼-20，却是东风快递、红旗导弹的巨大威胁

千万不要小看F-35，虽然打不过歼-20，却是东风快递、红旗导弹的巨大威胁

利刃号

2026-02-02 19:07:20

挂断王毅电话后，伊朗向全球发出"照会"，把小萨拉曼鼻子都气歪了

挂断王毅电话后，伊朗向全球发出"照会"，把小萨拉曼鼻子都气歪了

闻香阁

2026-03-25 22:48:26

斩草除根！美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

斩草除根！美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

军迷战情室

2026-03-25 07:42:05

中央定调，养老金调整方向明确，2026年若上涨，企退能多涨3%吗？

中央定调，养老金调整方向明确，2026年若上涨，企退能多涨3%吗？

有范又有料

2026-03-26 14:35:52

国宴上钱学森按请柬找不到座位，毛主席：你的名字是我划掉的

国宴上钱学森按请柬找不到座位，毛主席：你的名字是我划掉的

浩渺青史

2026-03-16 15:02:55

国际油价涨幅扩大布伦特原油期货站上105美元/桶

国际油价涨幅扩大布伦特原油期货站上105美元/桶

每日经济新闻

2026-03-26 15:11:37

张雪峰生前日常：1份饭6个菜，日均睡眠不足4小时，最后露面疲惫

张雪峰生前日常：1份饭6个菜，日均睡眠不足4小时，最后露面疲惫

洲洲影视娱评

2026-03-25 13:16:24

商业航天巨头冲刺上市，A股概念股曝光

商业航天巨头冲刺上市，A股概念股曝光

数据宝

2026-03-26 12:16:17

争端升级，日本援兵已到，中方宣布封海4天，俄罗斯警告军备竞赛

争端升级，日本援兵已到，中方宣布封海4天，俄罗斯警告军备竞赛

荐史

2026-03-25 15:28:17

伊朗导弹专挑航母打，美军意识到不对劲，对手越打越强了？

伊朗导弹专挑航母打，美军意识到不对劲，对手越打越强了？

瑛派儿老黄

2026-03-26 19:44:46

“尼帕病毒”来势汹汹，建议：每家备好6样东西，关键时刻能救命

“尼帕病毒”来势汹汹，建议：每家备好6样东西，关键时刻能救命

路医生健康科普

2026-01-28 12:18:49

火箭加时13-0被15-0逆转创NBA历史，乌度卡下课

火箭加时13-0被15-0逆转创NBA历史，乌度卡下课

余飩搞笑段子

2026-03-26 14:04:10

伊朗用导弹拼出尊严，中国导弹实力藏不住了，俄专家给出硬核定论

伊朗用导弹拼出尊严，中国导弹实力藏不住了，俄专家给出硬核定论

探史

2026-03-25 14:48:10

中美卫星导航用户数量悬殊：GPS用户数超60亿，中国北斗令人意外

中美卫星导航用户数量悬殊：GPS用户数超60亿，中国北斗令人意外

混沌录

2026-03-18 23:54:31

歼-20总师被除名：长期任央企领导，最近照曝出，事发全过程披露

歼-20总师被除名：长期任央企领导，最近照曝出，事发全过程披露

博士观察

2026-03-23 23:03:27

巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社

2026-03-26 19:27:23

“只要决心够大，诺贝尔奖不在话下！”

“只要决心够大，诺贝尔奖不在话下！”

槽逻辑

2026-03-24 18:46:27

AI产业主平台领航智能+时代

14821文章数 66721关注度

往期回顾全部

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

游戏

时尚

艺术

军事航空

数码要闻

1+4核，英特尔酷睿3 304处理器现身基准测试

《迷你金属2》4月开启开发版测试军事题材战略模拟

皮衣+裙，高级到炸

艺术要闻

哪一座桥不是风景？

军事要闻

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版