网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

比英伟达工程师还熟练！DeepSeek R1+测试时Scaling自动优化GPU内核

2025-02-15 13:07:16　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：英智

【新智元导读】英伟达巧妙地将DeepSeek-R1与推理时扩展相结合，构建了全新工作流程，自动优化生成GPU内核，取得了令人瞩目的成果。

本周英伟达的一篇技术博客引发了业界震动！

英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化，效果极佳。

随着AI模型的扩展，推理时扩展（inference-time scaling），也叫测试时扩展（test-time scaling）正闪亮登场。

推理时扩展就像是给AI模型配备了一个「智慧锦囊」。当模型进行推理时，它会额外分配计算资源，让模型有能力评估多种可能的结果，然后从中挑选出最优解。

通过这种方式，AI可以像人类一样，有条不紊地剖析复杂问题，找到最佳解决方案。

为了充分发挥DeepSeek-R1的优势，同时克服其在生成优化GPU内核时遇到的困难，英伟达的工程师们想出了一个创新的方法——将推理时扩展技术与DeepSeek-R1相结合，构建了一种全新的工作流程。

他们使用DeepSeek-R1，在推理过程中借助额外的计算能力来解决一个复杂问题：旨在自动生成数值正确且针对不同类型注意力机制进行优化的GPU注意力内核，整个过程无需任何显式编程。

在某些情况下，R1生成的内核甚至比娴熟的工程师开发出来的还要出色！

对此，网友评价道：「英伟达是在毁掉自己的护城河吗？」

优化注意力内核的挑战

深入了解推理时扩展技术如何发挥作用之前，先要认识一个LLM中至关重要的概念——注意力机制。

注意力机制就像是「聚光灯」，能让AI模型在处理任务时，有选择地聚焦在输入信息中最相关的部分，快速找到关键语句，做出更准确的预测，发现数据中的隐藏模式。

但是，注意力操作的计算复杂度与输入序列长度的平方成正比。输入的文本越长，模型处理起来就会越吃力，不仅计算量大幅增加，还可能出现运行时错误，比如内存不足的情况。

为了避免这些问题，提高计算效率，开发优化的底层实现，也就是GPU内核，十分必要。

另外，注意力机制有多种不同的变体，像因果注意力、相对位置嵌入、alibi等。工程师们在面对不同的任务时，往往需要把这些变体组合起来使用。

在多模态模型，比如视觉Transformer中，需要专门的注意力机制，像空间邻域注意力（Spatial Neighborhood Attention），来处理计算机视觉、视频生成模型中常见的时空信息。

开发一个优化的GPU注意力内核，对经验丰富的软件工程师来说，也是一项艰巨的任务，费时费力。

尽管像DeepSeek-R1这样的模型在代码生成任务中展现出了很大的潜力，但它们在第一次尝试生成优化代码时，还是会遇到不少挑战。

这使得在推理时必须使用其他策略来生成优化代码。

以下是为相对位置嵌入注意力内核输入的示例用户提示。

模型有时会产生幻觉，生成一些「不靠谱」的代码，要么在语法上有错误，要么把不同语言或框架的语法混在一起，导致无法运行或效率低下。

计算最优的GPU线程映射也不是一件容易的事，通常需要反复调整优化，才能得到一个正确又高效的内核。

DeepSeek R1与推理时扩展「强强联合」

为了攻克优化GPU注意力内核这个难题，英伟达的工程师们想出了一个巧妙的办法，他们把DeepSeek-R1模型和推理时扩展技术结合起来，创造了一种新的工作流程。

一开始，工程师会手动输入一个提示。然后，DeepSeek-R1会根据这个提示，在第一次遍历中生成GPU代码，也就是内核代码。

生成的代码会交给一个特殊的验证器，这个验证器运行在英伟达H100 GPU上，仔细分析生成的内核代码。

如果发现代码有不足的地方，验证器就会生成新的提示，再把这些提示作为输入，反馈给DeepSeek-R1。模型根据新的提示，对代码进行改进，如此循环往复。

工程师们发现，这个过程持续15分钟，就能得到一个性能更好的注意力内核。

根据斯坦福大学的KernelBench基准测试，它生成的内核在处理Level-1问题时，在数值上100%是正确的。在处理Level-2问题时，正确率也能达到96% 。

KernelBench Level-1问题解决率，是用来评估LLM为特定计算任务生成高效GPU内核能力的数值正确指标，它是一系列测试LLM GPU编程能力挑战的一部分。

推理时间预算对生成正确内核的影响也很明显。从测试结果来看，在Level-1问题中，如果每个问题分配的推理时间超过10分钟，就能为100个问题中的大多数生成数值正确的代码。

这也意味着，给模型足够的「思考时间」，它真的能给出更好的答案。

利用DeepSeek-R1模型，通过在推理时投入更多计算资源，可以生成比一些熟练工程师开发的优化内核还要好的结果，这为GPU内核的自动化生成开辟了一条新的道路。

目前这项技术还处于早期研究阶段，虽然已经取得了一些令人振奋的成果，但要想让它能稳定地产生更好的结果，还有很多工作要做。

研究者对DeepSeek-R1的最新进展及潜力感到兴奋。

参考资料：

https://x.com/anneouyang/status/1889770178487132384

https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

AI落地加速中，底层架构却成最大绊脚石？丨ToB产业观察

钛媒体APP 2025-11-17 11:11:15
0 跟贴 0
啊？微博7800美元训的大模型，数学能力超了DeepSeek-R1

量子位 2025-11-18 13:58:03
1 跟贴 1

英伟达AI世界模拟器？AI P图学会「脑补」过程了！

新智元 2025-11-04 19:33:28
0 跟贴 0

18岁创业者开源史上最大工厂视觉数据集，押注机器人从人类学习

DeepTech深科技 2025-11-18 19:34:41
0 跟贴 0
DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

机器之心Pro 2025-11-17 14:18:36
0 跟贴 0

Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

机器之心Pro 2025-10-20 14:17:05
0 跟贴 0

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
1 跟贴 1
李飞飞再谈世界模型：AGI是营销术语，空间智能才是AI缺失的能力

DeepTech深科技 2025-11-17 18:19:46
3 跟贴 3

机器人训练，北京男大有了技能玩法

量子位 2025-11-08 12:46:56
0 跟贴 0
谷歌Gemini 3.0 Pro模型卡发布，多模态能力大幅领先竞争对手

华尔街见闻官方 2025-11-19 00:02:49
0 跟贴 0
无需外部数据！AI自问自答实现推理能力进化

量子位 2025-08-08 15:51:21
0 跟贴 0
Meta开始用KPI考核，强迫所有员工尽可能多使用AI

新智元 2025-11-17 20:09:20
3 跟贴 3
又一推理新范式：将LLM自身视作改进操作符，突破长思维链极限

机器之心Pro 2025-10-04 18:35:49
0 跟贴 0
让机器人「不只是走路」，Nav-R1引领带推理的导航新时代

机器之心Pro 2025-09-18 11:55:45
0 跟贴 0
「不仅会想，还能准确去做」VLA-R1把「推理+行动」带进真实世界

机器之心Pro 2025-10-27 19:12:41
0 跟贴 0
物流业deepseek时刻，中国无人车火爆全球

华商韬略 2025-06-17 10:58:23
0 跟贴 0
韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

机器之心Pro 2025-11-18 14:19:00
0 跟贴 0
黄仁勋：中国的AI市场无论有没有英伟达都会进步与华为是竞争对手不是敌人

财联社 2025-07-21 10:22:14
7 跟贴 7
就是个模型，有啥大惊小怪的

沙雕动画 2025-11-15 15:50:41
0 跟贴 0
中国芯片女王，扼住英伟达的咽喉

华商韬略 2025-11-17 11:05:24
94 跟贴 94
河北男子云南收购冰糖橙，说好的全黄结果大半都是绿的，男子称摘下来果收走避免果农损失，但多余空筐钱要退

中安在线 2025-11-18 15:22:16
948 跟贴 948
刚刚，微软英伟达联手注资Anthropic！狂砸150亿美元，Claude全面接入Azure

AI寒武纪 2025-11-19 01:41:38
0 跟贴 0
中部空军视频：枪已上膛剑已出鞘我们时刻准备打胜仗

北京青年报 2025-11-17 21:40:29
57441 跟贴 57441
古人连车轱辘都是强迫症设计，如何让今日的工程师惊叹？

BRTV新闻 2025-11-14 13:14:51
0 跟贴 0
英伟达CEO黄仁勋：AI可提供持续学习的能力！

知了3C 2025-11-15 23:37:19
1 跟贴 1
段永平谈苹果为何放弃造车：汽车给用户提供不了足够的价值

极果酷玩 2025-11-16 02:04:58
0 跟贴 0
悲鸣！一地方城投项目管理哭诉正式离职：土木10年，有种不知所措

火山诗话 2025-11-18 10:18:59
154 跟贴 154
被列入黑名单的中国工程师非法重返泰国时被捕准备返回泰国继续承包建筑工程

曼谷陈大叔 2025-11-18 16:02:21
2 跟贴 2
【DeepSeek谈艺】孙静远·水墨画丨画面绽放“无形之大有”的意蕴

文化视界网 2025-11-18 16:28:05
0 跟贴 0
黄仁勋：别低估中国，拥有最饥渴的工程师

量子位 2025-10-02 14:21:34
0 跟贴 0
媒体：郑丽文提到"倡导统一" 多国"驻台代表"主动求见

海峡导报社 2025-11-18 18:19:07
879 跟贴 879
媒体关注：中方发布赴日提醒后，中国游客退订约50万张赴日机票

环球网 2025-11-18 20:07:31
29027 跟贴 29027
空中客车中国与上海交通大学巴黎卓越工程师学院签署合作备忘录

界面新闻 2025-11-17 21:55:52
0 跟贴 0
【DeepSeek谈艺】史国强·风景油画 | 油彩铺就乡路，写意点亮晨光

文化视界网 2025-11-17 16:23:14
1 跟贴 1
福建农林大学2023级博士生以第一作者身份在一区Top期刊（IF=8.9）上发表研究论文

植物研究进展 2025-11-17 12:53:25
0 跟贴 0
清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心Pro 2025-11-13 14:56:23
1 跟贴 1
玩家分享15岁时求职V社经历虽被拒绝但建议良多

3DM游戏 2025-11-18 15:19:04
0 跟贴 0
来到觉醒前夜？FSD最缺的或许不再是技术

Autolab 2025-11-18 23:17:11
1 跟贴 1
男子开车误入陕西回民街，这对司机来说是技术与心理的双重考验，唯一能做的只有关紧车窗

营天下 2025-11-18 15:34:30
0 跟贴 0
没有智商全是数值

嗷嗷爱影视 2025-11-15 07:28:51
1 跟贴 1

郑丽文称台湾是“国家”，蒋万安再次亮明立场，坚持反对两岸统一

郑丽文称台湾是“国家”，蒋万安再次亮明立场，坚持反对两岸统一

寻途

2025-11-17 20:51:57

前拉玛西亚队友：梅西做的那些动作，他在小时候就能做

前拉玛西亚队友：梅西做的那些动作，他在小时候就能做

懂球帝

2025-11-19 00:22:18

合肥市委副书记路军被查，4个月前兼任新职，一周前出席两场会议

合肥市委副书记路军被查，4个月前兼任新职，一周前出席两场会议

上观新闻

2025-11-18 17:28:02

中日磋商不欢而散，一细节引发全球热议，美媒：日本毫无还手之力

中日磋商不欢而散，一细节引发全球热议，美媒：日本毫无还手之力

临云史策

2025-11-18 22:19:45

蔡孝乾叛变吴石暴露，李克农派出的潜台小组，不辱使命绝境立功

蔡孝乾叛变吴石暴露，李克农派出的潜台小组，不辱使命绝境立功

黑句本

2025-11-03 10:45:13

队史最亏交易！九换一啊，送了亚历山大&杰威，如今球队彻底挣扎

队史最亏交易！九换一啊，送了亚历山大&杰威，如今球队彻底挣扎

大卫的篮球故事

2025-11-18 09:53:49

重大转变！“中国：0→47%，美国：88%→9%”

重大转变！“中国：0→47%，美国：88%→9%”

观察者网

2025-11-18 08:39:03

曾出演《艾斯奥特曼》的日本演员高峰圭二发帖质问高市：与中国起争执有什么好处

曾出演《艾斯奥特曼》的日本演员高峰圭二发帖质问高市：与中国起争执有什么好处

环球网资讯

2025-11-17 20:59:32

41岁白百何现身东京，她的下跨变得好大啊，脸也胖了，变化真大

41岁白百何现身东京，她的下跨变得好大啊，脸也胖了，变化真大

陈意小可爱

2025-11-19 01:06:46

6500万解约金！曼联锁定爆点王牌，冬窗已占先机

6500万解约金！曼联锁定爆点王牌，冬窗已占先机

奶盖熊本熊

2025-11-19 00:39:14

终于明白为什么有些App打死都不适配鸿蒙系统了！

终于明白为什么有些App打死都不适配鸿蒙系统了！

大白聊IT

2025-11-18 17:18:04

六国外援待命，高市告知全球，对华第二枪打响，解放军硬仗在前

六国外援待命，高市告知全球，对华第二枪打响，解放军硬仗在前

音乐时光的娱乐

2025-11-15 10:47:22

此女只应天上有，人间只有此一人，真的漂亮，而且很媚，媚而不俗

此女只应天上有，人间只有此一人，真的漂亮，而且很媚，媚而不俗

乡野小珥

2025-10-19 14:41:29

出大事了，乌克兰首都爆发混乱，泽连斯基被逼宫，美俄法选边站

出大事了，乌克兰首都爆发混乱，泽连斯基被逼宫，美俄法选边站

小陆搞笑日常

2025-11-19 00:46:44

中方不见日本首相，不到24小时，高市报复来了，自卫队电磁炮亮相

中方不见日本首相，不到24小时，高市报复来了，自卫队电磁炮亮相

吴欣纯Deborah

2025-11-18 18:59:27

日本歌手美依礼芽发文称永远支持一个中国，目前其账号IP仍在日本；曾参加《乘风2023》人气暴涨

日本歌手美依礼芽发文称永远支持一个中国，目前其账号IP仍在日本；曾参加《乘风2023》人气暴涨

极目新闻

2025-11-18 13:14:13

华为Mate80系列价格预测：5499元起麒麟9030加持

华为Mate80系列价格预测：5499元起麒麟9030加持

手机中国

2025-11-17 21:01:09

成都直飞札幌航线将取消？川航回应：近期暂无执飞计划

成都直飞札幌航线将取消？川航回应：近期暂无执飞计划

封面新闻

2025-11-17 20:13:08

道指大跌超400点，科技股、中概股普跌，晶科能源跌超7%

道指大跌超400点，科技股、中概股普跌，晶科能源跌超7%

21世纪经济报道

2025-11-18 23:31:05

塔利斯卡：和C罗一起踢球的感觉很不真实，他是史上最伟大的球员

塔利斯卡：和C罗一起踢球的感觉很不真实，他是史上最伟大的球员

懂球帝

2025-11-18 17:06:07

AI产业主平台领航智能+时代

13899文章数 66266关注度

往期回顾全部

科技要闻

谷歌CEO警告：若AI泡沫破裂，没公司能幸免

头条要闻

孟加拉国前总理哈西娜被判死刑中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑中方回应

体育要闻

结束最后一次对决，陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场岚图泰山售37.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

艺术

手机

公开课

军事航空

本地新闻

这档古早综艺，怎么就成了年轻人的哆啦A梦?

艺术要闻

你绝对没见过！黎雄才山水画的独特魅力！

手机要闻

红米K90至尊版突然被确认：大屏高刷+超帧生态，是否值得期待？

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

日媒扬言要"击沉福建舰" 专家：玩火自焚

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版