网易首页 > 网易号 > 正文 申请入驻

南大、浙大提出跨平台内核生成评测框架MultiKernelBench

0
分享至



在深度学习模型的推理与训练过程中,绝大部分计算都依赖于底层计算内核(Kernel)来执行。计算内核是运行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它负责完成矩阵乘法、卷积、归一化等深度学习的核心算子运算。

当前,这些内核通常由开发者使用 CUDA、AscendC、Pallas 等硬件专用并行编程语言手工编写 —— 这要求开发者具备精湛的性能调优技巧,并对底层硬件架构有深入理解。

近年来,大语言模型(LLM)在代码生成领域的突破,使“自动生成高性能深度学习内核”成为新的研究热点。KernelBench、TritonBench 等评测基准相继出现,主要聚焦于评估 LLM 在 NVIDIA GPU 内核生成上的表现。

已有研究表明,现有 LLM 已具备一定的 GPU 内核生成能力。例如,英伟达工程师基于 DeepSeek-R1 设计了一套工作流程,在简单的 CUDA 内核生成任务中,该流程生成的内核在数值上全部正确,达到了 100% 的通过率。

然而,当前 AI 加速器架构日趋多样(如 NVIDIA GPU、华为昇腾 NPU、Google TPU、Intel GPU 等),其底层内核语言差异显著。现有评测基准普遍存在平台覆盖单一、评估维度粗糙、可扩展性不足等局限。在此背景下,关键问题浮现:大模型在 CUDA 生态下的优势能否有效迁移至异构平台?我们距离自动化生成高性能计算内核究竟还有多远?

针对这些问题,近日,南京大学与浙江大学联合推出全新开源评测框架 MultiKernelBench,打破平台、维度与扩展性的限制,为 LLM 驱动的高性能内核生成提供了新的测评标准。



  • 论文链接:https://arxiv.org/pdf/2507.17773
  • 代码链接:https://github.com/wzzll123/MultiKernelBench

MultiKernelBench 提出了一个开放评测场景:在 GPU、NPU、TPU 等多平台上,LLM 自动生成高性能深度学习内核,并在真实设备中完成编译、运行与性能验证。它首次跨越单一硬件生态,推动 LLM 从 “单平台选手” 迈向 “全能型选手”。

值得注意的是,MultiKernelBench 的设计充分考虑了算子多后端的可扩展性。例如,Intel 工程师基于该框架高效地实现了 Intel GPU 的适配。



MultiKernelBench 是如何构建的?

为了确保任务覆盖全面且具有可扩展性,研究团队设计了一套模块化评测体系,包含四大核心特性:

1、 跨硬件平台支持

首批覆盖三大主流架构:

  • NVIDIA GPU(CUDA / Triton)
  • 华为昇腾 NPU(AscendC)
  • Google TPU(Pallas)

通过统一 Backend 接口与装饰器机制,实现无需修改核心逻辑即可快速接入新平台。

论文作者后续计划逐步扩展对不同 GPU 和 NPU 厂商架构的支持,同时也诚邀各厂商参与开源生态的共建。

2、 细粒度任务体系

在 Stanford KernelBench 基础上重构分类框架,覆盖 14 类核心深度学习算子(卷积、归一化、优化器、稀疏计算等),不仅继承了 250 个经典任务,还新增 35 个未被现有基准覆盖的关键算子,全面反映 LLM 在不同算子类型上的生成能力。



3、 端到端自动化评测

构建标准化流程:内核生成 → 编译 → 硬件执行 → 性能分析,确保在真实硬件环境中完成全流程验证。



4、 类别感知 One-shot 提示策略

针对不同算子类别动态选取典型样例作为上下文提示,显著提升生成代码的语义相关性与功能正确性,尤其在 AscendC、Pallas 等训练语料稀缺的平台上效果显著。

此外,MultiKernelBench 提供插件式提示模板系统,方便研究者探索多样化的提示工程策略。

对比现有基准,MultiKernelBench 带来三大突破:

  • 平台覆盖更广:打破对单一生态的依赖,真正实现跨 GPU / NPU / TPU 的统一评测。
  • 评估维度更细:任务分类粒度精细化,可定位 LLM 在不同算子类型上的优势与短板。
  • 扩展性更强:模块化架构与统一接口设计,使其能够伴随 AI 硬件生态快速演进。

多模型实测,模型表现如何?

基于 MultiKernelBench,评估了包括GPT-4o、Claude、DeepSeek-V3、Qwen 等在内的 7 个主流大模型,参数规模涵盖 32B ~ 681B。

评估指标包括:

  • Compilation@k:生成代码是否能成功编译
  • Pass@k:是否输出功能正确的结果
  • SpeedUp@k:运行时是否实现性能优化



实测结果显示:

  • Claude-4-Sonnet 在整体评测中表现最佳;推理模型表现优异。
  • CUDA 平台的 Kernel 执行通过率显著高于 Pallas 与 AscendC,反映出当前 LLM 对 CUDA 更具适应性。
  • 类别感知式 Prompting 明显优于通用模板,尤其在 AscendC 等训练语料较少的平台上,能显著提升生成效果与成功率。

展望与未来计划

MultiKernelBench 的评测结果表明,即便是当前最先进的大语言模型(LLM),在多平台高性能内核生成任务中仍存在明显短板:在非 CUDA 平台上的成功率显著下降,生成代码的性能也普遍落后于手工优化版本。

未来,论文作者希望与社区共同推进 MultiKernelBench 的演进,重点探索以下方向:

  • 更智能的提示策略:利用已有的插件式提示模板系统,开发反馈式、文档增强等新型提示方法,提升低资源平台的生成质量。
  • 跨平台协同生成:实现多平台版本的同步生成与优化思路共享,增强跨架构泛化能力。
  • 支持更多硬件后端:与社区合作接入更多新平台,进一步覆盖异构计算全景。

目前,MultiKernelBench 的全量数据集、框架代码与评测流程已全部开源,欢迎研究者与工程师提出新方法、贡献平台支持,共同推动多平台高性能内核自动生成的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨幂的身材比例真是逆天,腿好长

杨幂的身材比例真是逆天,腿好长

TVB的四小花
2026-01-30 19:17:38
满载40吨黄金的日本“阿波丸”,中国打捞上岸后,所有人都愣住了

满载40吨黄金的日本“阿波丸”,中国打捞上岸后,所有人都愣住了

鉴史录
2026-01-23 10:46:34
26岁天才股神坦言:"钓鱼线"一出,立刻清仓,不是跌停就是跌不停

26岁天才股神坦言:"钓鱼线"一出,立刻清仓,不是跌停就是跌不停

股经纵横谈
2026-01-11 18:30:38
2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

奶盖熊本熊
2026-02-01 08:08:22
重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

风过乡
2026-02-02 06:38:53
岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

岳父做客女婿家,提起埋在家乡一烈士名字,女婿道:那是我爷爷!

兴趣知识
2026-02-01 08:57:04
《太平年》改编遭质疑,历史顾问胡耀飞回应

《太平年》改编遭质疑,历史顾问胡耀飞回应

澎湃新闻
2026-02-01 02:23:33
知名央企迎来最终审判!全烂透了,9个董监高无一清白,强制清退

知名央企迎来最终审判!全烂透了,9个董监高无一清白,强制清退

慕名而来只为你
2026-01-20 05:59:04
不打则已,打就打大战!美国预判最坏结局:开战被伊朗砍掉一条腿

不打则已,打就打大战!美国预判最坏结局:开战被伊朗砍掉一条腿

文雅笔墨
2026-02-01 18:25:02
讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

涵豆说娱
2026-01-31 14:30:35
张本美和成功夺冠!3:0击败世界冠军,成为日本锦标赛单届4冠王

张本美和成功夺冠!3:0击败世界冠军,成为日本锦标赛单届4冠王

国乒二三事
2026-02-01 14:41:15
起飞了!“意甲10号”即将加盟中甲:最高身价1100万欧

起飞了!“意甲10号”即将加盟中甲:最高身价1100万欧

邱泽云
2026-02-01 16:11:58
1958年,张治中对主席说:有个人借我3000元未还,他官很大

1958年,张治中对主席说:有个人借我3000元未还,他官很大

芊芊子吟
2026-01-31 12:30:06
韩国恋综嘉宾人设崩塌,女嘉宾被曝当过擦边主播,举报者却跳楼了?!

韩国恋综嘉宾人设崩塌,女嘉宾被曝当过擦边主播,举报者却跳楼了?!

英国那些事儿
2026-01-31 23:21:28
智利不再“说不”:是什么让纳粹之子赢得总统大选?|907编辑部

智利不再“说不”:是什么让纳粹之子赢得总统大选?|907编辑部

澎湃新闻
2026-02-01 07:55:08
莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

乔话
2026-01-31 22:52:04
李晨杭州狂炫67元拌川!小饭馆老板认不出

李晨杭州狂炫67元拌川!小饭馆老板认不出

情感大头说说
2026-01-30 11:32:59
今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

今年腊月二十九除夕,四类人要穿红,3种人不要去拜年,有你吗?

阿龙美食记
2026-01-29 11:03:56
珠海这一天,高圆圆确实老了,李小冉造型被嘲土气,杨幂却赢麻了

珠海这一天,高圆圆确实老了,李小冉造型被嘲土气,杨幂却赢麻了

小徐讲八卦
2026-01-30 07:50:43
火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

青烟小先生
2026-01-28 22:22:57
2026-02-02 08:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
亲子
艺术
数码
家居

“多巴胺风”又又又火了!这样穿时髦又减龄

亲子要闻

2-5岁孩子如何在家做早教?用好这些小道具,孩子进步超快!

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

家居要闻

蓝调空舍 自由与个性

无障碍浏览 进入关怀版