网易首页 > 网易号 > 正文 申请入驻

CUDA护城河破了?AI暴力直出82%算子,开发彻底告别手搓时代

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】 在 Claude Code 30 分钟迁移 CUDA 引发热议的背后,众智 FlagOS 社区已经给出了一条更系统的答案:通过 KernelGen 与统一编译器 FlagTree,让算子在多种 AI 芯片上实现自动生成、验证与优化,真正降低跨芯片软件迁移成本。

围绕「CUDA 护城河是否松动」的讨论,本质指向一个更现实的问题:

算子能否在不同芯片上被自动生成、正确运行,并具备可用性能?


算子生成综述(https://arxiv.org/abs/2601.15727)

算子自动生成,已经跑在多芯片上了

对此,众智 FlagOS 社区在2026年1月初推出了升级版KernelGen——一个支持多种AI芯片的高性能 Triton 算子生成自动化工具,并在真实多芯片环境下完成了系统性评测。

从实际数据来看,KernelGen 已不再停留在概念或 Demo 阶段:

  • 生成可编译运行算子的成功率(生成成功率):82%

  • 整体算子数值准确性通过(执行正确率):62%

  • 覆盖英伟达,以及华为、摩尔、海光、天数等多款国产 AI 芯片

这里所说的「生成成功率」,是指代码能编译、能运行。但与普通代码生成不同,算子生成对数学精度提出了更为严苛的要求:需要在多种输入变化条件下,始终保持高精度、可复现的一致数值结果,这也正是文中所强调的「执行正确率」。

如果说「生成成功率」关注的是算子是否能编译、能运行,那么真正的技术门槛在于是否能跑得对。在多种芯片架构并存的场景下,这一挑战被进一步放大——当同一份算子代码需要同时适配华为、摩尔线程、海光、天数等架构各异的芯片时,数值精度、舍入策略、指令调度顺序、缓存层级等细微差异,都可能导致结果偏差,甚至引发正确性失效。

一次生成、一次编译,在多芯片平台上实现数值一致、结果可验证,才是算子自动生成真正需要跨越的核心门槛。

这些结果表明,算子自动生成在多芯片环境下已经具备可行性与工程实用价值

实验与实现细节:KernelGen是如何工作的?

实现原理:从「写算子」到「生产算子」

KernelGen 的目标并非辅助开发者写代码,而是覆盖算子从需求到落地的完整生命周期

  • 输入层:用户可通过自然语言、数学公式或已有实现描述算子需求

  • 生成层:基于大模型与智能体技术,理解算子语义并自动生成 Triton 内核

  • 验证层:自动构建测试用例,在目标芯片上与 PyTorch reference 实现进行严格的数值一致性校验

  • 评估与优化层:对生成算子进行性能评测,量化加速比,并通过自动化调优持续优化执行效率


KernelGen 网站地址:https://kernelgen.flagos.io,用户在对话框里仅需输入自然语言、数学公式或是已有实现表达算子开发需求

这一流程的核心目标是:

将算子开发从「专家手工活」,转变为可复制、可扩展的工程流程。

为什么必须与 FlagOS / FlagTree 协同?

在多芯片场景下,仅生成算子代码并不足以解决工程问题,不同 AI 芯片在以下方面差异显著:

  • 并行模型与计算单元组织方式

  • 内存层级与访存语义

  • 指令集与编译稳定性

因此,KernelGen 从设计之初就被纳入FlagOS 生态,并与统一 AI 编译器FlagTree深度协同:

  • 由 FlagTree 提供统一的硬件抽象与编译基础

  • 将硬件差异尽可能收敛在编译器的中间表示层

  • 提升算子在多芯片环境下的编译性能与正确性

这也是算子自动生成首次具备跨芯片工程可行性的关键前提。

FlagTree:支撑算子自动生成的统一AI编译器底座

KernelGen 能够在多芯片环境下实现算子自动生成与验证,并不只是模型能力的结果,其关键支撑来自统一AI编译器 FlagTree

FlagTree 是众智 FlagOS 社区长期推进的统一编译器项目。从2025 年 3 月发布 v0.1,到2026 年 1 月 5 日发布 v0.4,已逐步发展为面向异构 AI 计算的通用编译基础设施:

  • 已支持12 家厂商、近 20 款AI芯片覆盖芯片包括华为昇腾、寒武纪、沐曦、摩尔线程、海光

  • 支持架构从DSA、GPGPU,扩展到RISC-VAI芯片ARM等多种体系

在技术设计上,FlagTree 主要解决两类问题:

  • 硬件差异隔离:通过统一的硬件中间表示(计算单元、内存层次、原子操作等),将芯片差异最大程度收敛在编译器内部,而不是暴露给算子生成逻辑。

  • 性能与易用性的平衡:在保留 Triton 高级语法的同时,引入硬件感知优化,避免「一套代码跑所有芯片」带来的性能和稳定性问题。

FlagTree v0.4中,FlagOS 社区进一步引入TLE(Triton Language Extensions),以分层方式扩展 Triton 的跨芯片表达能力:

  • TLE-Lite:一次编写,多后端运行,适用于快速验证与轻量级优化

  • TLE-Struct:面向算子开发者的架构感知调优接口

  • TLE-Raw:允许直接内联 CUDA、MLIR 等厂商原生代码,用于极致性能场景

通过 FlagTree 的编译支撑,KernelGen 自动生成的算子才能在不同芯片上保持较高的编译通过率和执行稳定性。

FlagTree 项目地址:https://github.com/flagos-ai/flagtree

性能指标与验证情况:多芯片、多模型、多轮评测

不同芯片上的生成与执行正确率(用户真实场景)


数据表明:

  • 华为芯片在生成成功率上表现最优

  • 英伟达芯片在执行正确率(数值准确性)上表现最佳

  • 国产多样化架构下仍存在进一步优化空间

整体结果验证了 KernelGen降低人工开发成本、提升跨芯片适配效率方面的核心价值。

110 个 Torch 算子的多芯片正确性与性能评测

为验证算子自动生成在真实工程场景下的可用性,评测选取了110 个代表性 TorchAPI算子,每个算子进行5 轮迭代式自动生成,并在多芯片环境下完成完整对比测试。

评测覆盖为、海光、天数、摩尔、Nvidia等平台,并在每个平台上分别对比:

  • 芯片原生 Triton 编译器

  • FlagOS / FlagTree Triton 编译器

评测重点关注两项核心指标:

  • 执行正确率:是否成功编译运行,并在多种输入 shape 下与 Torch reference 数值一致

执行正确率与性能汇总(110 个算子)


主要结论

  • FlagTree 在多芯片平台上整体执行正确率更高、稳定性更强

    在海光、天数、摩尔及 Nvidia 等平台上,FlagTree 的通过率普遍高于原生 Triton,其中 Nvidia 平台达到70%,为各组合中最高。

  • 更高的「能跑通」比例,为后续性能优化保留了更大空间

    对规模化算子生成而言,执行正确率是第一门槛,FlagTree 在这一维度上更具工程优势。

在执行正确率方面,KernelGen 对不同数据类型设定了工业界要求的严格且可量化的精度约束:整型与布尔类型要求完全一致(零误差),而浮点与复数类型则依据其数值表示能力设定明确的误差上限——例如 FP16/FP8 级别控制在 1e-3,BF16 控制在 1e-2 量级,FP32 与 Complex64 达到 1e-6 级别。通过这种按数据类型精细分级的精度标准,KernelGen 在追求极致性能的同时,确保算子替换与跨后端生成具备可验证、可复现的数值正确性。

注:评测基于110 个算子 × 多平台 × 双编译器的完整结果,算子级明细已随 KernelGen / FlagOS 项目提供。

不同大模型在算子生成任务中的差异(以华为 Ascend 为例)

在算子自动生成场景中,大模型并非只承担「代码补全」的角色,其对算子语义理解、shape 泛化以及边界条件处理能力,都会直接影响生成算子的可执行性与稳定性。

在统一使用FlagTree Triton 编译器、并以华为 Ascend平台为目标硬件的条件下,评测对比了多种主流大模型在110 个 TorchAPI算子生成任务中的表现,重点统计其执行正确率(数值准确性通过)


从评测结果可以看到,不同大模型在算子生成任务中的能力差异较为明显,整体呈现出清晰的分层:

  • GPT-5 表现最优,在 110 个算子中有 65 个能够成功生成 Triton 实现并通过多种输入 shape 的一致性校验,显示出其在算子语义理解、控制流生成和边界条件处理方面的综合优势。

  • GLM-4.7 位于第二梯队,在部分复杂算子和 shape 泛化场景中仍存在不稳定情况,但已具备较强的自动算子生成能力。

  • Qwen3-Max 与 MiniMax-M2.1在算子生成这一高约束场景下成功率相对较低,主要受限于对算子细粒度语义和底层 Triton 编程模式的理解能力。

这一结果表明,在算子自动生成这一高度结构化、强约束的任务中,模型本身的推理与结构化生成能力,仍然是影响最终工程效果的关键因素之一

专家知识注入与算子性能进化(英伟达)

在引入模型自反思与外部专家知识后,KernelGen 的算子性能持续提升:

  • 算子执行正确率最高可达 75.5%

  • 74.2% 算子加速比 >0.8

  • 68.5% 算子加速比 >1.0

  • 加速比中位数1.04x,平均1.07x


Baseline 为基于智能体自反思的迭代方法;IterOpt为面向优化目标的反思迭代方法;v1_KNWL在优化迭代中引入模型轨迹总结知识;v2_KNWL与v3_KNWL分别在不同轮次进一步融合外部专家种子知识

这表明,算子自动生成已从「能跑」迈向「能用、可优化」。

总结

Claude Code 的 30 分钟迁移案例,让行业看到了AI正在改变「写代码」的方式

而 KernelGen 与 FlagOS 所展示的,是另一层更工程化的进展:

在硬件高度碎片化的时代,通过算子自动生成、统一编译器与跨芯片生态协同,让算子开发不再成为AI系统落地的核心瓶颈。

这不是一次演示的胜负,而是一条正在被验证、并持续演进的系统软件路线。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春运大巴逆袭封神,干翻高铁的,是数亿打工人回家刚需

春运大巴逆袭封神,干翻高铁的,是数亿打工人回家刚需

老特有话说
2026-02-02 22:26:24
具俊晔首次承认大S死亡真相,和一年前说法不一,汪小菲没说错

具俊晔首次承认大S死亡真相,和一年前说法不一,汪小菲没说错

把喜欢都给他
2026-02-04 21:40:19
富商将五箱茅台深埋地底,20年后才挖出来,打开箱子后富商愣住了

富商将五箱茅台深埋地底,20年后才挖出来,打开箱子后富商愣住了

二十一号故事铺
2024-09-25 07:00:12
1991年,19岁吴晓丽被判处死刑,在枪决前,她突然高喊一个要求

1991年,19岁吴晓丽被判处死刑,在枪决前,她突然高喊一个要求

南权先生
2026-01-05 16:39:45
1分钟8分引逆转!里夫斯25分钟35+6各种高难三分 湖媒:超级巨星

1分钟8分引逆转!里夫斯25分钟35+6各种高难三分 湖媒:超级巨星

颜小白的篮球梦
2026-02-06 13:44:03
孙殿英炸开慈禧陵墓后,为何急着脱她裤子?原因绝非想的那么不堪

孙殿英炸开慈禧陵墓后,为何急着脱她裤子?原因绝非想的那么不堪

谈史论天地
2026-02-04 13:31:21
他作为政委不被信任?司令员出事后,副司令主持工作,后被换下来

他作为政委不被信任?司令员出事后,副司令主持工作,后被换下来

浔阳咸鱼
2026-02-06 09:30:15
啥队有这配置?记者:某球队放弃字母哥因担心其不想当老二

啥队有这配置?记者:某球队放弃字母哥因担心其不想当老二

懂球帝
2026-02-06 02:04:07
狂秀操作!3笔交易送走半支队,整整省了1亿啊,冠军和薪资全都要

狂秀操作!3笔交易送走半支队,整整省了1亿啊,冠军和薪资全都要

球童无忌
2026-02-05 11:41:16
央视退休主持人聚会,张泽群主持串场,倪萍多次回怼不给面子

央视退休主持人聚会,张泽群主持串场,倪萍多次回怼不给面子

清衣渡a
2026-02-05 15:41:38
贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

素素娱乐
2026-02-06 10:29:31
倒计时一天,佩通坦和为泰党能否赢得大选?

倒计时一天,佩通坦和为泰党能否赢得大选?

风阳生
2026-02-06 15:08:54
阿斯:皇马客战瓦伦西亚,巴尔韦德将回到熟悉的中场位置

阿斯:皇马客战瓦伦西亚,巴尔韦德将回到熟悉的中场位置

画夕
2026-02-06 15:42:25
邮报:皇马球员的面罩训练回归,既节省时间又降低受伤风险

邮报:皇马球员的面罩训练回归,既节省时间又降低受伤风险

懂球帝
2026-02-06 10:43:08
2026有线电视大升级:收费透明、设备免费,这些关键点别错过

2026有线电视大升级:收费透明、设备免费,这些关键点别错过

时尚的弄潮
2026-02-06 14:53:16
《太平年》没有演的结局:放下王冠的钱氏家族,为何能绵延千年?

《太平年》没有演的结局:放下王冠的钱氏家族,为何能绵延千年?

小邵说剧
2026-02-04 07:48:02
痛心!南通54岁教师监考时突发疾病后离世,平时凌晨3点还在忙…

痛心!南通54岁教师监考时突发疾病后离世,平时凌晨3点还在忙…

南通濠生活
2026-02-06 12:22:18
《太平年》大结局:钱弘俶一生7次封王,被赵光义毒杀?结局太惨

《太平年》大结局:钱弘俶一生7次封王,被赵光义毒杀?结局太惨

掠影后有感
2026-02-05 11:29:35
彩电零售量跌破3000万台的恶果

彩电零售量跌破3000万台的恶果

家电圈
2026-02-03 19:50:24
1978年,有人反对陈云进政治局,姚依林:八大副主席只剩他一个了

1978年,有人反对陈云进政治局,姚依林:八大副主席只剩他一个了

混沌录
2026-02-05 22:10:16
2026-02-06 16:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14489文章数 66591关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

头条要闻

长和巴拿马港口遭接管 百亿美元全球港口出售计划生变

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科卷入骗保疑云 公司回应

汽车要闻

这颜值真的可以!方程豹首款轿车叫"镁7"还是"方程"?

态度原创

本地
游戏
艺术
教育
军事航空

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

一步到位仅需24元,《潜水员戴夫》手游正式发售

艺术要闻

Kristin Vestgard:挪威当代画家

教育要闻

取消中高考?讲讲为孩子、为国家,教育该往哪走#高考 #教育

军事要闻

不惧以军拦截 “全球坚韧船队”将再赴加沙

无障碍浏览 进入关怀版