网易首页 > 网易号 > 正文 申请入驻

<span class="js_title_inner">“天下苦CUDA久矣!”KernelCAT率先掀桌,实现国产芯片无痛适配

0
分享至


2026 年 1 月底,英伟达 CEO 黄仁勋再次来华,刻意亲民的“菜市场外交”插曲不仅又一次引发热议,也让很多人回想起老黄在 2025 年 1 月,宁愿缺席美国总统特朗普就职典礼,也要来中国参加分公司年会、维护客户的有趣往事。

作为市值逾 4.5 万亿美元的 AI 巨头掌门人,老黄为何如此重视中国?


图由 AI 生成

这种重视的根源,在于中国 AI 产业与英伟达 GPU 及 CUDA 生态之间的双向深度依赖。一方面,中国主流 AI 模型的训练仍高度依赖英伟达芯片,且需在 CUDA 生态中加速迭代,以此追赶美国闭源模型的实力;另一方面,中国庞大的 AI 市场、优质的 AI 人才,以及台积电、富士康等核心供应链企业,共同撑起了英伟达的庞大估值与商业霸权。

1 智能的繁荣与底层的“枯竭”

中国 AI 的表层繁荣有目共睹:大模型发布数量占全球 40% 以上,稳居世界第一;Qwen 登顶 Hugging Face 全球下载榜,累计下载超 10 亿次;“豆包”日均活跃用户数(DAU)破亿,2025 年国产 AI 应用总下载量达 25.7 亿。这一切营造出一种错觉:中国人工智能的道路已是一片坦途。

然而,剥开这层光鲜外衣,国产 AI 的根基却异常脆弱。尽管本土芯片厂商在硬件设计与制造上奋力追赶,软件生态的缺失却成为难以逾越的鸿沟。高昂的迁移成本、对 CUDA 的路径依赖,使得国产模型即便想用“国产芯”,也常因缺乏高效、兼容的算子支持而寸步难行。

更严峻的是,这种依赖本质上是算力主权的交锋:国际芯片巨头每一分估值增长的背后,都可能是国内算力产业的被动与掣肘。

要打破这一困局,关键不在造更多芯片,而在打通“算法—算子—硬件”之间的最后一公里,尽可能多得释放国产芯片的理论峰值性能,建设自己的国产芯片生态。

其中最核心的一环,正是高性能算子的开发。

2 KernelCAT:计算加速专家级别的 Agent

算子(Kernel),是连接 AI 算法与计算芯片的“翻译官”:它将算法转化为硬件可执行的指令,决定了 AI 模型的推理速度、能耗与兼容性。

算子开发可以被理解为内核级别的编程工作,目前行业仍停留在“手工作坊”时代——开发过程极度依赖顶尖工程师的经验与反复试错,周期动辄数月,性能调优如同在迷雾中摸索。若把开发大模型应用比作“在精装修的样板间里摆放家具”,那么编写底层算子的难度,无异于“在深海中戴着沉重的手铐,徒手组装一块精密机械表”。

如果,让 AI 来开发算子呢?传统大模型或知识增强型 Agent 在此类任务面前往往力不从心:它们擅长模式匹配,却难以理解复杂计算任务中的物理约束、内存布局与并行调度逻辑。唯有超越经验式推理,深入建模问题本质,才能实现真正的“智能级”优化。

正是在这一“地狱级”技术挑战下,KernelCAT 应运而生。


终端版

KernelCAT 是一款本地运行的 AI Agent,它不仅是深耕算子开发和模型迁移的“计算加速专家”,也能够胜任日常通用的全栈开发任务,KernelCAT 提供了 CLI 终端命令行版与简洁桌面版两种形态供开发者使用。不同于仅聚焦特定任务的工具型 Agent,KernelCAT 具备扎实的通用编程能力——不仅能理解、生成和优化内核级别代码,也能处理常规软件工程任务,如环境配置、依赖管理、错误诊断与脚本编写,从而在复杂场景中实现端到端自主闭环。


桌面版

3 为国产芯片生态写高性能算子

在算子开发中,有一类问题很像“调参”——面对几十上百种参数或策略组合,工程师需要找出让算子跑得最快的那一组配置。传统做法靠经验试错,费时费力,还容易踩坑。KernelCAT 引入了运筹优化的思路:把“找最优参数”这件事交给算法,让算法去探索调优空间并收敛到最佳方案。

以昇腾芯片上的 FlashAttentionScore 算子为例,KernelCAT 在昇腾官方示例代码上,可以自动对该算子的分块参数调优问题进行运筹学建模,并使用数学优化算法求解,在十几轮迭代后就锁定了最优配置,在多种输入尺寸下延迟降低最高可达 22%,吞吐量提升最高近 30%,而且而整个过程无需人工干预。

这正是 KernelCAT 的独特之处:它不仅具备大模型的智能,能够理解代码、生成方案;还拥有运筹优化算法的严谨,能够系统搜索并收敛到最优解。智能与算法的结合,让算子调优既灵活,又有交付保障。

在对 KernelCAT 的另一场测试中,团队选取了 7 个不同规模的向量加法任务,测试目标明确:在华为昇腾平台上,直接对比华为开源算子、“黑盒”封装的商业化算子与 KernelCAT 自研算子实现的执行效率。

结果同样令人振奋,在这个案例的 7 个测试规模中,KernelCAT 给出的算子版本性能均取得领先优势,且任务完成仅仅用时 10 分钟。这意味着,即便面对经过商业级调优的闭源实现,KernelCAT 所采用的优化方式仍具备竞争力。


这不仅是数值层面的胜利,更是国产 AI Agent 在算子领域的一次自证。

4 没有坚不可破的生态,包括 CUDA

全球范围内,目前超过 90% 的重要 AI 训练任务运行于英伟达 GPU 之上,推理占比亦达 80% 以上;其开发者生态覆盖超 590 万用户,算子库规模逾 400 个,深度嵌入 90% 顶级 AI 学术论文的实现流程。黄仁勋曾言:“我们创立英伟达,是为了加速软件,芯片设计反而是次要的。”这句话揭示了一个关键真相:在现代计算体系中,软件才是真正的护城河。英伟达的持续领先,源于其从底层算法出发、贯通架构与编程模型的全栈掌控能力。参考 AMD 的历史经验,即使在架构与制程上具备充足的竞争力,缺乏成熟的生态系统也仍然难以撼动英伟达的地位。

在这场中美 AI 的角力中,上一次有中国企业对英伟达这只 AI 巨兽形成冲击,并不是因为推出新款芯片,而是算法与算子带来的效率提升。2025 年 1 月 27 日,英伟达股价暴跌近 17%,单日市值蒸发高达 5888 亿美元,创下美股史上单日市值蒸发新纪录,其主要原因是 Deepseek 通过高性能算子(尤其是 DeepGEMM)这一关键技术,以 1/20 的训练成本实现了 OpenAI O1 级的性能,这成功地证明了大模型性能≠堆砌芯片性能和数量,而是取决于算法创新 + 算子优化 + 硬件适配的协同。

如果国产芯片厂商也能拥有足够丰富的高性能算子库和生态开发者,突破英伟达 CUDA 现有生态的桎梏,让更多的国产模型“回家”,那么对其商业帝国将产生难以估量的冲击,甚至有可能成为中美科技博弈的关键胜负手。

KernelCAT 团队在让国产模型“迁移回家”的场景下做了大量尝试:

以 DeepSeek-OCR-2 模型在华为昇腾 910B2 NPU 上的部署为例,让我们看看 KernelCAT 是如何重塑工作范式的:

  1. 对抗“版本地狱”:KernelCAT 对任务目标和限制条件有着深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 实现,通过精准的依赖识别和补丁注入,解决了 vLLM、torch 和 torch_npu 的各个依赖库间版本互锁的三角矛盾,硬生生从零搭建起了一套稳定的生产环境,结合基础 Docker 镜像即可实现模型的开箱即用。

  2. 准确修补:它敏锐地识别出原版 vLLM 的 MOE 层依赖 CUDA 专有的操作和 vllm-ascend 提供的 Ascend 原生 MOE 实现,并果断通过插件包进行调用替换,让模型在国产芯片上"说上了母语"。

  3. 实现 35 倍加速:在引入 vllm-ascend 原生 MOE 实现补丁后,vLLM 在高并发下的吞吐量飙升至 550.45toks/s,相比 Transformers 方案实现了惊人的 35 倍加速,且在继续优化中。

  4. 无需人工大量介入:在这种复杂任务目标下,KernelCAT 可以自己规划和完成任务,无需研发提供大量提示词指导模型工作。

这意味着,原本需要顶尖工程师团队花费数周才能完成进行的适配工作,现在可以缩短至小时级(包含模型下载、环境构建的时间);同时让国产芯片从“能跑”到“飞起”,实现 35 倍的加速。KernelCAT 让国产芯片不再是被“封印”的算力废铁,而是可以通过深度工程优化,承载顶级多模态模型推理任务的性能引擎。

“天下苦 CUDA 久矣”——这句话曾是行业的无奈,但 KernelCAT 的出现,似乎让国产 AI 产业看到了一种新的可能。它不只是国内团队在 AI Agent 技术上的突破,更是一次对算力主权的郑重宣示:我们不再满足于在别人的地基上盖楼,而是要打好属于自己的 AI“地基”。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德日急眼了:我们垄断全球半个世纪,如今却被山西4万铁匠干翻

德日急眼了:我们垄断全球半个世纪,如今却被山西4万铁匠干翻

蜉蝣说
2026-01-30 11:00:49
泪目!38岁德约跪地仰天长啸 决胜盘救8个破发点+鏖战4小时进决赛

泪目!38岁德约跪地仰天长啸 决胜盘救8个破发点+鏖战4小时进决赛

我爱英超
2026-01-30 22:56:32
河北新娘拒婚闹被仨表哥打晕后续:打人母亲撒泼,想要回4万赔偿

河北新娘拒婚闹被仨表哥打晕后续:打人母亲撒泼,想要回4万赔偿

观察鉴娱
2026-01-06 09:52:34
男女老少齐上阵!湖南一村庄清理2公里村道,迎亲人回家过年 村民:一声号召来了50多人

男女老少齐上阵!湖南一村庄清理2公里村道,迎亲人回家过年 村民:一声号召来了50多人

红星新闻
2026-01-30 13:30:18
中国春节赴日2376班航班取消!中国游客消费2万亿被嫌弃,日网友:欧美游客多了,不亏!

中国春节赴日2376班航班取消!中国游客消费2万亿被嫌弃,日网友:欧美游客多了,不亏!

东京新青年
2026-01-27 17:56:04
华尔街深夜反击,金价一夜暴跌3500元,黄金都搬进了上海金库?

华尔街深夜反击,金价一夜暴跌3500元,黄金都搬进了上海金库?

好贤观史记
2026-01-30 19:08:06
没人看好穆里尼奥!皇马附加赛再战本菲卡,克罗斯:不可能再爆冷

没人看好穆里尼奥!皇马附加赛再战本菲卡,克罗斯:不可能再爆冷

夏侯看英超
2026-01-31 02:12:33
姚明:08奥运结束那一晚很失落,被队友拉去喝酒以为世界会完蛋

姚明:08奥运结束那一晚很失落,被队友拉去喝酒以为世界会完蛋

林小湜体育频道
2026-01-31 02:15:43
张兰晒娃意外曝光豪宅,夹菜弯腰全网心酸!小玥儿个子高太像大S

张兰晒娃意外曝光豪宅,夹菜弯腰全网心酸!小玥儿个子高太像大S

用外语夸女孩
2026-01-29 23:03:15
22天内父母双亡!10岁女童徒步下山,用饭钱为84岁奶奶买蛋糕

22天内父母双亡!10岁女童徒步下山,用饭钱为84岁奶奶买蛋糕

六目先生
2026-01-31 07:20:03
只差榜首3分!40岁C罗狂欢夜:吃饼斩生涯961球 3-0重燃夺冠希望

只差榜首3分!40岁C罗狂欢夜:吃饼斩生涯961球 3-0重燃夺冠希望

风过乡
2026-01-31 06:32:40
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
国产自研伟哥上市:舌下含服,15分钟起效,不伤血管,中老年适用

国产自研伟哥上市:舌下含服,15分钟起效,不伤血管,中老年适用

番茄健康
2026-01-30 15:46:17
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
0+0+0+0!瀚森,报销多少队友你才能学聪明?

0+0+0+0!瀚森,报销多少队友你才能学聪明?

柚子说球
2026-01-31 13:04:36
腊月里最补的鱼,并非带鱼和鲫鱼,而是这3种,刺少肉多还不贵

腊月里最补的鱼,并非带鱼和鲫鱼,而是这3种,刺少肉多还不贵

江江食研社
2026-01-30 20:30:05
日军一个师团有多少兵力?为何武汉会战50个军打不过10个师团

日军一个师团有多少兵力?为何武汉会战50个军打不过10个师团

云霄纪史观
2026-01-31 10:58:12
中使馆发最强“战斗檄文”:马科斯驱逐中国大使,但所有人将离开

中使馆发最强“战斗檄文”:马科斯驱逐中国大使,但所有人将离开

谛听骨语本尊
2026-01-30 11:40:39
澳网男单决赛奖金多少?德约科维奇追第25冠,阿尔卡拉斯伤病存疑

澳网男单决赛奖金多少?德约科维奇追第25冠,阿尔卡拉斯伤病存疑

体育大学僧
2026-01-31 11:52:36
《生命树》首播,杨紫被喷惨,得知胡歌的戏份之后,彻底弃剧了!

《生命树》首播,杨紫被喷惨,得知胡歌的戏份之后,彻底弃剧了!

喜欢历史的阿繁
2026-01-31 07:00:12
2026-01-31 14:48:51
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12009文章数 51727关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

郑丽文:国民党若重返执政 将推动签署"两岸和平框架"

头条要闻

郑丽文:国民党若重返执政 将推动签署"两岸和平框架"

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

游戏
亲子
本地
艺术
公开课

被手游搞黄婚事!玩家因《妮姬》氪金问题谈崩婚约

亲子要闻

萌娃疑惑的问妈妈:爸爸不帅也没钱,你为什么嫁给他?太逗了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

艺术要闻

15位当代国外画家的16幅具象人物绘画

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版