写GPU算子这件事,有点像手工打造发动机零件——老师傅得对着CUDA手册抠细节,一行代码调三天,还得祈祷别在A100和H100上表现不一致。沐曦股份和上海人工智能实验室最近丢了个叫Kernel-Smith的东西出来,简单说:让AI帮你写算子。
这事的价值在于省时间。传统方式开发一个高性能算子,工程师得啃硬件架构、调内存排布、试并行策略,周期以周计。Kernel-Smith把这套流程自动化,输入需求,输出能跑的代码。不是Demo级别,是已经能用在实际训练里的那种。
沐曦做国产GPU,上海AI实验室有场景和数据,两边凑一起搞这个,逻辑上通顺。国产芯片的痛点从来不是"能不能跑",而是"跑起来有没有人愿意调"。Kernel-Smith相当于给自家硬件配了个自动调参工具,降低的是生态迁移成本。
不过也别急着喊颠覆。自动化生成算子不是新命题,Google的XLA、Meta的TorchInductor都在做,区别在落地深度。Kernel-Smith目前放出来的信息是联合发布,具体覆盖哪些算子、和竞品比效率如何,还得等更多实测。
有个细节值得注意:发布稿里提了"支持沐曦自研GPU",没提其他厂商。这很合理,毕竟自家孩子先喂饱。但长远看,工具能不能跨硬件通用,才是检验技术厚度的标尺。
一位参与早期测试的工程师反馈,Kernel-Smith在矩阵乘法这类标准算子上表现稳定,"至少不用凌晨两点还在改寄存器分配了"。对国产GPU生态来说,这种"能睡个好觉"的反馈,可能比参数表上的数字更实在。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.