网易首页 > 网易号 > 正文 申请入驻

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

0
分享至

新智元报道

编辑:好困 英智

【新智元导读】高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!

近日,获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。

然而,网友却发现,这个系统根本不管用。

「AI CUDA工程师」实际表现堪称翻车现场,不仅未能实现加速,甚至出现训练速度不升反降的情况。

网友反馈,使用该系统后,训练速度慢了3倍。

问题出在哪里呢?

经过一系列的验证,网友「main」发现:「AI CUDA工程师」写的内核有bug!

「它似乎窃取了即时实现的结果(可能是以某种方式的内存重用?),从而绕过了正确性检查。」

如果尝试以不同的顺序执行,只有下列第一种顺序有效。

  • torch, cuda

  • cuda, torch

随后,网友「miru」进一步发现,「AI CUDA工程师」之所以能实现100倍加速,是因为它钻了评估脚本的漏洞。

比如,上面这个任务的结果,是下面这个评估脚本跑出来的:

其中,这段代码会分配包含答案的中间内存,同时分配正确答案的副本并返回,而中间内存则被归还给PyTorch。

然后,这段有问题的代码会重用包含正确答案的中间内存,并运行一个空操作内核,使答案保持不变。

从而让这段有bug的「AI CUDA工程师」内核,被评估脚本误判为「正确」,并错误地显示出超过100×的加速。

这里的「hacking」是指把代码弄得惨不忍睹,导致评估脚本失灵,而不是刻意设计的漏洞利用。

Sakana在遵循KernelBench评估流程和发布可复现的评估代码方面做得很好,只是没有人工检查那些异常的结果。

目前只剩一个>100×的加速结果,是任务23_Conv3d_GroupNorm_Mean。

在这个任务中,「AI CUDA工程师」完全遗漏了卷积部分,但评估脚本并未检测出这个问题。

这段代码(卷积+组归一化+均值计算),实际上跑的卷积。

与这段「AI CUDA工程师」生成的代码对比,后者忘记了卷积。卷积的权重/偏置输入未被使用,实际并未执行任何卷积操作。

它成功通过了正确性检查并实现了100×加速,因为在评估脚本测试的特定输入上,两个内核的输出都是一个恒定值0.02。

与此同时,OpenAI研究员Lucas Beyer则用o3-mini-high发现了「AI CUDA工程师」的问题:

「o3-mini-high在11秒内找出了CUDA内核的问题。它快150倍是个bug,实际上是慢了3倍。」

他指出,Sakana代码存在关键的错误,两次基准测试结果差异极大,如此异常本应让其警醒反思:

  1. 这种超直白的CUDA代码根本不可能比优化过的cublas内核更快。如果它快了,那一定是哪里出了问题。

  2. 如果你的基准测试结果表现得神秘又不一致,那一定是哪里出了问题。

  3. o3-mini-high真的很强!它只用了11秒就找出了问题,而我花了大约10分钟来写这篇总结。

Sakana承认错误

Sakana目前正在进行更全面的修复工作,以解决评估脚本漏洞,并重新评估他们的技术。

在周五发布的事后分析报告中,Sakana承认系统存在「作弊」行为,并将其归咎于系统的「奖励作弊」倾向。

系统利用了评估代码中的漏洞,绕过准确性验证等检查环节,通过「奖励作弊」获得高指标,却并未真正实现加速模型训练的目标。

类似「钻空子」现象,在训练下棋的AI系统中也曾出现。

Sakana称已着手解决该问题,并计划在更新材料中修改此前的说法。

公司在X平台上发文称:

「将进化优化与LLM结合使用确实非常强大,但它也可能找到绕过验证沙盒的方法。幸运的是,我们的读者帮助测试了我们的CUDA内核,并发现系统找到了某种作弊方式。例如,系统在评估代码中发现了一个内存漏洞,在某些情况下,它能够绕过正确性检查。

此外,我们还发现,系统可以在基准测试任务中找到其他新的漏洞利用方法。

针对这些问题,我们已经加强了评估和运行时分析框架,修复了许多此类漏洞。目前,我们正在修改论文和实验结果,以反映并讨论LLM在CUDA内核优化中的奖励机制被滥用的问题,以及相应的应对措施。

我们对这一疏忽向读者深表歉意。我们将很快提供修订版,并分享经验和思考。」

AI CUDA工程师

上周,Sakana AI刚刚发布了世界上首个「AI CUDA工程师」。

「AI CUDA工程师」是一个基于前沿LLM的AI智能体框架,它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。

通过LLM驱动的进化代码优化技术,「AI CUDA工程师」将PyTorch代码转换为CUDA内核,并通过进化算法优化CUDA内核的执行效率,实现多个运算操作的融合。

这项工作分为4个阶段,分别是转换和翻译,进化优化以及创新档案。

「AI CUDA工程师」首先将PyTorch代码转换为可运行的CUDA内核,采用进化的方法来保留最优秀的CUDA内核。团队创新性地提出了内核交叉提示策略,能将多个优化后的内核进行有效组合。

通过构建一个高性能CUDA内核的创新档案库,以积累的优化经验为基础,实现更进一步的转换和性能突破。

团队相信这项技术能带来性能加速,加快LLM或其他AI模型的训练和推理速度,最终让AI模型在英伟达GPU上运行得更快。

这次大翻车表明,「AI CUDA工程师」通过作弊实现了>100×的性能。

Sakana AI也勇敢地承认了错误。

此次事件为AI行业敲响警钟,如果一种说法听起来好得令人难以置信,那很可能就是假的。

参考资料:

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

https://x.com/SakanaAILabs/status/1892992938013270019

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“评估无法自理的老人”竟多次外出旅游,护理机构负责人与评估中心合谋诈骗“长护险”300余万元,上海警方披露案情

“评估无法自理的老人”竟多次外出旅游,护理机构负责人与评估中心合谋诈骗“长护险”300余万元,上海警方披露案情

极目新闻
2026-04-29 13:35:06
广西一制糖公司放假94天,从五一休到八月初,网友:这是什么新型招聘手段吗?能投简历吗

广西一制糖公司放假94天,从五一休到八月初,网友:这是什么新型招聘手段吗?能投简历吗

极目新闻
2026-04-29 14:06:55
世锦赛战报:墨菲被罚了28分,仍完成黑球绝杀,4分险胜赵心童

世锦赛战报:墨菲被罚了28分,仍完成黑球绝杀,4分险胜赵心童

吴朑爱游泳
2026-04-29 02:22:54
上海“AA制生娃”事件引发全网愤怒,这个局背后真是步步惊心啊

上海“AA制生娃”事件引发全网愤怒,这个局背后真是步步惊心啊

桌子的生活观
2026-04-29 12:27:11
四川屏山通报父子3人落水身亡

四川屏山通报父子3人落水身亡

界面新闻
2026-04-29 17:16:42
韩俊被免去农业农村部党组书记,乌鲁木齐市委书记张柱接任

韩俊被免去农业农村部党组书记,乌鲁木齐市委书记张柱接任

观察者网
2026-04-29 13:55:20
网传Meta收购Manus交易已全部交割完成

网传Meta收购Manus交易已全部交割完成

小星球探索
2026-04-29 11:38:17
越野车凭什么也能家用?

越野车凭什么也能家用?

虎嗅APP
2026-04-28 17:48:06
张军成为首位被调查的奥运冠军,难逃牢狱之灾,金牌不是护身符

张军成为首位被调查的奥运冠军,难逃牢狱之灾,金牌不是护身符

米修体育
2026-04-29 17:56:53
广东一科技公司18岁员工在厕所长时间玩手机被开除,照片被发到400人员工群,公司称没拍到脸,负责人称通过门缝拍摄而得,当地人社局回应

广东一科技公司18岁员工在厕所长时间玩手机被开除,照片被发到400人员工群,公司称没拍到脸,负责人称通过门缝拍摄而得,当地人社局回应

大风新闻
2026-04-29 09:59:11
竞拍者叫价6003万元抢到深圳高端别墅后悔拍,758万元保证金打水漂,竞拍时曾一次性加价达2211万元,拍卖方回应

竞拍者叫价6003万元抢到深圳高端别墅后悔拍,758万元保证金打水漂,竞拍时曾一次性加价达2211万元,拍卖方回应

极目新闻
2026-04-29 12:45:06
同为清朝割让的领土,为什么香港能收回,海参崴却没有动静?

同为清朝割让的领土,为什么香港能收回,海参崴却没有动静?

抽象派大师
2026-04-29 00:14:58
一文读懂:北京银行何以拿下ESG高分答卷

一文读懂:北京银行何以拿下ESG高分答卷

投资时间网
2026-04-29 11:51:45
No!东契奇次轮报销!湖人彻底天塌了

No!东契奇次轮报销!湖人彻底天塌了

篮球实战宝典
2026-04-29 18:51:29
4月28日!华为新机官宣:32GB+1TB,正式开售!

4月28日!华为新机官宣:32GB+1TB,正式开售!

科技堡垒
2026-04-28 13:30:02
不可错过!4月29日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!4月29日晚上19:30比赛!中央5套CCTV5、CCTV5+直播表

林子说事
2026-04-29 16:58:04
刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

刚下飞机就被抓!美国佬用抓孟晚舟的套路、逮捕了中国公民徐泽伟

吃货的分享
2026-04-29 04:49:05
男子口含石子瓷片就餐,诈骗全国14家饭店3.7万元

男子口含石子瓷片就餐,诈骗全国14家饭店3.7万元

新闻晨报随申Hi
2026-04-29 14:56:08
荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

狐狸先森讲升学规划
2026-04-29 05:50:03
躺平网红受境外势力资助?孙玉良:少年强则国强,少年躺平则国亡

躺平网红受境外势力资助?孙玉良:少年强则国强,少年躺平则国亡

孙玉良
2026-04-29 10:43:37
2026-04-29 19:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15092文章数 66818关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

中国被指要暂停硫酸出口 海外慌了:没有可替代来源

头条要闻

中国被指要暂停硫酸出口 海外慌了:没有可替代来源

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

亲子
旅游
游戏
教育
家居

亲子要闻

宝蓝上学迟到没有赶上公交车,用行李书包接上滑板车去学校~

旅游要闻

郑州二七纪念馆:五一假期对外开放

研究称玩《英雄联盟》改善大脑功能 效果持续十周以上

教育要闻

付出一点就指望孩子感恩,别把亲子关系处成一场交易!

家居要闻

寂然无界 简洁风格

无障碍浏览 进入关怀版