网易首页 > 网易号 > 正文 申请入驻

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

0
分享至

新智元报道

编辑:好困 英智

【新智元导读】高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!

近日,获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。

然而,网友却发现,这个系统根本不管用。

「AI CUDA工程师」实际表现堪称翻车现场,不仅未能实现加速,甚至出现训练速度不升反降的情况。

网友反馈,使用该系统后,训练速度慢了3倍。

问题出在哪里呢?

经过一系列的验证,网友「main」发现:「AI CUDA工程师」写的内核有bug!

「它似乎窃取了即时实现的结果(可能是以某种方式的内存重用?),从而绕过了正确性检查。」

如果尝试以不同的顺序执行,只有下列第一种顺序有效。

  • torch, cuda

  • cuda, torch

随后,网友「miru」进一步发现,「AI CUDA工程师」之所以能实现100倍加速,是因为它钻了评估脚本的漏洞。

比如,上面这个任务的结果,是下面这个评估脚本跑出来的:

其中,这段代码会分配包含答案的中间内存,同时分配正确答案的副本并返回,而中间内存则被归还给PyTorch。

然后,这段有问题的代码会重用包含正确答案的中间内存,并运行一个空操作内核,使答案保持不变。

从而让这段有bug的「AI CUDA工程师」内核,被评估脚本误判为「正确」,并错误地显示出超过100×的加速。

这里的「hacking」是指把代码弄得惨不忍睹,导致评估脚本失灵,而不是刻意设计的漏洞利用。

Sakana在遵循KernelBench评估流程和发布可复现的评估代码方面做得很好,只是没有人工检查那些异常的结果。

目前只剩一个>100×的加速结果,是任务23_Conv3d_GroupNorm_Mean。

在这个任务中,「AI CUDA工程师」完全遗漏了卷积部分,但评估脚本并未检测出这个问题。

这段代码(卷积+组归一化+均值计算),实际上跑的卷积。

与这段「AI CUDA工程师」生成的代码对比,后者忘记了卷积。卷积的权重/偏置输入未被使用,实际并未执行任何卷积操作。

它成功通过了正确性检查并实现了100×加速,因为在评估脚本测试的特定输入上,两个内核的输出都是一个恒定值0.02。

与此同时,OpenAI研究员Lucas Beyer则用o3-mini-high发现了「AI CUDA工程师」的问题:

「o3-mini-high在11秒内找出了CUDA内核的问题。它快150倍是个bug,实际上是慢了3倍。」

他指出,Sakana代码存在关键的错误,两次基准测试结果差异极大,如此异常本应让其警醒反思:

  1. 这种超直白的CUDA代码根本不可能比优化过的cublas内核更快。如果它快了,那一定是哪里出了问题。

  2. 如果你的基准测试结果表现得神秘又不一致,那一定是哪里出了问题。

  3. o3-mini-high真的很强!它只用了11秒就找出了问题,而我花了大约10分钟来写这篇总结。

Sakana承认错误

Sakana目前正在进行更全面的修复工作,以解决评估脚本漏洞,并重新评估他们的技术。

在周五发布的事后分析报告中,Sakana承认系统存在「作弊」行为,并将其归咎于系统的「奖励作弊」倾向。

系统利用了评估代码中的漏洞,绕过准确性验证等检查环节,通过「奖励作弊」获得高指标,却并未真正实现加速模型训练的目标。

类似「钻空子」现象,在训练下棋的AI系统中也曾出现。

Sakana称已着手解决该问题,并计划在更新材料中修改此前的说法。

公司在X平台上发文称:

「将进化优化与LLM结合使用确实非常强大,但它也可能找到绕过验证沙盒的方法。幸运的是,我们的读者帮助测试了我们的CUDA内核,并发现系统找到了某种作弊方式。例如,系统在评估代码中发现了一个内存漏洞,在某些情况下,它能够绕过正确性检查。

此外,我们还发现,系统可以在基准测试任务中找到其他新的漏洞利用方法。

针对这些问题,我们已经加强了评估和运行时分析框架,修复了许多此类漏洞。目前,我们正在修改论文和实验结果,以反映并讨论LLM在CUDA内核优化中的奖励机制被滥用的问题,以及相应的应对措施。

我们对这一疏忽向读者深表歉意。我们将很快提供修订版,并分享经验和思考。」

AI CUDA工程师

上周,Sakana AI刚刚发布了世界上首个「AI CUDA工程师」。

「AI CUDA工程师」是一个基于前沿LLM的AI智能体框架,它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。

通过LLM驱动的进化代码优化技术,「AI CUDA工程师」将PyTorch代码转换为CUDA内核,并通过进化算法优化CUDA内核的执行效率,实现多个运算操作的融合。

这项工作分为4个阶段,分别是转换和翻译,进化优化以及创新档案。

「AI CUDA工程师」首先将PyTorch代码转换为可运行的CUDA内核,采用进化的方法来保留最优秀的CUDA内核。团队创新性地提出了内核交叉提示策略,能将多个优化后的内核进行有效组合。

通过构建一个高性能CUDA内核的创新档案库,以积累的优化经验为基础,实现更进一步的转换和性能突破。

团队相信这项技术能带来性能加速,加快LLM或其他AI模型的训练和推理速度,最终让AI模型在英伟达GPU上运行得更快。

这次大翻车表明,「AI CUDA工程师」通过作弊实现了>100×的性能。

Sakana AI也勇敢地承认了错误。

此次事件为AI行业敲响警钟,如果一种说法听起来好得令人难以置信,那很可能就是假的。

参考资料:

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

https://x.com/SakanaAILabs/status/1892992938013270019

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
格陵兰岛的原住民,为什么长得像中国人?他们是华夏后裔吗?

格陵兰岛的原住民,为什么长得像中国人?他们是华夏后裔吗?

阿讯说天下
2026-01-19 13:02:48
出大事了,美军战机求救后失踪,搜救队曝出重大秘密,美日都慌了

出大事了,美军战机求救后失踪,搜救队曝出重大秘密,美日都慌了

孤单是寂寞的毒
2026-01-18 12:41:31
最低-4℃,阵风8级!明起长沙迎今冬首场降雪过程,城区或有中雪、山区大雪

最低-4℃,阵风8级!明起长沙迎今冬首场降雪过程,城区或有中雪、山区大雪

三湘都市报
2026-01-19 12:27:13
注意!iOS26.3更新包10.89GB:权限放开,老机型升级要三思

注意!iOS26.3更新包10.89GB:权限放开,老机型升级要三思

小兔子发现大事情
2026-01-18 10:21:39
牛女士道歉后续:爷爷转账100删除孩子联系方式,有人跑单位去闹

牛女士道歉后续:爷爷转账100删除孩子联系方式,有人跑单位去闹

阿纂看事
2026-01-17 09:52:50
李叔同出家前,弟子丰子恺问他忍心抛弃妻儿吗?李叔同的回答绝了

李叔同出家前,弟子丰子恺问他忍心抛弃妻儿吗?李叔同的回答绝了

千秋文化
2026-01-17 21:27:42
55年大授衔,国军班长出身的他自报大校,罗荣桓称你想多了

55年大授衔,国军班长出身的他自报大校,罗荣桓称你想多了

万年历史老号
2026-01-19 03:30:30
被搅黄的试训,没有“身份”的国少球员!到底是谁害了邝兆镭?

被搅黄的试训,没有“身份”的国少球员!到底是谁害了邝兆镭?

中国足球的那些事儿
2026-01-19 08:00:20
伊朗街头的诡异平静!是绝望还是等待?

伊朗街头的诡异平静!是绝望还是等待?

深度报
2026-01-17 23:00:11
十分罕见!我国一天出现两次火箭发射失利事件!都是什么原因?

十分罕见!我国一天出现两次火箭发射失利事件!都是什么原因?

科普大世界
2026-01-17 18:07:19
年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

晓艾故事汇
2026-01-06 09:08:51
A股三大板块爆发,多股涨停!

A股三大板块爆发,多股涨停!

证券时报
2026-01-19 13:11:02
分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

分手14年,释小龙何洁境遇天差地别,一个身家过亿,一个养不起娃

查尔菲的笔记
2026-01-09 22:17:44
《小城大事》7位美女颜值排名,李溪芮第5,赵丽颖第2,第1很惊喜

《小城大事》7位美女颜值排名,李溪芮第5,赵丽颖第2,第1很惊喜

娱君坠星河
2026-01-19 13:09:49
王伟中:立即成立调查组,彻查事故原因,严肃追责问责

王伟中:立即成立调查组,彻查事故原因,严肃追责问责

新京报政事儿
2026-01-19 00:34:45
全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

华人星光
2026-01-12 13:14:21
罕见!日媒关注U23国足:“难以置信”+“谁说乌兹会5比0赢的”

罕见!日媒关注U23国足:“难以置信”+“谁说乌兹会5比0赢的”

足球大腕
2026-01-18 21:48:42
对等关税以来,中国对美出口下降了27%,贸易盈余减少了30%

对等关税以来,中国对美出口下降了27%,贸易盈余减少了30%

子业一说财经
2026-01-18 16:15:57
韩媒:中国U23的比赛风格如同沼泽,李昊堪称“蜘蛛侠”门将

韩媒:中国U23的比赛风格如同沼泽,李昊堪称“蜘蛛侠”门将

懂球帝
2026-01-18 10:49:28
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
2026-01-19 15:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14363文章数 66515关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

特朗普:解决俄对格陵兰岛威胁时机已到 是时候行动了

头条要闻

特朗普:解决俄对格陵兰岛威胁时机已到 是时候行动了

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

健康
亲子
房产
游戏
公开课

血常规3项异常,是身体警报!

亲子要闻

滑得乱七八糟又稳稳当当的,人类幼崽成长计划

房产要闻

封关刚刚满月,海南真爆了!三亚房价,涨幅冲上全国第三!

《棕色尘埃2》因当地法规在越南google商店下架

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版