网易首页 > 网易号 > 正文 申请入驻

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

0
分享至

新智元报道

编辑:好困 英智

【新智元导读】高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!

近日,获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。

然而,网友却发现,这个系统根本不管用。

「AI CUDA工程师」实际表现堪称翻车现场,不仅未能实现加速,甚至出现训练速度不升反降的情况。

网友反馈,使用该系统后,训练速度慢了3倍。

问题出在哪里呢?

经过一系列的验证,网友「main」发现:「AI CUDA工程师」写的内核有bug!

「它似乎窃取了即时实现的结果(可能是以某种方式的内存重用?),从而绕过了正确性检查。」

如果尝试以不同的顺序执行,只有下列第一种顺序有效。

  • torch, cuda

  • cuda, torch

随后,网友「miru」进一步发现,「AI CUDA工程师」之所以能实现100倍加速,是因为它钻了评估脚本的漏洞。

比如,上面这个任务的结果,是下面这个评估脚本跑出来的:

其中,这段代码会分配包含答案的中间内存,同时分配正确答案的副本并返回,而中间内存则被归还给PyTorch。

然后,这段有问题的代码会重用包含正确答案的中间内存,并运行一个空操作内核,使答案保持不变。

从而让这段有bug的「AI CUDA工程师」内核,被评估脚本误判为「正确」,并错误地显示出超过100×的加速。

这里的「hacking」是指把代码弄得惨不忍睹,导致评估脚本失灵,而不是刻意设计的漏洞利用。

Sakana在遵循KernelBench评估流程和发布可复现的评估代码方面做得很好,只是没有人工检查那些异常的结果。

目前只剩一个>100×的加速结果,是任务23_Conv3d_GroupNorm_Mean。

在这个任务中,「AI CUDA工程师」完全遗漏了卷积部分,但评估脚本并未检测出这个问题。

这段代码(卷积+组归一化+均值计算),实际上跑的卷积。

与这段「AI CUDA工程师」生成的代码对比,后者忘记了卷积。卷积的权重/偏置输入未被使用,实际并未执行任何卷积操作。

它成功通过了正确性检查并实现了100×加速,因为在评估脚本测试的特定输入上,两个内核的输出都是一个恒定值0.02。

与此同时,OpenAI研究员Lucas Beyer则用o3-mini-high发现了「AI CUDA工程师」的问题:

「o3-mini-high在11秒内找出了CUDA内核的问题。它快150倍是个bug,实际上是慢了3倍。」

他指出,Sakana代码存在关键的错误,两次基准测试结果差异极大,如此异常本应让其警醒反思:

  1. 这种超直白的CUDA代码根本不可能比优化过的cublas内核更快。如果它快了,那一定是哪里出了问题。

  2. 如果你的基准测试结果表现得神秘又不一致,那一定是哪里出了问题。

  3. o3-mini-high真的很强!它只用了11秒就找出了问题,而我花了大约10分钟来写这篇总结。

Sakana承认错误

Sakana目前正在进行更全面的修复工作,以解决评估脚本漏洞,并重新评估他们的技术。

在周五发布的事后分析报告中,Sakana承认系统存在「作弊」行为,并将其归咎于系统的「奖励作弊」倾向。

系统利用了评估代码中的漏洞,绕过准确性验证等检查环节,通过「奖励作弊」获得高指标,却并未真正实现加速模型训练的目标。

类似「钻空子」现象,在训练下棋的AI系统中也曾出现。

Sakana称已着手解决该问题,并计划在更新材料中修改此前的说法。

公司在X平台上发文称:

「将进化优化与LLM结合使用确实非常强大,但它也可能找到绕过验证沙盒的方法。幸运的是,我们的读者帮助测试了我们的CUDA内核,并发现系统找到了某种作弊方式。例如,系统在评估代码中发现了一个内存漏洞,在某些情况下,它能够绕过正确性检查。

此外,我们还发现,系统可以在基准测试任务中找到其他新的漏洞利用方法。

针对这些问题,我们已经加强了评估和运行时分析框架,修复了许多此类漏洞。目前,我们正在修改论文和实验结果,以反映并讨论LLM在CUDA内核优化中的奖励机制被滥用的问题,以及相应的应对措施。

我们对这一疏忽向读者深表歉意。我们将很快提供修订版,并分享经验和思考。」

AI CUDA工程师

上周,Sakana AI刚刚发布了世界上首个「AI CUDA工程师」。

「AI CUDA工程师」是一个基于前沿LLM的AI智能体框架,它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。

通过LLM驱动的进化代码优化技术,「AI CUDA工程师」将PyTorch代码转换为CUDA内核,并通过进化算法优化CUDA内核的执行效率,实现多个运算操作的融合。

这项工作分为4个阶段,分别是转换和翻译,进化优化以及创新档案。

「AI CUDA工程师」首先将PyTorch代码转换为可运行的CUDA内核,采用进化的方法来保留最优秀的CUDA内核。团队创新性地提出了内核交叉提示策略,能将多个优化后的内核进行有效组合。

通过构建一个高性能CUDA内核的创新档案库,以积累的优化经验为基础,实现更进一步的转换和性能突破。

团队相信这项技术能带来性能加速,加快LLM或其他AI模型的训练和推理速度,最终让AI模型在英伟达GPU上运行得更快。

这次大翻车表明,「AI CUDA工程师」通过作弊实现了>100×的性能。

Sakana AI也勇敢地承认了错误。

此次事件为AI行业敲响警钟,如果一种说法听起来好得令人难以置信,那很可能就是假的。

参考资料:

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

https://x.com/SakanaAILabs/status/1892992938013270019

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
结婚8年妻子花光116万积蓄,其中67万打赏男主播,丈夫痛哭:不爱了,她耐不住寂寞

结婚8年妻子花光116万积蓄,其中67万打赏男主播,丈夫痛哭:不爱了,她耐不住寂寞

大风新闻
2025-11-18 09:58:09
22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

22分逆转5连胜!新鹰王上位特雷杨露馅 难怪老鹰不愿给4年2.29亿

锅子篮球
2025-11-17 20:20:53
詹姆斯正式回归湖人:我的肺感觉像新生儿 两年前也曾坐骨神经痛

詹姆斯正式回归湖人:我的肺感觉像新生儿 两年前也曾坐骨神经痛

罗说NBA
2025-11-18 06:26:45
谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

小乔古装汉服
2025-11-12 11:46:01
特斯拉开了个危险先例,将对中国造成很大的影响,为什么会这样?

特斯拉开了个危险先例,将对中国造成很大的影响,为什么会这样?

云上乌托邦
2025-11-17 17:20:43
小孩到底几岁才有正常审美?网友:这些小朋友上辈子过得不好!

小孩到底几岁才有正常审美?网友:这些小朋友上辈子过得不好!

解读热点事件
2025-11-16 00:05:03
苏群:杨瀚森打G联赛如果一场30分钟不累,便可以适应NBA强度

苏群:杨瀚森打G联赛如果一场30分钟不累,便可以适应NBA强度

林小湜体育频道
2025-11-18 00:33:31
日本为什么不怕中国?俄罗斯专家一席话点醒国人​

日本为什么不怕中国?俄罗斯专家一席话点醒国人​

近史谈
2025-11-06 21:16:03
C罗被拍到喝饮料引发热议,此前曾号召大家只喝水

C罗被拍到喝饮料引发热议,此前曾号召大家只喝水

星耀国际足坛
2025-11-17 23:42:38
农村老家不让回了?防止规模性的返乡滞乡,如何解读?

农村老家不让回了?防止规模性的返乡滞乡,如何解读?

十柱
2025-11-18 10:38:22
国民党内讧升级!周锡玮:不支持郑丽文促进统一的人,滚出国民党

国民党内讧升级!周锡玮:不支持郑丽文促进统一的人,滚出国民党

南宫一二
2025-11-18 14:40:45
五角大楼再次发动袭击,多人死亡

五角大楼再次发动袭击,多人死亡

参考消息
2025-11-17 16:19:06
浙江巡抚午睡后,与通房丫头一次偶然之欢,诞下名震民国的谭延闿

浙江巡抚午睡后,与通房丫头一次偶然之欢,诞下名震民国的谭延闿

历来纵横
2025-11-10 22:15:14
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

明月清风阁
2025-11-14 15:20:03
医生发现:天冷坚持戴帽子的人,过不了半年,身体或会出现4大变化

医生发现:天冷坚持戴帽子的人,过不了半年,身体或会出现4大变化

感觉会火
2025-11-17 12:13:41
林葳4战18中1:第4战2+2+2助攻创新高 仍未适应NCAA

林葳4战18中1:第4战2+2+2助攻创新高 仍未适应NCAA

醉卧浮生
2025-11-18 13:18:01
迪拜富人来中国旅游,回国一天后坦言:阿联酋跟中国差距天差地别

迪拜富人来中国旅游,回国一天后坦言:阿联酋跟中国差距天差地别

户外钓鱼哥阿勇
2025-11-11 06:16:51
人均600万到欠400亿,毁掉“天下第一村”的不是别人,是他们自己

人均600万到欠400亿,毁掉“天下第一村”的不是别人,是他们自己

一家说
2025-05-23 15:05:58
韩星李多海婆婆70大寿,她送现金黄金还送LV包,娘家婆家都是财阀

韩星李多海婆婆70大寿,她送现金黄金还送LV包,娘家婆家都是财阀

小咪侃娱圈
2025-11-18 14:12:05
2025-11-18 15:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13895文章数 66259关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

女子投诉借剪刀被保安限时20分钟还疑遭威胁 酒店回应

头条要闻

女子投诉借剪刀被保安限时20分钟还疑遭威胁 酒店回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

艺术
亲子
旅游
公开课
军事航空

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

亲子要闻

家有“暖心娃”的幸福时光:8岁孩子情绪价值拉满,宝爸心花怒放

旅游要闻

新疆昌吉:天山天池风景区宛如冰雪童话世界

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版