网易首页 > 网易号 > 正文 申请入驻

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

0
分享至

新智元报道

编辑:好困 英智

【新智元导读】高调亮相的世界首个「AI CUDA工程师」,宣称能让模型训练速度飙升100倍,如今却上演了一场「作弊」闹剧。OpenAI研究员用o3-mini,11秒便发现了内核代码有bug!

近日,获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。

然而,网友却发现,这个系统根本不管用。

「AI CUDA工程师」实际表现堪称翻车现场,不仅未能实现加速,甚至出现训练速度不升反降的情况。

网友反馈,使用该系统后,训练速度慢了3倍。

问题出在哪里呢?

经过一系列的验证,网友「main」发现:「AI CUDA工程师」写的内核有bug!

「它似乎窃取了即时实现的结果(可能是以某种方式的内存重用?),从而绕过了正确性检查。」

如果尝试以不同的顺序执行,只有下列第一种顺序有效。

  • torch, cuda

  • cuda, torch

随后,网友「miru」进一步发现,「AI CUDA工程师」之所以能实现100倍加速,是因为它钻了评估脚本的漏洞。

比如,上面这个任务的结果,是下面这个评估脚本跑出来的:

其中,这段代码会分配包含答案的中间内存,同时分配正确答案的副本并返回,而中间内存则被归还给PyTorch。

然后,这段有问题的代码会重用包含正确答案的中间内存,并运行一个空操作内核,使答案保持不变。

从而让这段有bug的「AI CUDA工程师」内核,被评估脚本误判为「正确」,并错误地显示出超过100×的加速。

这里的「hacking」是指把代码弄得惨不忍睹,导致评估脚本失灵,而不是刻意设计的漏洞利用。

Sakana在遵循KernelBench评估流程和发布可复现的评估代码方面做得很好,只是没有人工检查那些异常的结果。

目前只剩一个>100×的加速结果,是任务23_Conv3d_GroupNorm_Mean。

在这个任务中,「AI CUDA工程师」完全遗漏了卷积部分,但评估脚本并未检测出这个问题。

这段代码(卷积+组归一化+均值计算),实际上跑的卷积。

与这段「AI CUDA工程师」生成的代码对比,后者忘记了卷积。卷积的权重/偏置输入未被使用,实际并未执行任何卷积操作。

它成功通过了正确性检查并实现了100×加速,因为在评估脚本测试的特定输入上,两个内核的输出都是一个恒定值0.02。

与此同时,OpenAI研究员Lucas Beyer则用o3-mini-high发现了「AI CUDA工程师」的问题:

「o3-mini-high在11秒内找出了CUDA内核的问题。它快150倍是个bug,实际上是慢了3倍。」

他指出,Sakana代码存在关键的错误,两次基准测试结果差异极大,如此异常本应让其警醒反思:

  1. 这种超直白的CUDA代码根本不可能比优化过的cublas内核更快。如果它快了,那一定是哪里出了问题。

  2. 如果你的基准测试结果表现得神秘又不一致,那一定是哪里出了问题。

  3. o3-mini-high真的很强!它只用了11秒就找出了问题,而我花了大约10分钟来写这篇总结。

Sakana承认错误

Sakana目前正在进行更全面的修复工作,以解决评估脚本漏洞,并重新评估他们的技术。

在周五发布的事后分析报告中,Sakana承认系统存在「作弊」行为,并将其归咎于系统的「奖励作弊」倾向。

系统利用了评估代码中的漏洞,绕过准确性验证等检查环节,通过「奖励作弊」获得高指标,却并未真正实现加速模型训练的目标。

类似「钻空子」现象,在训练下棋的AI系统中也曾出现。

Sakana称已着手解决该问题,并计划在更新材料中修改此前的说法。

公司在X平台上发文称:

「将进化优化与LLM结合使用确实非常强大,但它也可能找到绕过验证沙盒的方法。幸运的是,我们的读者帮助测试了我们的CUDA内核,并发现系统找到了某种作弊方式。例如,系统在评估代码中发现了一个内存漏洞,在某些情况下,它能够绕过正确性检查。

此外,我们还发现,系统可以在基准测试任务中找到其他新的漏洞利用方法。

针对这些问题,我们已经加强了评估和运行时分析框架,修复了许多此类漏洞。目前,我们正在修改论文和实验结果,以反映并讨论LLM在CUDA内核优化中的奖励机制被滥用的问题,以及相应的应对措施。

我们对这一疏忽向读者深表歉意。我们将很快提供修订版,并分享经验和思考。」

AI CUDA工程师

上周,Sakana AI刚刚发布了世界上首个「AI CUDA工程师」。

「AI CUDA工程师」是一个基于前沿LLM的AI智能体框架,它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。

通过LLM驱动的进化代码优化技术,「AI CUDA工程师」将PyTorch代码转换为CUDA内核,并通过进化算法优化CUDA内核的执行效率,实现多个运算操作的融合。

这项工作分为4个阶段,分别是转换和翻译,进化优化以及创新档案。

「AI CUDA工程师」首先将PyTorch代码转换为可运行的CUDA内核,采用进化的方法来保留最优秀的CUDA内核。团队创新性地提出了内核交叉提示策略,能将多个优化后的内核进行有效组合。

通过构建一个高性能CUDA内核的创新档案库,以积累的优化经验为基础,实现更进一步的转换和性能突破。

团队相信这项技术能带来性能加速,加快LLM或其他AI模型的训练和推理速度,最终让AI模型在英伟达GPU上运行得更快。

这次大翻车表明,「AI CUDA工程师」通过作弊实现了>100×的性能。

Sakana AI也勇敢地承认了错误。

此次事件为AI行业敲响警钟,如果一种说法听起来好得令人难以置信,那很可能就是假的。

参考资料:

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

https://x.com/SakanaAILabs/status/1892992938013270019

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

小毛打酱油 浙江双煞快废了!于金永该让位姚浩洋 依木兰眼神太狠

刀锋体育
2026-03-26 10:43:52
巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

巴拿马籍船在华被查44艘,滞留暴涨3倍,船东日亏数十万

观察者海风
2026-03-25 23:03:11
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

大中国
2026-03-26 13:30:16
张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

张雪峰猝死事件发酵!网传内蒙一公司老板开会,出资全员急救培训

火山詩话
2026-03-26 10:42:17
巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

巴西记者:等到有扑克牌世界杯的时候,内马尔就能入选巴西队

懂球帝
2026-03-26 12:27:11
杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

杨瀚森带不动CBA队友,混音输给马刺,数据显示中国新星不用背锅

姜大叔侃球
2026-03-26 10:42:36
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
北京今日傍晚北风渐起,周末有弱降水

北京今日傍晚北风渐起,周末有弱降水

北青网-北京青年报
2026-03-26 13:27:04
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

军机Talk
2026-03-25 17:17:57
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

清算终于开始了!一个要求,震动东京:中国要求日本限期内归还

壹知眠羊
2026-01-28 22:03:28
冯巩在人民日报撰文

冯巩在人民日报撰文

草莓解说体育
2026-03-26 14:13:16
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

贾马尔-穆雷生涯第4次单场得分50+,掘金队史仅次于约基奇

懂球帝
2026-03-26 13:21:12
首次全流程展示!国产无人机蜂群作战系统震撼亮相

首次全流程展示!国产无人机蜂群作战系统震撼亮相

环球网资讯
2026-03-25 14:26:17
第81轮反击来了!飞弹直击以军集结地

第81轮反击来了!飞弹直击以军集结地

星火聊天下
2026-03-26 07:27:33
2026-03-26 14:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
旅游
艺术
家居
公开课

教育要闻

高考地理中的花海经济

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版