网易首页 > 网易号 > 正文 申请入驻

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

大无语事件天天有,今天特别多——

AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。

自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。



别着急,我们先来梗概一下故事线:

这个月月初,阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文(该论文也在投ICLR 2026),论文中提出的benchmark和Lei Yang最近做的研究非常契合。

他超级开心,马上停下手头的工作,开始适配这个benchmark。

结果这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率



看到这儿,你是不是已经觉得够离谱了?

不好意思了朋友们,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。

这场闹剧的荒诞程度,一步步升级,直到最终Lei Yang“公开把它喷撤稿了”。

总之看得围观的Reddit吃瓜网友连连摇头:

  • 我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。
    但到了大模型时代看起来真的是一团糟。



好了,咱们一起来详细看看这个大无语事件到底是怎么回事。

什么,GT的错误率可能高达30%?

这个荒诞故事涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务的诊断benmark。

巧的是,论文中提出的这个新benchmark,和Lei Yang近期的研究方向挺契合。

所以Lei Yang读完论文后,停下手头其他工作,开始着手适配。



没想到的是,熬了一个周末的通宵完成适配后,模型跑出来的点数极其之低,远低于预期。

“我非常沮丧。”Lei Yang又开始做各种检查和尝试。

这个阶段就开始出现不对劲了。Lei Yang发现了官方代码的bug

  • 请求VLM的时候只用了图片路径的字符串,而不包含图片本身。

行,有bug咱们就修bug呗!

好家伙,修复这个bug后,模型的点数更低了……

这结果给Lei Yang干懵了。他在多个平台公开的小作文中写道:“由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了bug后点会更低。”



不得已,Lei Yang决定一条一条地分析错题,看看自家的模型是怎么做错的。

他抽查了前20道阶跃模型答错的题,结果令人大吃一惊:

  • 里面有6道题明确属于GT错误。
  • 从GT错误风格来看,很可能是模型自动生成的GT加上质检严重不足,导致GT包含大量幻觉。

这意味着,写进论文里、作者精心挑选用于展示的内容存在大问题。

他初步估算了一下,GT错误率可能高达30%

“我公开把它喷撤稿了”

于是,Lei Yang选择在GitHub上向作者反馈,指出其中的错误。

6天过后,论文作者简单回复了一下,然后直接关闭了issue



给Lei Yang气的呀,组织语言一通回击。

然而这件荒谬事件没有最离谱,只有更离谱——

ICLR review公布后,Lei Yang看了看该论文的5条reviews,居然没有任何一个审稿人发现GT质量问题,也没人发现论文中的例子存在幻觉和错误

(这里中插一下Openreview的直通车:https://openreview.net/forum?id=pS9jc2zxQz)

愤怒之下,他撰写了一份详尽的Public Comment。

内容大概是列举GT问题的实例,提醒ICLR审稿人和社区这个数据集质量堪忧、极易误导研究方向。



在这条评论最后,Lei Yang留了句话

  • 我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力

Fine,看似是输出愤怒,实则是真没招了,顺便警醒一下后来人不要再被坑。

不少网友为Lei Yang的这个行为超棒的:



最后,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo



原论文作者公开回应

这两天Lei Yang在多个平台分享自己的惨痛踩坑经历,希望通过分享这一遭遇,让更多研究者警觉起来,尤其不要盲目信任表面包装,哪怕是来自大公司。

今天上午,论文作者在小地瓜(没错就是那个平台)上现身回应了。

他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。



我们梳理了一下论文作者的回应。

首先关于数据质量,作者承认审核不周

虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。

所以也就没有留意到GT解答思路由GPT自动转换成分步骤CoT时出现了幻觉,导致step label出现了问题。

这部分实质上承认了此次荒谬事件中最核心的问题,即自动构建数据时的质检严重不足。

其次说了说关于论文中example inference的事儿。

他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。

在o3的输出例子中,是可以看到模型确实看到了图片的。

然后,他表示当时接收到Lei Yang的提醒后,修改了dummy代码,并且回复了Lei Yang。

最后他对自己当时直接关闭了issue感到非常抱歉。

“当时reopen并且回复了新提出的问题,下次也会一直开着直到问题全部解决。”

回应贴的最后一点是这么写的:

  • 我们的目标包括这个benchmark的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。
    会认真总结这次的经验教训,再接再厉。



参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
河北“二婚黄花大闺女”的瓜

河北“二婚黄花大闺女”的瓜

皮蛋儿电影
2026-02-28 13:45:08
56岁许晴,无美颜无滤镜素颜亮相,状态好到让人不敢相信

56岁许晴,无美颜无滤镜素颜亮相,状态好到让人不敢相信

复转小能手
2026-03-01 22:15:02
学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

火山詩话
2026-03-01 12:06:34
英媒:英国驻塞浦路斯空军基地传出强烈爆炸声

英媒:英国驻塞浦路斯空军基地传出强烈爆炸声

环球网资讯
2026-03-02 07:10:06
世界首次五百强断崖差:日本149家,美国151家,中国3家,现在呢

世界首次五百强断崖差:日本149家,美国151家,中国3家,现在呢

纪中百大事
2026-03-01 12:24:25
美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

美国CIA只用不到100万美元,就将伊朗的国运改写了足足70多年

爆角追踪
2026-03-01 14:57:47
哈梅内伊快87岁了,知道自己身体不行,也躲了,以死来唤起民众。

哈梅内伊快87岁了,知道自己身体不行,也躲了,以死来唤起民众。

岁月有情1314
2026-03-02 07:57:08
铁卫助攻独享队史第1,阿森纳2-1切尔西,破曼联纪录力压蓝月军团

铁卫助攻独享队史第1,阿森纳2-1切尔西,破曼联纪录力压蓝月军团

钉钉陌上花开
2026-03-02 05:48:31
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
国际油价跳涨,黄金、白银直线拉升!伊朗:反击已造成560名美军伤亡,3艘违规美英油轮遭导弹击中!特朗普称美方“基本摧毁”伊朗海军总部

国际油价跳涨,黄金、白银直线拉升!伊朗:反击已造成560名美军伤亡,3艘违规美英油轮遭导弹击中!特朗普称美方“基本摧毁”伊朗海军总部

每日经济新闻
2026-03-02 08:14:14
曼联2-1逆转十人水晶宫!11轮不败升英超第3 B费传射 谢什科3连杀

曼联2-1逆转十人水晶宫!11轮不败升英超第3 B费传射 谢什科3连杀

我爱英超
2026-03-02 00:01:06
特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

特朗普没想到:哈梅内伊虽然死了,但临终前的一项安排会这么厉害

健身狂人
2026-03-01 13:53:47
消息人士称哈梅内伊正掌控战局

消息人士称哈梅内伊正掌控战局

财联社
2026-03-01 05:07:17
随着中国男篮2连胜,日本送韩国2连败,本小组3支出线队基本如下

随着中国男篮2连胜,日本送韩国2连败,本小组3支出线队基本如下

小火箭爱体育
2026-03-01 18:43:21
MIT 证实:科学学习顺序,让你少学 23%,成绩反提 16.7%

MIT 证实:科学学习顺序,让你少学 23%,成绩反提 16.7%

户外阿毽
2026-03-01 17:38:10
一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

一个U盘装走180亿,200万人的血汗钱48小时人间蒸发

流苏晚晴
2026-03-01 16:54:18
内贾德死亡真相

内贾德死亡真相

哲空空
2026-03-02 07:50:14
伊朗前总统内贾德遇袭身亡,他地位如何?为何卸任13年仍被炸死?

伊朗前总统内贾德遇袭身亡,他地位如何?为何卸任13年仍被炸死?

之乎者也小鱼儿
2026-03-01 23:23:38
因“头巾佩戴不规范”被警察虐待致死的那位伊朗姑娘艾米尼,或许终于可以安息

因“头巾佩戴不规范”被警察虐待致死的那位伊朗姑娘艾米尼,或许终于可以安息

法律学堂
2026-03-02 00:06:54
2026-03-02 10:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176399关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

教育
亲子
房产
本地
公开课

教育要闻

阅读理解高分技巧 | 掌握“读”法,阅读不丢分

亲子要闻

“全网心疼!这位全职妈妈竟然如此对待孩子的饮食!”

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版