网易首页 > 网易号 > 正文 申请入驻

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

大无语事件天天有,今天特别多——

AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。

自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。



别着急,我们先来梗概一下故事线:

这个月月初,阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文(该论文也在投ICLR 2026),论文中提出的benchmark和Lei Yang最近做的研究非常契合。

他超级开心,马上停下手头的工作,开始适配这个benchmark。

结果这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率



看到这儿,你是不是已经觉得够离谱了?

不好意思了朋友们,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。

这场闹剧的荒诞程度,一步步升级,直到最终Lei Yang“公开把它喷撤稿了”。

总之看得围观的Reddit吃瓜网友连连摇头:

  • 我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。
    但到了大模型时代看起来真的是一团糟。



好了,咱们一起来详细看看这个大无语事件到底是怎么回事。

什么,GT的错误率可能高达30%?

这个荒诞故事涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务的诊断benmark。

巧的是,论文中提出的这个新benchmark,和Lei Yang近期的研究方向挺契合。

所以Lei Yang读完论文后,停下手头其他工作,开始着手适配。



没想到的是,熬了一个周末的通宵完成适配后,模型跑出来的点数极其之低,远低于预期。

“我非常沮丧。”Lei Yang又开始做各种检查和尝试。

这个阶段就开始出现不对劲了。Lei Yang发现了官方代码的bug

  • 请求VLM的时候只用了图片路径的字符串,而不包含图片本身。

行,有bug咱们就修bug呗!

好家伙,修复这个bug后,模型的点数更低了……

这结果给Lei Yang干懵了。他在多个平台公开的小作文中写道:“由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了bug后点会更低。”



不得已,Lei Yang决定一条一条地分析错题,看看自家的模型是怎么做错的。

他抽查了前20道阶跃模型答错的题,结果令人大吃一惊:

  • 里面有6道题明确属于GT错误。
  • 从GT错误风格来看,很可能是模型自动生成的GT加上质检严重不足,导致GT包含大量幻觉。

这意味着,写进论文里、作者精心挑选用于展示的内容存在大问题。

他初步估算了一下,GT错误率可能高达30%

“我公开把它喷撤稿了”

于是,Lei Yang选择在GitHub上向作者反馈,指出其中的错误。

6天过后,论文作者简单回复了一下,然后直接关闭了issue



给Lei Yang气的呀,组织语言一通回击。

然而这件荒谬事件没有最离谱,只有更离谱——

ICLR review公布后,Lei Yang看了看该论文的5条reviews,居然没有任何一个审稿人发现GT质量问题,也没人发现论文中的例子存在幻觉和错误

(这里中插一下Openreview的直通车:https://openreview.net/forum?id=pS9jc2zxQz)

愤怒之下,他撰写了一份详尽的Public Comment。

内容大概是列举GT问题的实例,提醒ICLR审稿人和社区这个数据集质量堪忧、极易误导研究方向。



在这条评论最后,Lei Yang留了句话

  • 我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力

Fine,看似是输出愤怒,实则是真没招了,顺便警醒一下后来人不要再被坑。

不少网友为Lei Yang的这个行为超棒的:



最后,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo



原论文作者公开回应

这两天Lei Yang在多个平台分享自己的惨痛踩坑经历,希望通过分享这一遭遇,让更多研究者警觉起来,尤其不要盲目信任表面包装,哪怕是来自大公司。

今天上午,论文作者在小地瓜(没错就是那个平台)上现身回应了。

他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。



我们梳理了一下论文作者的回应。

首先关于数据质量,作者承认审核不周

虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。

所以也就没有留意到GT解答思路由GPT自动转换成分步骤CoT时出现了幻觉,导致step label出现了问题。

这部分实质上承认了此次荒谬事件中最核心的问题,即自动构建数据时的质检严重不足。

其次说了说关于论文中example inference的事儿。

他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。

在o3的输出例子中,是可以看到模型确实看到了图片的。

然后,他表示当时接收到Lei Yang的提醒后,修改了dummy代码,并且回复了Lei Yang。

最后他对自己当时直接关闭了issue感到非常抱歉。

“当时reopen并且回复了新提出的问题,下次也会一直开着直到问题全部解决。”

回应贴的最后一点是这么写的:

  • 我们的目标包括这个benchmark的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。
    会认真总结这次的经验教训,再接再厉。



参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东3消息!大外仍未到队,徐杰被曝患肠胃炎,球迷怀念黑山外教

广东3消息!大外仍未到队,徐杰被曝患肠胃炎,球迷怀念黑山外教

多特体育说
2026-04-19 11:21:28
知名网红意外离世,平时爱拍墓地相关的内容,还称要买一块给自己

知名网红意外离世,平时爱拍墓地相关的内容,还称要买一块给自己

原梦叁生
2026-04-18 18:31:01
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

奥字侃剧
2026-03-25 08:29:10
59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

揽星河的笔记
2026-04-06 18:05:19
2026年1-3月中国大陆访日游客暴跌55%, 重创日本旅游业?

2026年1-3月中国大陆访日游客暴跌55%, 重创日本旅游业?

新浪财经
2026-04-16 19:18:18
黄圣依17年终错付,杨子带23岁新女友见91岁母亲,铜钱盆抢镜

黄圣依17年终错付,杨子带23岁新女友见91岁母亲,铜钱盆抢镜

卷史
2026-04-18 13:54:59
球迷态度:英超“天王山之战”,曼城vs阿森纳您看好谁取胜?

球迷态度:英超“天王山之战”,曼城vs阿森纳您看好谁取胜?

懂球帝
2026-04-19 11:49:41
1951 年戴藏宜被处决,蒋介石闻讯,命毛人凤接回戴笠孙子

1951 年戴藏宜被处决,蒋介石闻讯,命毛人凤接回戴笠孙子

唠叨说历史
2026-03-20 16:06:23
开门黑!火箭98-107湖人,本场谁是罪魁祸首,数据不会说谎!

开门黑!火箭98-107湖人,本场谁是罪魁祸首,数据不会说谎!

桃叶渡春
2026-04-19 12:35:40
北京这夜,蓝盈莹抢位置,黄渤拽高叶到C位,他凭啥坐于和伟前面

北京这夜,蓝盈莹抢位置,黄渤拽高叶到C位,他凭啥坐于和伟前面

往史过眼云烟
2026-04-17 17:01:44
沙特带头,阿联酋紧跟,卡塔尔随后,中东开始大变局

沙特带头,阿联酋紧跟,卡塔尔随后,中东开始大变局

明天见灌装冰块
2026-04-18 13:24:18
肯纳德高效老詹准三双湖人取胜火箭 杜兰特G2要复出吗?

肯纳德高效老詹准三双湖人取胜火箭 杜兰特G2要复出吗?

仰卧撑FTUer
2026-04-19 12:07:05
扎心!一季度观影人次锐减6700万,票房腰斩,网友:电影真的难看

扎心!一季度观影人次锐减6700万,票房腰斩,网友:电影真的难看

火山詩话
2026-04-17 14:17:56
老蒋得知毛岸英牺牲,半夜支开宋美龄,向儿子蒋经国吐露心声

老蒋得知毛岸英牺牲,半夜支开宋美龄,向儿子蒋经国吐露心声

历史点行
2026-04-09 23:52:43
《复仇者联盟5》试映反响炸裂!2026年12月上映

《复仇者联盟5》试映反响炸裂!2026年12月上映

小椰的奶奶
2026-04-16 18:48:21
西蒙尼:我现在没心思想阿森纳,这场失利让我很难受

西蒙尼:我现在没心思想阿森纳,这场失利让我很难受

懂球帝
2026-04-19 08:09:39
冯绍峰忙恋爱!赵丽颖上海亲子游,想想坐行李箱萌态十足,画面温馨

冯绍峰忙恋爱!赵丽颖上海亲子游,想想坐行李箱萌态十足,画面温馨

八卦王者
2026-04-18 16:27:16
真狠!连横十年又大跌一年从9块跌到4,吕强却从1100万加到2100万

真狠!连横十年又大跌一年从9块跌到4,吕强却从1100万加到2100万

长风价值掘金
2026-04-19 11:03:56
台湾产业大佬挺李四川遭“查水表”,徐巧芯:民进党在怕什么

台湾产业大佬挺李四川遭“查水表”,徐巧芯:民进党在怕什么

海峡导报社
2026-04-18 12:04:16
40岁女人:丈夫出差半个月,我找了男邻居,体会到了女人的幸福

40岁女人:丈夫出差半个月,我找了男邻居,体会到了女人的幸福

混音情感
2026-04-19 10:52:49
2026-04-19 13:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12495文章数 176455关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

掘金擒狼开门红:五花肉与小辣椒

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

本地
游戏
时尚
健康
教育

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

Switch 2第一方打骨折!三款大作价格直接腰斩

选对发型,真的能少走很多变美弯路

干细胞抗衰4大误区,90%的人都中招

教育要闻

教育厅:高校院系需配体育辅导员

无障碍浏览 进入关怀版