网易首页 > 网易号 > 正文 申请入驻

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

大无语事件天天有,今天特别多——

AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。

自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。



别着急,我们先来梗概一下故事线:

这个月月初,阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文(该论文也在投ICLR 2026),论文中提出的benchmark和Lei Yang最近做的研究非常契合。

他超级开心,马上停下手头的工作,开始适配这个benchmark。

结果这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率



看到这儿,你是不是已经觉得够离谱了?

不好意思了朋友们,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。

这场闹剧的荒诞程度,一步步升级,直到最终Lei Yang“公开把它喷撤稿了”。

总之看得围观的Reddit吃瓜网友连连摇头:

  • 我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。
    但到了大模型时代看起来真的是一团糟。



好了,咱们一起来详细看看这个大无语事件到底是怎么回事。

什么,GT的错误率可能高达30%?

这个荒诞故事涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务的诊断benmark。

巧的是,论文中提出的这个新benchmark,和Lei Yang近期的研究方向挺契合。

所以Lei Yang读完论文后,停下手头其他工作,开始着手适配。



没想到的是,熬了一个周末的通宵完成适配后,模型跑出来的点数极其之低,远低于预期。

“我非常沮丧。”Lei Yang又开始做各种检查和尝试。

这个阶段就开始出现不对劲了。Lei Yang发现了官方代码的bug

  • 请求VLM的时候只用了图片路径的字符串,而不包含图片本身。

行,有bug咱们就修bug呗!

好家伙,修复这个bug后,模型的点数更低了……

这结果给Lei Yang干懵了。他在多个平台公开的小作文中写道:“由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了bug后点会更低。”



不得已,Lei Yang决定一条一条地分析错题,看看自家的模型是怎么做错的。

他抽查了前20道阶跃模型答错的题,结果令人大吃一惊:

  • 里面有6道题明确属于GT错误。
  • 从GT错误风格来看,很可能是模型自动生成的GT加上质检严重不足,导致GT包含大量幻觉。

这意味着,写进论文里、作者精心挑选用于展示的内容存在大问题。

他初步估算了一下,GT错误率可能高达30%

“我公开把它喷撤稿了”

于是,Lei Yang选择在GitHub上向作者反馈,指出其中的错误。

6天过后,论文作者简单回复了一下,然后直接关闭了issue



给Lei Yang气的呀,组织语言一通回击。

然而这件荒谬事件没有最离谱,只有更离谱——

ICLR review公布后,Lei Yang看了看该论文的5条reviews,居然没有任何一个审稿人发现GT质量问题,也没人发现论文中的例子存在幻觉和错误

(这里中插一下Openreview的直通车:https://openreview.net/forum?id=pS9jc2zxQz)

愤怒之下,他撰写了一份详尽的Public Comment。

内容大概是列举GT问题的实例,提醒ICLR审稿人和社区这个数据集质量堪忧、极易误导研究方向。



在这条评论最后,Lei Yang留了句话

  • 我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力

Fine,看似是输出愤怒,实则是真没招了,顺便警醒一下后来人不要再被坑。

不少网友为Lei Yang的这个行为超棒的:



最后,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo



原论文作者公开回应

这两天Lei Yang在多个平台分享自己的惨痛踩坑经历,希望通过分享这一遭遇,让更多研究者警觉起来,尤其不要盲目信任表面包装,哪怕是来自大公司。

今天上午,论文作者在小地瓜(没错就是那个平台)上现身回应了。

他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。



我们梳理了一下论文作者的回应。

首先关于数据质量,作者承认审核不周

虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。

所以也就没有留意到GT解答思路由GPT自动转换成分步骤CoT时出现了幻觉,导致step label出现了问题。

这部分实质上承认了此次荒谬事件中最核心的问题,即自动构建数据时的质检严重不足。

其次说了说关于论文中example inference的事儿。

他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。

在o3的输出例子中,是可以看到模型确实看到了图片的。

然后,他表示当时接收到Lei Yang的提醒后,修改了dummy代码,并且回复了Lei Yang。

最后他对自己当时直接关闭了issue感到非常抱歉。

“当时reopen并且回复了新提出的问题,下次也会一直开着直到问题全部解决。”

回应贴的最后一点是这么写的:

  • 我们的目标包括这个benchmark的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。
    会认真总结这次的经验教训,再接再厉。



参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
变天了!2026年燃油车迎来降价潮,最大降幅50%,合资车霸榜​​

变天了!2026年燃油车迎来降价潮,最大降幅50%,合资车霸榜​​

夜深爱杂谈
2026-01-14 19:39:52
大连之后,深圳三条地铁也要“降本增效”

大连之后,深圳三条地铁也要“降本增效”

小样杂谈
2026-01-16 00:00:04
章泽天播客首秀翻车真相:能力配不上野心,拿“自嗨”当有趣

章泽天播客首秀翻车真相:能力配不上野心,拿“自嗨”当有趣

盐谈
2026-01-15 23:02:00
甜炸了!周扬青与何广智一起跨年,从日料店喝到酒吧,姐狗CP再续

甜炸了!周扬青与何广智一起跨年,从日料店喝到酒吧,姐狗CP再续

黄小仙的搞笑视频
2026-01-14 15:28:42
40岁邓莎官宣与58岁路行离婚!12岁儿子将出国读书,她能做自己了

40岁邓莎官宣与58岁路行离婚!12岁儿子将出国读书,她能做自己了

好贤观史记
2026-01-15 15:57:05
大冷门!林诗栋梁靖崑携手一轮游,屡失关键分太遗憾,王皓心碎

大冷门!林诗栋梁靖崑携手一轮游,屡失关键分太遗憾,王皓心碎

球盲百小易
2026-01-16 01:13:55
随着巴萨2-0,瓦伦西亚2-0,国王杯八强全部诞生:皇马榜上无名

随着巴萨2-0,瓦伦西亚2-0,国王杯八强全部诞生:皇马榜上无名

侧身凌空斩
2026-01-16 07:00:22
突发!国乒名将官宣退役,28岁结束8年国家队生涯

突发!国乒名将官宣退役,28岁结束8年国家队生涯

最爱乒乓球
2026-01-16 00:08:22
苍天好轮回!徐帆回应离婚5个月后,冯小刚终于迎来'反噬'

苍天好轮回!徐帆回应离婚5个月后,冯小刚终于迎来'反噬'

浮光惊掠影
2026-01-14 03:53:42
有趣,勇士队队友匿名要求,如果库明加不被交易,就让他上场比赛

有趣,勇士队队友匿名要求,如果库明加不被交易,就让他上场比赛

好火子
2026-01-16 04:54:06
嚣张!日本队宣布重要决定,中国男篮新大名单曝光,徐杰有望加入

嚣张!日本队宣布重要决定,中国男篮新大名单曝光,徐杰有望加入

宗介说体育
2026-01-15 14:18:13
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
柬埔寨一赌场酒店有女子坠楼身亡 警方追查涉事房间内中国籍男子

柬埔寨一赌场酒店有女子坠楼身亡 警方追查涉事房间内中国籍男子

红星新闻
2026-01-15 12:01:21
知名军事评论员李莉,为何清空作品?

知名军事评论员李莉,为何清空作品?

清哲木观察
2026-01-15 10:47:23
陶玉玲走了她最放心不下的,是那个还没来得及长大的女儿

陶玉玲走了她最放心不下的,是那个还没来得及长大的女儿

可乐谈情感
2026-01-16 05:21:43
一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

一家七口完美落袋31亿,卖掉公司后逃到美国,把麻烦留给17万股民

趣文说娱
2026-01-14 11:37:46
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
现货白银大幅跳水,跌幅扩大至7%

现货白银大幅跳水,跌幅扩大至7%

每日经济新闻
2026-01-15 09:43:56
亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

亡国灭种,断子绝孙?欧洲反华先锋立陶宛,正在从地图上消失

安珈使者啊
2026-01-15 14:32:17
出大事了,印度航天发射失败,造假事件细节披露,丢人的还在后面

出大事了,印度航天发射失败,造假事件细节披露,丢人的还在后面

天天热点见闻
2026-01-15 07:07:20
2026-01-16 07:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12020文章数 176359关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

头条要闻

白宫:特朗普正密切关注伊朗局势 并保留所有选项

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

本地
家居
艺术
健康
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

自在自宅 个性自由

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

血常规3项异常,是身体警报!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版