网易首页 > 网易号 > 正文 申请入驻

ICLR 2026会好吗?300篇投稿50篇含幻觉,引用example.com也过审

0
分享至



机器之心报道

编辑:杜伟、Panda

这届 ICLR 的烦心事还没有结束。

最近一段时间,对于 ICLR 2026 来说,真可谓是一波未平、一波又起。先是第三方机构对审稿意见的系统性统计发现,其中有 21% 完全由 AI 生成;后有 OpenReview 评审大开盒,波及到了 ICLR 2026 超过 10000 篇投稿。

今天,ICLR 2026 的审稿又被揭开一块遮羞布。事情是这样的:AI 生成内容检测平台 GPTZero 扫描了 300 篇投稿论文,发现其中有 50 篇在论文引用上至少包含一处明显的幻觉内容。



甚至有些幻觉引用还非常离谱,达到了匪夷所思的程度,就好像投稿者完全不检查一样。比如下面 GPTZero CTO 和联创 Alex Cui 在 X 分享的这个例子,投稿者给出的引用链接竟然是默认示例链接 example.com !



而在下面的例子中,作者名单就只是一串大写字母。



更令人担忧的是,这些存在幻觉内容的投稿已经经过了 3-5 名领域专家的同行评审,但他们中的绝大多数都未能识别出这些虚假的引用。

这意味着,如果这些投稿没有其他外部干预,就可能会被 ICLR 会议接收。部分投稿的平均分甚至达到了 8/10,这几乎可以确保它们被录用。

在实操过程中,GPTZero列出了每篇论文中由检测工具标记、并由人工核实的具体幻觉示例。如下两篇论文,第一篇(TamperTok)的一篇引用论文确实存在,但所有作者都错了;第二篇(MixtureVitae)的一篇引用论文的前 3 位作者信息正确,而后七位作者不在论文中甚至是虚构出来的。



甚至还有「不存在的论文引用」。



50 篇存在幻觉内容的投稿完整如下:



存在幻觉的地方还包括:

  • 作者和会议信息与引用论文相符,但标题略有不同,年份也有误;
  • arXiv ID 是真实的,但引用论文的作者和标题都不同;
  • 引用论文存在,但是作者和页码都是错误的;
  • 能找到与 URL 对应的引用论文,但作者不匹配。

GPTZero 表示,根据 ICLR 的编辑政策,即使只有一处明确的幻觉内容,也构成伦理违规,可能导致论文被拒稿。「我们目前只扫描了 2 万篇投稿中的 300 篇,我们预计在未来几天内将发现数百篇包含幻觉内容的论文。」

科学期刊与学术会议已在 AI 重压下不堪重负

GPTZero 表示:「学期刊和学术会议正被生成式 AI、论文工厂(paper mills)和发表压力引发的投稿狂潮压垮。」

据统计,2016 年至 2024 年间,每年发表的科学文章数量激增了 48%,与此同时,撤稿和其他学术丑闻也层出不穷。许多科学会议和期刊都在苦于寻找合格的同行评审员,而评审员们则因日益增加的时间需求而感到「不堪重负」。

像 ICLR 这样的学术会议也面临着巨大的压力。ICLR 是全球最重要的人工智能研究人员年度盛会之一,然而最近许多会议投稿和同行评审都显示出 AI 撰写的迹象。这些迹象从行文冗长、滥用列举项,到伪造数据和「幻觉」,不一而足。

「幻觉检测」发现了什么?

GPTZero 表示,自今年 1 月推出「幻觉检测」(Hallucination Check)工具以来,他们已经测试了小罗伯特・肯尼迪(RFK Jr.)的「MAHA」报告、一份丑闻缠身的澳大利亚德勤(Deloitte Australia)报告以及数百份其他文件。

本周,他们用它扫描了提交给 OpenReview 的 300 篇 ICLR 论文样本集。

自动检测后,他们的工具标记了 90 篇论文,这些论文中至少包含一条在网上似乎不存在的引用。

经过人工核实,他们确定其中 50 篇论文至少包含一处真实的幻觉

定义「幻觉」

鉴于问题的严重性 —— 毕竟这对研究人员和编辑都利害攸关,幻觉检测工具在设计上必须优先考虑准确性,提供每个来源评估的透明度,并采取审慎的态度。

GPTZero 在博客中介绍说:「它使用我们内部训练的 AI 智能体来标记文档中任何无法在网上找到的引用。这些被标记的引用并不自动等同于幻觉,因为许多档案文件或未发表的作品无法与在线来源匹配,但它们指出了哪些来源需要进一步的人工审查。」

与 ICLR 一样,GPTZero 提议由人工来判断一条有缺陷的引用究竟是 AI 生成的,还是传统错误的产物。

虽然界限可能很模糊,但他们将「幻觉」定义为:使用生成式 AI 产生的引用,这些引用似乎是对一个或多个真实来源的标题、作者和/或元数据进行了改写或拼凑。

如果一条有缺陷的引用只是单纯在网上找不到(且看起来合理,比如这个引用 Elara Voss, letter to author, October 12, 2024.),或者标题和作者明显与真实来源匹配(即使引用的其余部分极不准确),都不认为它是幻觉。

下表展示了基于以上方法论,真实引用、有缺陷的引用和幻觉引用之间的区别。(注:原文中差异部分以红色高亮显示,此处以文字内容呈现)。



类似于 GPTZero 的 AI 检测器,幻觉检测工具的假阴性率(漏报率)极低 —— 成功发现有缺陷引用的概率可达 99%。

并且由于此工具会标记任何无法在线验证的引用,因此假阳性率(误报率)会相对较高。

同行评审的未来

同行评审是学术出版的重要组成部分,但目前的体系让评审员和编辑们有些难以招架。

GPTZero 的幻觉检测为同行评审流程提供了两个关键益处。

  • 将幻觉检测与 GPTZero 的 AI 检测器结合使用,允许用户同时检查 AI 生成的文本和可疑引用,甚至利用其中一个结果来验证另一个。
  • 通过识别有缺陷的引用供人工审查,幻觉检测大大减少了验证文档来源所需的时间和人力。

GPTZero 表示:「我们希望,在 50 篇 ICLR 投稿中识别出这 50 个幻觉,能向那些面对投稿狂潮的人们展示幻觉检测的价值。我们的目标是让同行评审过程对每个人都更快、更公平、更透明。」

结语

如果在 AI 领域的顶级殿堂里,连基本的真实性都需要依靠另一款 AI 工具来艰难维系,这无疑是一种巨大的讽刺。

ICLR 的遭遇并非孤例,它是当下学术界大炼模型与发表压力双重挤压下的必然产物。

当生成一篇看似专业的论文只需要几秒钟,而验证它的真伪却需要耗费数小时,这种不对称的对抗正在击穿同行评审的防线。那些高达 8 分的幻觉论文,就像是潜伏在学术共同体中的特洛伊木马,嘲笑着现有的评价体系。

GPTZero 的检测结果是一个警告,也是一个契机。它提醒我们,在拥抱 AI 带来的效率红利时,必须建立起与之匹配的数字安检机制。否则,未来的学术会议可能不再是思想碰撞的火花,而变成了一场 AI 生成内容(AIGC)的自我狂欢。

我们期待 ICLR 能挺过这次水逆,但更期待整个学术界能以此为鉴:不要让劣币驱逐良币,更不要让幻觉成为常态。

https://gptzero.me/news/iclr-2026/

https://x.com/yaroslavvb/status/1997748956210868641

https://x.com/slashML/status/1997719788160954547

https://x.com/alexcdot/status/1997152905980268750

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是谁在偷换了世界杯转播权之争的逻辑?

是谁在偷换了世界杯转播权之争的逻辑?

鲁先生的笔
2026-05-10 21:12:47
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
特朗普:伊朗的回应“完全不可接受”

特朗普:伊朗的回应“完全不可接受”

国际在线
2026-05-11 06:07:05
王曼昱负蒯曼,孙颖莎挽颜面,日本教练评价更显分量

王曼昱负蒯曼,孙颖莎挽颜面,日本教练评价更显分量

七七自驾游
2026-05-10 22:01:08
一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

上游新闻
2026-05-10 15:45:20
普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

环球网资讯
2026-05-11 07:00:15
颁奖全程黑脸!松岛辉空被王楚钦打崩溃:自己扇自己+仰天摇头吼

颁奖全程黑脸!松岛辉空被王楚钦打崩溃:自己扇自己+仰天摇头吼

颜小白的篮球梦
2026-05-11 07:11:15
震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

火山詩话
2026-05-09 16:02:57
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
张本智和:输球责任在我!林诗栋站球台庆祝,陈玘直言完了不能站

张本智和:输球责任在我!林诗栋站球台庆祝,陈玘直言完了不能站

排球黄金眼
2026-05-11 06:12:53
香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

香港拿下世界杯转播仅1天,炸出一堆牛鬼蛇神,李嘉诚恐进退两难

混沌录
2026-05-10 19:42:39
曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

曼城别幻想了!阿森纳1-0后争冠已无对手,后3场全胜=创一神迹

体育知多少
2026-05-11 07:22:34
红场阅兵结束!普京感谢中国,特朗普最不愿意看到的一幕发生

红场阅兵结束!普京感谢中国,特朗普最不愿意看到的一幕发生

书纪文谭
2026-05-10 21:14:35
华盛顿奇才抽中2026年NBA状元签!

华盛顿奇才抽中2026年NBA状元签!

五星体育
2026-05-11 08:00:43
国乒男团3-0横扫日本男团,实现世乒赛12连冠

国乒男团3-0横扫日本男团,实现世乒赛12连冠

懂球帝
2026-05-11 01:33:16
惨遭国乒男团3:0横扫!张本智和赛后与赛前采访对比,狠狠被打脸

惨遭国乒男团3:0横扫!张本智和赛后与赛前采访对比,狠狠被打脸

田先生篮球
2026-05-11 06:20:39
内维尔:阿森纳22年来的首个联赛冠军很可能就取决于这次判罚

内维尔:阿森纳22年来的首个联赛冠军很可能就取决于这次判罚

懂球帝
2026-05-11 05:06:32
张本智和输到脸变形!2-0领先连丢三局 赛后沮丧发声:金牌仍遥远

张本智和输到脸变形!2-0领先连丢三局 赛后沮丧发声:金牌仍遥远

颜小白的篮球梦
2026-05-11 06:15:47
2026-05-11 08:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

OPPO们永远学不会的年轻化

头条要闻

特朗普:伊朗的回应“完全不可接受”

头条要闻

特朗普:伊朗的回应“完全不可接受”

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
本地
旅游
艺术
公开课

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

在迪士尼与天文馆之间,上海多了一座“月背基地”

艺术要闻

全国最值得去的八大最美古镇

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版