AI写论文，AI评阅！AI顶会ICLR完成「AI闭环」，1/5审稿意见纯AI给出|学术|实验|审稿人|iclr|ai闭环

AI写论文，AI评阅！AI顶会ICLR完成「AI闭环」，1/5审稿意见纯AI给出

2025-11-17 11:38:34　来源: 新智元

北京举报

分享至

新智元报道

编辑：艾伦

【新智元导读】在号称「史上最严管控AI」的顶级会议ICLR 2026上，评审区却悄悄被大模型攻占。每五条审稿意见里，就有一条几乎全由AI一键生成。当作者怀疑评审是机器人写的、审稿人又怀疑论文是模型拼的，同行评审这台「科学秩序的发动机」，正一点点滑向一场没人承认、却无处不在的自动化实验。

学术圈再次上演荒诞一幕。

一项刚刚公布的分析显示，在最新一届顶级人工智能会议ICLR 2026中，超过五分之一的审稿意见是由大模型一键写出来的。

卡内基梅隆大学教授Graham Neubig使用Pangram Labs的AI文本检测工具EditLens，对ICLR公开的75800条评审意见逐条「验身」，结果发现：21%被判定为「完全由AI生成」，另外35%不同程度由AI修改，只剩43%被认为是纯人类撰写。

这些「AI全包」的评审不仅篇幅更长，给出的分数也更高：

在EditLens的统计里，完全AI生成的评审平均评分4.43分，而完全人写的是4.13分；

AI评审的平均长度接近3700个字符，比人类评审足足长出一大段。

很多作者这次面对的，可能是一位「特别健谈、格外慷慨打分」的机器人审稿人。

被AI「占领」的

是谁家的主场？

ICLR（国际学习表征大会）是当今机器学习领域三大顶会之一，与NeurIPS、ICML并称「AI三巨头」。

本届ICLR 2026，将于明年4月在巴西里约热内卢举办，投稿量接近两万篇，远超往年。

在这样的「论文洪水」之下，审稿人压力极大，很多人早就半开玩笑地说自己像是在「批改高考作文」。

让AI来帮忙，其实早就是公开的秘密。

差别在于，这一次是用数据把秘密摊在了阳光下。

EditLens本身就是一篇ICLR 2026投稿论文，作者提出了一种能识别「人写+AI润色」「纯AI写作」等细粒度混合文本的检测模型，并宣称在区分人类和AI文本时能达到很高准确率。

https://arxiv.org/pdf/2510.03154

Pangram Labs这家公司也专门对外宣传，自己的模型在多种场景下「假阳性率极低」，已经被期刊和高校用来筛查AI写作。

于是，一家做「AI检测器」的公司，用自家模型扫了一遍全球最重要AI会议之一的审稿意见，得出的结论是：AI已经大举攻入人类学术评审的心脏地带。

讽刺的是

ICLR刚刚立下「史上最严AI新规」

更戏剧性的，是这次「AI审稿占比21%」的爆料，恰好发生在ICLR颁布史上最严LLM规定之后不久。

今年8月，ICLR 2026组委会在官方博客上发布《大型语言模型使用政策》，给出了两条铁律：用没用大模型，都必须老老实实写出来；不管用了什么工具，最后责任都算在人身上。

如果发现作者在论文写作或研究中大量使用LLM却没有披露，可以直接desk reject（拒稿不再审）；

审稿人如果用AI写评审却不承认，同样有可能连自己的论文一起被拒。

一边是官方高调强调「用AI必须坦白，从严问责」；

另一边，是第三方工具在公开页面上给出一行冷冰冰的统计：「Fully AI-generated:15899(21%)」。

这种强烈反差，很难不让人怀疑：有相当一部分审稿人，在政策高压之下，依旧默默把评审任务交给了大模型。

ICLR在舆情爆发后，也只是做出了一个简短回应：

作者炸锅

低分、怪评，与「精神病」评论

这届ICLR的评审，本来就已经让不少投稿者心态爆炸。腾讯新闻对ICLR 2026出分做过一篇长文梳理：投稿量猛增到1.9万多篇，平均得分却从去年的5.12掉到4.20，出现了作者人生首次在顶会上收获「0分」的极端情况。

更令人瞠目的是，有评审在意见中用上了「精神病」这样的攻击性词汇，引发社区公愤，最后原始评论被删除，审稿人公开道歉，但坚持认为「对论文问题的判断没错」。

还有审稿人抱怨，自己经手的论文写得像AI拼出来的，「新术语没定义，引用乱飞，实验稀碎」，让人要花好几个小时才能看懂，结果作者一句撤稿就换会重投。

在这篇报道里，DeepMind研究员Neel Nanda被引用的一句话格外刺耳：同行评审更像一台「随机数生成器」——同一篇论文，换一组审稿人，一半概率被拒。

现在再把这句话和「21%审稿由AI写成」放在一起看，难免让人多想：

如果评审本来就有很大随机性，再加上一堆看起来严谨实则模板化的AI长评，这台「随机数机」会不会变得更难预测？

其他顶会在干什么？

ICLR不是第一家也不会是最后一家被AI冲击审稿系统的学术机构，只是因为自身是AI顶会，显得格外「魔幻」。

在计算机视觉顶会CVPR 2025，审稿指南直接写明：大模型在任何阶段都不得用于撰写评审或元评审，属于零容忍政策；

不负责任的审稿意见，比如只有一两句话、明显由大模型生成、或与论文无关，可能被标记为「高度不负责任」，严重时会牵连审稿人自己的投稿被拒。

NeurIPS 2025的态度则更像「谨慎开放」：允许在写论文时使用LLM，但要求对方法性使用作出说明，还专门设立页面解释如何合规地用AI，强调不得把模型生成的引用不加核查地塞进文中。

而在更广泛的学术出版界，AI审稿也已引发连锁反应。

《自然》报道，美国癌症研究协会（AACR）在期刊评审中引入Pangram的检测工具后，发现在明令禁止后，疑似AI撰写的评审比例立刻下降了一半，但论文正文中未声明使用AI的比例仍然不低。

禁令确实会让人收敛，但AI早已融入科研流程，很难完全「驱逐出境」。

有趣的是，ICLR自己也在尝试更「温和」的AI用法。

2025年，组委会与OpenReview合作，在ICLR 2025审稿中试验了一套「评审反馈智能体」：AI不直接写评审，而是给审稿人提出修改建议，比如让模糊的批评更具体、指出误解之处、提醒删掉不专业措辞。

实验显示，26.6%的审稿人根据AI建议修改了评审，平均多写了80个字，人类评估者在89%的对比中更偏好修改后的版本，但论文最终录用率并没有明显被拉高。

这一轮实验让不少人看到：AI并不一定只能当「影子审稿人」，也可以做「评审教练」。

当审稿人和作者都在怀疑对方

「这是人类啊？」

从作者视角看，现在的顶会有些像一场双向「狼人杀」：

作者怀疑收到的是AI写的评审，审稿人怀疑看到的是AI生成的论文；

会议组委会则一边动用检测模型排查，一边又在讨论如何合法、安全地用同类模型来帮自己减负。

与此同时，研究者们也在更系统地观察AI评审的行为差异。

最新的Gen-Review数据集就模拟了2018–2025年ICLR所有投稿的「AI版本评审」，发现大模型在打分上存在偏向，且不总是严格遵守审稿指引，评分与最终录用结果的相关性也有限。

这场围绕ICLR 2026的风波，其实只是一块放大镜。

它把一个原本散落在期刊、会议、预印本平台各处的趋势集中显影，AI正悄悄改写科学评审的分工，而人类社会还没想明白到底希望它扮演什么角色。

也许，真正的危机是，我们是否还愿意为每一条评审、每一篇论文，投入那一点点不可替代的人类注意力。

当越来越多的评审是由模型写给模型，人类科学家必须回答的，也许是这样一个问题：在这场看似自动化的评判游戏里，我们究竟是裁判，还是被算法顺手带偏的旁观者。

参考资料：

https://iclr.pangram.com/submissions

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

AI写论文，AI评阅！AI顶会ICLR完成「AI闭环」，1/5审稿意见纯AI给出

有了通义和夸克，阿里为何再推千问App？

台34个团体严正抗议：拒绝成为日本军国主义的牺牲品

台34个团体严正抗议：拒绝成为日本军国主义的牺牲品

当家球星受伤后，球迷乐翻了天？

二次封后的宋佳凭什么狂妄？

疯狂的"吸金村"：村民大肆盗采地下水

荣威M7+豆包大模型 用车机AI策划说车视频怎么样？

态度原创

卡普空强调《生化危机9》可切换视角：各有各的好！

这档古早综艺，怎么就成了年轻人的哆啦A梦?

血液科专家揭秘白血病七大误区

秋天怎么穿出时尚感？适当露肤、不死板老气，高级又有回头率

荣威M7+豆包大模型用车机AI策划说车视频怎么样？