学术圈变狼人杀!21%评审是AI写的,评分大放水,两边互相猜忌
大家好,我是老陈瞰世界。
最近ICLR2026的瓜,真是让我长见识了!本来打着“史上最严AI管控”的旗号,结果评审区反倒让AI给“霸屏”了。
说出来你可能都觉得离谱,平均每五条审稿意见,就有一条是大模型直接生成的。
这学术圈现在搞得跟“狼人杀”似的,一边是官方喊着“用AI必须报备”,一边是第三方工具查出近半评审掺了AI。
今天我就跟大家好好唠唠,这事儿到底离谱到啥程度。
说实话,现在学术顶会的审稿压力,真不是以前能比的。
ICLR和NeurIPS、ICML并称“AI三巨头”,那可是顶流学术会议,今年的投稿量直接飙到了近两万篇,比往年多了不少。
现在近两万篇论文堆过来,审稿人手里少则几十篇多则上百篇,有人调侃自己堪比“高考阅卷老师”,一天下来眼睛都快熬瞎了。
现在大家工作学习压力都不小,AI不知不觉就成了很多人偷个懒、省点力的好帮手。
![]()
卡内基梅隆大学的Graham Neubig教授,把ICLR 公开的75800条评审意见都仔细筛查了一遍。
结果一出来,整个学术圈都炸开了锅——有21%的评审意见是AI从头写到尾的,有35%是人类写好后再让AI润色过的,真正完全靠人手写的,只剩43%了。
从统计结果能看出来,纯AI写的评审意见平均分能到4.43分,比人类评审的4.13分足足高了0.3分。而且 AI 写起来还特能唠,平均篇幅快接近3700个字符。
不少投稿的年轻人跟我吐槽,碰到那种“话多又大方”的审稿人,还以为遇到了伯乐,结果查了一下,大概率是AI写的评语,这心里能不膈应吗?
![]()
PangramLabs也对外喊话说,他们这工具“假阳性率低到离谱”,轻度AI编辑的假阳性率才千分之一,完全AI生成的更是零假阳性,现在已经被不少期刊和高校用来筛查AI写作了。
相当于一家做AI检测的公司,亲手把顶会的“潜规则”给扒了出来,这戏码也太足了。
我跟你讲,最讽刺的不是AI审稿占比高,而是ICLR刚立了“史上最严AI新规”,结果转头就被现实狠狠打脸。
今年8月,会议组委会在官网上明明白白发布了《大型语言模型使用政策》,两条铁律说得斩钉截铁:用没用到大模型必须如实披露;不管用啥工具,责任都算在人身上。
规则里还写了明确的惩罚措施:作者用LLM不报备,直接拒稿不再审;审稿人用AI写评审不承认,可能连自己的论文都要被拒。
可现实呢?第三方工具直接甩出数据:“纯AI生成评审15899条,占比21%”。这不是明摆着打组委会的脸吗?
舆情爆发后,ICLR只给了个简短回应,说已经注意到问题,正在讨论措施,让收到AI评审的作者标注后反馈给领域主席。
这回应跟没说一样,压根没提怎么处理那些违规的审稿人。难怪不少作者炸了锅,觉得这新规就是个摆设,中看不中用。
其实这届ICLR的评审本来就争议不断。投稿量涨到1.9万多篇,平均得分却从去年的5.12掉到4.20,不少人人生第一次在顶会拿到“0分”,心理能平衡吗?
![]()
更让人无语的是,有个审稿人居然用“精神病”这种带人身攻击的词评价论文,一下子激起了全网的怒火。
后来这条评论被删掉了,审稿人也出面道歉,但他还硬撑着,说自己的判断根本没毛病。
另一边,审稿人也满肚子委屈。
很多论文质量参差不齐,花好几个小时好不容易看懂了,作者一句“撤稿”就换个会议重投,纯属浪费时间。
![]()
现在再加上21%的AI评审,学术圈彻底变成了双向猜忌:
作者猜评审是AI写的,审稿人疑论文是AI拼的,组委会夹在中间,一边用检测工具排查,一边又在想怎么合法用AI减负,这场面别提多魔幻了。
就连其他顶会也出现了类似问题,AAAI2026就有审稿人爆料,说自己认真写了上千字负面评语,结果另一个评审用AI写了两行优点打满分,最后论文还真被接收了,搞得他都不想再审稿了。
从另一个角度看,ICLR不是唯一被AI冲击的顶会,只是作为AI顶会,显得格外讽刺。现在各个顶会都在想办法应对,态度却大不相同,真是八仙过海各显神通。
![]()
计算机视觉顶会CVPR2025直接下了“死命令”,搞零容忍政策:
大模型不能用于写评审或元评审,只要评审意见是一两句话、明显AI生成,或者和论文无关,就会被标记为“高度不负责任”,严重时审稿人自己的投稿都会被拒。
这招够狠,虽然严格,但至少能刹住一些歪风。
NeurIPS2025则温和很多,走“谨慎开放”的路线。允许写论文时用LLM,但要求说明方法性使用,还专门开了页面教大家怎么合规用AI,重点强调“不能把模型生成的引用直接塞进去”。
![]()
这种做法我觉得更靠谱,毕竟现在完全不用AI也不现实,关键是要规范使用。
其实ICLR自己也试过“温和用AI”。
结果还不错,26.6%的审稿人照着AI建议改了评审,平均多写80个字,89%的人类评估者更偏好修改后的版本,而且论文录用率没被明显拉高。
现在不少机构都在开发这类辅助工具,有的能帮着校验数据,有的能翻译非英语评审,还有的能识别抄袭,这些都是实实在在的帮助。
但关键是要守住底线,AI只能当助手,不能替人做决定,更不能搞暗箱操作。
学术这事儿,拼的是真才实学,不是算法的花架子。
AI是个好东西,能帮着减轻负担、提高效率,但不能让它毁了学术的根儿。现在社会的困境,说白了就是AI跑得太快,规则没跟上,人心没稳住。
![]()
说到底,咱们缺的不是更智能的模型,而是愿意为每一篇论文、每一条评审多花点心思的认真。AI可以当工具,但不能让学术变成“算法自嗨”,这事儿,你说对不?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.