网易首页 > 网易号 > 正文 申请入驻

0.25美元「洗」一遍论文LaTeX,AI审稿分数原地起飞

0
分享至

来源:市场资讯

(来源:PaperWeekly)

不用补实验,只需 0.25 美元洗一遍 LaTeX,AI 审稿分数就可能原地抬升。

不用改实验,也不用补数据。只需花 0.25 美元,把论文的 LaTeX 源码丢给大模型“洗”上一遍,重新编译成 PDF 后提交给 AI 审稿人,分数就能原地起飞。

斯坦福大学等研究团队在一项刚被 ICML 2026 录用的研究中指出,这种靠洗稿刷分的系统级漏洞已经真实发生。

研究者把这种操作称为 Paper Laundering,也就是论文洗稿。被这样处理后,研究本身并没有变强,只是措辞、结构和行文方式更贴合 AI 审稿人的喜好。

作者团队随机选取了 60 篇 ICLR 2026 在审论文,测试了 4 种零样本改写提示、2 种洗稿模型以及 3 种 AI 审稿模型。在 24 组实验条件下,AI 审稿分数平均上涨了 0.45 分。

顶会投稿越来越多,审稿人越来越不够用,AI 审稿自然成了一个必然选项。

但这篇论文却指出,现阶段的 AI 审稿,不只是容易被低成本文本改写带偏,还可能将整个学术圈拉进高度同质化的坑里。


论文标题:

Stop Automating Peer Review Without Rigorous Evaluation

论文链接:

http://arxiv.org/abs/2605.03202


零成本刷分

论文洗稿最麻烦的地方在于,它几乎没有门槛。它和传统的提示词注入不同,不需要在论文里隐藏指令,也不需要针对某个模型做复杂优化。

只用将论文的 LaTeX 源码完整交给大模型,用一个零样本提示要求它在不改实验、不改科学内容的前提下重写全文。整个流程不需要人工介入,单篇成本大约仅 0.25 美元。

研究团队做了一组对照实验。洗稿模型选用了 GPT-5.1 和 GPT-5.4,审稿模型则覆盖 GPT 系列模型以及 Claude Sonnet。

结果显示,洗稿后的论文在几乎所有评估条件下都获得了显著的分数提升。


〓洗稿操作在 24 种测试条件下总体推高 AI 审稿分数

从结果分布来看,对所有 AI 审稿模型来说,洗稿后分数上涨的情况都明显多于分数下降。这种跨模型、跨提示仍然有效的涨分现象,暴露了当前大模型在评估专业学术内容时的盲区。


〓各 AI 审稿模型与洗稿模型组合下,分数上升、不变与下降的比例分布

为什么只是改文字,就能影响专业打分?词频统计给出了答案。

大模型在重写时,会明显增加两类词:一类是表示不确定性的对冲词,比如 may、suggests,出现频率增加了 78.2%;另一类是强化语气、强调稳健性的词,比如 robust、strong,增加了 45.2%。


〓洗稿前后不同类型词汇的平均新增、删除数量与变化比例

这种重写,本质上是在迎合大模型自身的文本偏好。

人工复核中还发现,洗稿过程甚至会生成虚假的科学内容。部分论文被凭空添加了根本不存在的消融实验参数分析,或者为并未进行的实验补上一段看似合理的通用解释。

这说明,当前 AI 审稿人很容易被表层文本修饰带偏,无法穿透文本去评估底层的科学贡献。


丧失多元视角

如果说防作弊是审稿系统的底线,那么多视角的交叉验证则是同行评审的灵魂。人类专家的意见分歧从来不是缺陷,而是科学防错的必要机制。

但论文的量化结果显示,AI 审稿人表现出了明显的蜂群思维(Hivemind effect),多元化的审稿视角正在逐渐消失。

研究引入了两个基于文本嵌入余弦相似度的核心指标:衡量对同一篇论文评价相似度的 IntraSim,以及衡量跨论文评价相似度的 InterSim。

研究团队翻找了 ICLR 2026 所有的作者 rebuttal 记录,选出了 58 份被作者控诉为“AI 乱写”的审稿意见。

结果发现,其中高达 86.2% 的意见同样被 Pangram 检测器标记为“完全由 AI 生成”,这为后续的大规模分析提供了扎实的人类源验证。

作者团队分析了 75,800 份真实 ICLR 2026 评审。结果显示,被标注为完全 AI 生成的评审意见,相似度显著高于包含人类贡献的评审。


〓真实 ICLR 2026 评审中,被标注为完全 AI 生成的评审与其他评审的跨论文相似度分布

在排除了其他干扰的模拟测试中,这种同质化趋势更加严重。人类评审的 IntraSim 均值为 0.811,AI 评审则达到 0.882。论文被洗稿后,AI 评审相似度进一步升至 0.891。


〓模拟环境下 AI 与人类评审的篇内一致性对比

即使面对研究方向不同、技术路线不同的论文,AI 审稿人也容易写出高度相似的评价。GPT-5.1 的跨论文相似度比人类高出近 40%,Claude 也高出约 20%。


〓模拟环境下跨论文评审相似度的分布差异

这种极高的相似度,会不会仅仅是因为 AI 爱写结构化的套话?

研究团队专门做了一个消融实验打消了这个疑虑。当剔除掉背景总结等废话,仅对比最核心的“Weaknesses and Questions”部分时,AI 视角的同质化效应反而进一步放大了,这证明 AI 审稿在最实质的学术批判环节同样丧失了多样性。

GPT 最爱用的短语("if not, can you comment on")出现在了 13.3% 的论文评审中,Claude 的高频句式("how does the method handle")覆盖率更是高达 21.7%。

相比之下,真实人类评审中最常见短语的复用率不到 1%。

更危险的是,蜂群思维已经开始向作者端倒灌。当作者发现洗稿后的论文能够稳定获得高分时,自然会投其所好地使用大模型重写文本。

研究者进一步比较了 60 篇论文在洗稿前后的摘要和引言。结果显示,洗稿后不同论文之间的余弦相似度显著增加了 6.5%。


〓洗稿前后论文文本特征间的余弦相似度分布变化

如果这种自动化博弈成为常态,学术写作可能会被推向由大模型审美主导的单一文化。

那些有创新价值、但表达方式不够“模型友好”的研究,也可能在自动化筛选中被系统性过滤。


AI 打分更高,却不如人类靠谱

看到这里,很多人可能会问:人类审稿也存在主观偏见,换成 AI 又有什么不行?

两者的底层逻辑其实有着本质区别。人类审稿人的偏见分散在不同背景、不同专长里,多名审稿人放在一起,至少能互相抵消一部分。

而 AI 的错误往往更集中,基于相似架构和训练数据的模型,可能会在同一类判断上一起跑偏。

判断审稿是否靠谱,最直观的标准就是看它能不能预测论文最终是否被录用。

在 8015 篇同时拥有人类和 AI 评审的 ICLR 2026 论文中,人类平均分预测最终接收结果的 AUC 达到 0.822,而 AI 平均分的 AUC 只有 0.710。


〓人类打分与 AI 打分预测论文最终接收状态的准确度对比

数据还显示,AI 打分明显偏高。人类打分均值仅为 4.3,而 GPT 与 Claude 的打分均值分别高达 7.3 和 6.1。

此外,AI 打分相互之间呈现高度正相关,却与人类专家的打分相关性极弱。

如果会议组织方直接依赖这些内部高度相关、整体虚高、又容易受文风干扰的机器打分来做录用决策,顶会的论文质量底线必将失守。


走向同行评审自动化科学

从 ICML 到 NeurIPS,各大 AI 会议对大模型辅助审稿的态度并不一致,学术界还没有划定统一的规范边界。


〓当前各大主流 AI 顶会关于大模型使用的政策现状梳理

AI 当然可以进入审稿流程,但前提是它先经得起测试。

查格式、查引用、查事实错误,这些可验证的任务可以交给工具。但论文能不能被接收,不该交给一个会被 0.25 美元洗稿带偏、又容易把所有评审写成同一种口味的系统。

同行评审的核心,应该是专业判断和科学事实的交叉校验,而不是变成一场谁更会迎合 AI 文风的游戏。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离婚不离家?看到陈思诚和阮巨现状,才知道佟丽娅的做法有多高明

离婚不离家?看到陈思诚和阮巨现状,才知道佟丽娅的做法有多高明

原梦叁生
2026-05-09 05:05:40
不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

不出 5 年,中国贬值最快的不是房子和现金,而是这 3 样东西

细说职场
2026-04-26 21:04:20
你发现没有,凡是结婚时不主动提彩礼的,女方家庭通常就是以下两种情况

你发现没有,凡是结婚时不主动提彩礼的,女方家庭通常就是以下两种情况

心理观察局
2026-05-08 09:32:04
CCTV5不直播!U17国足VS日本队打响生死战,输球=提前出局

CCTV5不直播!U17国足VS日本队打响生死战,输球=提前出局

何老师呀
2026-05-08 13:05:37
暴跌10亿!宜家疯狂降价自救,曾经的中产神话彻底凉了

暴跌10亿!宜家疯狂降价自救,曾经的中产神话彻底凉了

青眼财经
2026-05-07 22:00:36
苹果,要发布了个小玩意

苹果,要发布了个小玩意

放毒
2026-05-08 18:34:46
伦敦世乒赛:奥运亚军2-3爆冷出局,王楚钦肩负重任

伦敦世乒赛:奥运亚军2-3爆冷出局,王楚钦肩负重任

山谷里的怒吼
2026-05-09 01:13:35
“有性生活”和“没性生活”,有这4个不同之处,看完涨知识了

“有性生活”和“没性生活”,有这4个不同之处,看完涨知识了

星星会坠落
2026-04-25 07:36:57
在越南常住,才懂一个很现实的道理,非生理需求别轻易找越南女友

在越南常住,才懂一个很现实的道理,非生理需求别轻易找越南女友

老特有话说
2026-05-05 15:27:19
大众汽车或将关停四家工厂

大众汽车或将关停四家工厂

新浪财经
2026-05-08 16:34:18
太震撼!大连再登央视镜头,全网看完直呼太过惊艳

太震撼!大连再登央视镜头,全网看完直呼太过惊艳

我不叫阿哏
2026-05-08 18:53:56
“全部约满”!不少深圳人抢到了!网友:早上定5、6个闹钟就为了抢号

“全部约满”!不少深圳人抢到了!网友:早上定5、6个闹钟就为了抢号

小影的娱乐
2026-05-07 11:05:08
英国BBC常驻心理治疗师:最消耗孩子的一种负能量, 它排第一

英国BBC常驻心理治疗师:最消耗孩子的一种负能量, 它排第一

阅读第一
2026-05-07 08:36:17
五一旅游收入排名,河南381亿第二,北京跌出前五,第一实至名归

五一旅游收入排名,河南381亿第二,北京跌出前五,第一实至名归

有范又有料
2026-05-08 11:27:59
2000枚核弹头,超越美俄位居世界第1,日本:中国2035年达成目标

2000枚核弹头,超越美俄位居世界第1,日本:中国2035年达成目标

华史谈
2026-05-08 09:08:52
49岁曾黎穿瑜伽裤晨跑被骂擦边:怎么穿都有错!

49岁曾黎穿瑜伽裤晨跑被骂擦边:怎么穿都有错!

马拉松跑步健身
2026-05-06 07:00:18
青岛民营企业家刑满释放后,曝光“六大疑点”!

青岛民营企业家刑满释放后,曝光“六大疑点”!

深度财线
2026-05-08 23:52:03
闪电队76比60逆转黑豹 重返榜首

闪电队76比60逆转黑豹 重返榜首

热血体育社
2026-05-09 05:43:42
国内油价今年第七涨,重返9元时代,中东局势令国际油价居高不下

国内油价今年第七涨,重返9元时代,中东局势令国际油价居高不下

上观新闻
2026-05-08 17:34:18
国青无缘世青赛,铁腕弃用两大核心中卫张洪福卢琦政,竟是出局关键败笔

国青无缘世青赛,铁腕弃用两大核心中卫张洪福卢琦政,竟是出局关键败笔

野渡舟山人
2026-05-08 08:20:41
2026-05-09 05:59:02
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3154958文章数 7249关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

艺术
房产
本地
健康
公开课

艺术要闻

清风拂面,心旷神怡

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版