网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

0.25美元「洗」一遍论文LaTeX，AI审稿分数原地起飞

2026-05-08 17:45:39　来源: 新浪财经

河北举报

0

分享至

来源：市场资讯

（来源：PaperWeekly）

不用补实验，只需 0.25 美元洗一遍 LaTeX，AI 审稿分数就可能原地抬升。

不用改实验，也不用补数据。只需花 0.25 美元，把论文的 LaTeX 源码丢给大模型“洗”上一遍，重新编译成 PDF 后提交给 AI 审稿人，分数就能原地起飞。

斯坦福大学等研究团队在一项刚被 ICML 2026 录用的研究中指出，这种靠洗稿刷分的系统级漏洞已经真实发生。

研究者把这种操作称为 Paper Laundering，也就是论文洗稿。被这样处理后，研究本身并没有变强，只是措辞、结构和行文方式更贴合 AI 审稿人的喜好。

作者团队随机选取了 60 篇 ICLR 2026 在审论文，测试了 4 种零样本改写提示、2 种洗稿模型以及 3 种 AI 审稿模型。在 24 组实验条件下，AI 审稿分数平均上涨了 0.45 分。

顶会投稿越来越多，审稿人越来越不够用，AI 审稿自然成了一个必然选项。

但这篇论文却指出，现阶段的 AI 审稿，不只是容易被低成本文本改写带偏，还可能将整个学术圈拉进高度同质化的坑里。

论文标题：

Stop Automating Peer Review Without Rigorous Evaluation

论文链接：

http://arxiv.org/abs/2605.03202

零成本刷分

论文洗稿最麻烦的地方在于，它几乎没有门槛。它和传统的提示词注入不同，不需要在论文里隐藏指令，也不需要针对某个模型做复杂优化。

只用将论文的 LaTeX 源码完整交给大模型，用一个零样本提示要求它在不改实验、不改科学内容的前提下重写全文。整个流程不需要人工介入，单篇成本大约仅 0.25 美元。

研究团队做了一组对照实验。洗稿模型选用了 GPT-5.1 和 GPT-5.4，审稿模型则覆盖 GPT 系列模型以及 Claude Sonnet。

结果显示，洗稿后的论文在几乎所有评估条件下都获得了显著的分数提升。

〓洗稿操作在 24 种测试条件下总体推高 AI 审稿分数

从结果分布来看，对所有 AI 审稿模型来说，洗稿后分数上涨的情况都明显多于分数下降。这种跨模型、跨提示仍然有效的涨分现象，暴露了当前大模型在评估专业学术内容时的盲区。

〓各 AI 审稿模型与洗稿模型组合下，分数上升、不变与下降的比例分布

为什么只是改文字，就能影响专业打分？词频统计给出了答案。

大模型在重写时，会明显增加两类词：一类是表示不确定性的对冲词，比如 may、suggests，出现频率增加了 78.2%；另一类是强化语气、强调稳健性的词，比如 robust、strong，增加了 45.2%。

〓洗稿前后不同类型词汇的平均新增、删除数量与变化比例

这种重写，本质上是在迎合大模型自身的文本偏好。

人工复核中还发现，洗稿过程甚至会生成虚假的科学内容。部分论文被凭空添加了根本不存在的消融实验参数分析，或者为并未进行的实验补上一段看似合理的通用解释。

这说明，当前 AI 审稿人很容易被表层文本修饰带偏，无法穿透文本去评估底层的科学贡献。

丧失多元视角

如果说防作弊是审稿系统的底线，那么多视角的交叉验证则是同行评审的灵魂。人类专家的意见分歧从来不是缺陷，而是科学防错的必要机制。

但论文的量化结果显示，AI 审稿人表现出了明显的蜂群思维（Hivemind effect），多元化的审稿视角正在逐渐消失。

研究引入了两个基于文本嵌入余弦相似度的核心指标：衡量对同一篇论文评价相似度的 IntraSim，以及衡量跨论文评价相似度的 InterSim。

研究团队翻找了 ICLR 2026 所有的作者 rebuttal 记录，选出了 58 份被作者控诉为“AI 乱写”的审稿意见。

结果发现，其中高达 86.2% 的意见同样被 Pangram 检测器标记为“完全由 AI 生成”，这为后续的大规模分析提供了扎实的人类源验证。

作者团队分析了 75,800 份真实 ICLR 2026 评审。结果显示，被标注为完全 AI 生成的评审意见，相似度显著高于包含人类贡献的评审。

〓真实 ICLR 2026 评审中，被标注为完全 AI 生成的评审与其他评审的跨论文相似度分布

在排除了其他干扰的模拟测试中，这种同质化趋势更加严重。人类评审的 IntraSim 均值为 0.811，AI 评审则达到 0.882。论文被洗稿后，AI 评审相似度进一步升至 0.891。

〓模拟环境下 AI 与人类评审的篇内一致性对比

即使面对研究方向不同、技术路线不同的论文，AI 审稿人也容易写出高度相似的评价。GPT-5.1 的跨论文相似度比人类高出近 40%，Claude 也高出约 20%。

〓模拟环境下跨论文评审相似度的分布差异

这种极高的相似度，会不会仅仅是因为 AI 爱写结构化的套话？

研究团队专门做了一个消融实验打消了这个疑虑。当剔除掉背景总结等废话，仅对比最核心的“Weaknesses and Questions”部分时，AI 视角的同质化效应反而进一步放大了，这证明 AI 审稿在最实质的学术批判环节同样丧失了多样性。

GPT 最爱用的短语（"if not, can you comment on"）出现在了 13.3% 的论文评审中，Claude 的高频句式（"how does the method handle"）覆盖率更是高达 21.7%。

相比之下，真实人类评审中最常见短语的复用率不到 1%。

更危险的是，蜂群思维已经开始向作者端倒灌。当作者发现洗稿后的论文能够稳定获得高分时，自然会投其所好地使用大模型重写文本。

研究者进一步比较了 60 篇论文在洗稿前后的摘要和引言。结果显示，洗稿后不同论文之间的余弦相似度显著增加了 6.5%。

〓洗稿前后论文文本特征间的余弦相似度分布变化

如果这种自动化博弈成为常态，学术写作可能会被推向由大模型审美主导的单一文化。

那些有创新价值、但表达方式不够“模型友好”的研究，也可能在自动化筛选中被系统性过滤。

AI 打分更高，却不如人类靠谱

看到这里，很多人可能会问：人类审稿也存在主观偏见，换成 AI 又有什么不行？

两者的底层逻辑其实有着本质区别。人类审稿人的偏见分散在不同背景、不同专长里，多名审稿人放在一起，至少能互相抵消一部分。

而 AI 的错误往往更集中，基于相似架构和训练数据的模型，可能会在同一类判断上一起跑偏。

判断审稿是否靠谱，最直观的标准就是看它能不能预测论文最终是否被录用。

在 8015 篇同时拥有人类和 AI 评审的 ICLR 2026 论文中，人类平均分预测最终接收结果的 AUC 达到 0.822，而 AI 平均分的 AUC 只有 0.710。

〓人类打分与 AI 打分预测论文最终接收状态的准确度对比

数据还显示，AI 打分明显偏高。人类打分均值仅为 4.3，而 GPT 与 Claude 的打分均值分别高达 7.3 和 6.1。

此外，AI 打分相互之间呈现高度正相关，却与人类专家的打分相关性极弱。

如果会议组织方直接依赖这些内部高度相关、整体虚高、又容易受文风干扰的机器打分来做录用决策，顶会的论文质量底线必将失守。

走向同行评审自动化科学

从 ICML 到 NeurIPS，各大 AI 会议对大模型辅助审稿的态度并不一致，学术界还没有划定统一的规范边界。

〓当前各大主流 AI 顶会关于大模型使用的政策现状梳理

AI 当然可以进入审稿流程，但前提是它先经得起测试。

查格式、查引用、查事实错误，这些可验证的任务可以交给工具。但论文能不能被接收，不该交给一个会被 0.25 美元洗稿带偏、又容易把所有评审写成同一种口味的系统。

同行评审的核心，应该是专业判断和科学事实的交叉校验，而不是变成一场谁更会迎合 AI 文风的游戏。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

xAI解散，但Grok还没死！马斯克声称新模型正在训练

新智元 2026-05-08 18:43:15
12 跟贴 12
句子级溯源+生成式归因，C²-Cite重塑大模型可信度

机器之心Pro 2025-12-03 10:33:12
0 跟贴 0

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

智东西 2026-05-08 22:30:56
1 跟贴 1

00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
零样本 Sim-to-Real ！2

机器之心Pro 2026-03-25 11:40:23
0 跟贴 0

985大学杰青副院长，被举报学术不端

双一流高校 2026-05-08 00:10:32
0 跟贴 0

南通一中学教师期刊论文查重率91.9%，校方回应：属实

环球网资讯 2026-05-08 21:47:06
24 跟贴 24
1991年，北大学霸赴美读博时，因论文未获奖，枪杀5人后含笑自尽

莫地方 2026-05-09 01:00:03
0 跟贴 0

科学来源于实践

解说搞笑配音 2026-05-07 13:31:26
1 跟贴 1
美国发布的河北高校排名：河工第1，河农大竟排第3，河大河师靠后

Delete丨CC 2026-05-08 20:11:18
23 跟贴 23
毕业论文答辩六大高频问题及回复模版！

爱读书的King 2026-05-05 18:52:30
0 跟贴 0
论文 Figure 这样排版，审稿人一眼就能锁定创新点（附赠 5 套模版）

生物学霸 2025-11-11 17:23:39
0 跟贴 0
放假怎么越睡越困？这是你的身体发出的警告！医生教你科学补觉！

曾博士 2026-05-07 20:34:00
3 跟贴 3
歼-35"0001编号"战机亮相喷涂英文缩写或量产出口

央视新闻客户端 2026-05-08 08:00:26
9282 跟贴 9282
女生熬夜改答辩崩溃，转头瞧见舍友男友上线，远程操作太抓马视频

搞笑嘻哈哈 2026-05-07 00:00:00
0 跟贴 0
人为什么活着？哲学和科学回答不了，4维时空视角给出终极答案

精准心理学何日辉 2026-05-08 19:15:08
4 跟贴 4
同济大学通报教师论文数据存疑：免去其院长职务，并解聘第一作者

政法频道 2026-05-07 00:00:50
0 跟贴 0
女子拿爱心冰箱的免费水洗脚，下一秒“现世报”滑倒跪地，网友：善有善报，恶有恶报

BRTV新闻 2026-05-08 21:12:25
33 跟贴 33
围剿张雪机车？钱江摩托声明：从未向任何供应链企业下达“封杀令”

看看新闻Knews 2026-05-08 11:34:33
6437 跟贴 6437
不要把科学和技术混为一谈！

徐Toso 2026-05-08 01:40:55
0 跟贴 0
同济大学再通报“教师王某相关论文数据存疑”：免去其生命科学与技术学院院长职务

环球网资讯 2026-05-06 21:24:38
0 跟贴 0
一提到论文我就这样发疯

辣鼻小象 2026-05-08 14:43:44
3 跟贴 3
科学有东西刚刚撞上了月球，而且摄像机拍到了这一幕！

素玉姑娘 2026-05-09 05:14:36
0 跟贴 0
同济大学通报教师论文造假事件：院长免职降级，第一作者被解聘

掌闻视讯 2026-05-07 13:17:34
0 跟贴 0
导师最希望的就是自己的学生“有出息”

复旦张军平 2026-05-05 20:56:09
0 跟贴 0
论文答辩顺序有影响吗？影响答辩时间，但不影响结果！

爱读书的King 2026-05-07 19:20:29
0 跟贴 0
这不科学啊

拖鞋追剧 2026-05-05 17:11:52
0 跟贴 0
男子准备画一条鱼，直接拿鱼样本拓印，网友：如果要画巨鲸怎么办

星沙时报 2026-05-06 17:38:12
0 跟贴 0
【哈尔滨新闻】打破教学边界激活学子创新思维

新浪财经 2026-05-09 01:08:50
0 跟贴 0
不问配置不聊价格，浙江一女子开口就要买5台最新款iPhone，老板不但不卖，反手报了警

环球网资讯 2026-05-08 07:38:20
1528 跟贴 1528
俄罗斯宣布“胜利日”莫斯科等地暂时断网！近一年来俄固定电话需求飙升

红星新闻 2026-05-08 12:51:17
3816 跟贴 3816
自己录音不让游客录，上海迪士尼被指“双标”！客服：介意录音可以不来电

北京商报 2026-05-08 16:09:22
269 跟贴 269
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
298 跟贴 298
“排队3小时，打卡1分钟”，多景区迎“泼天流量”

澎湃新闻 2026-05-06 00:04:10
3858 跟贴 3858
30条中日航线，4月取消全部航班

都市快报橙柿互动 2026-05-08 13:42:34
1768 跟贴 1768
广义资本矩阵的文明困境与超越之道

经济观察报 2026-04-29 09:30:04
0 跟贴 0
机器学习从NASA数据中挖出1万颗候选行星

闪存猎手 2026-05-08 21:16:04
0 跟贴 0
天文学家给57光年外的"失败恒星"测出年龄：23亿岁

硬核玩家2哈 2026-05-08 15:22:26
0 跟贴 0
既然自古以来是个伪命题，那台湾怎么说？

浪子说 2026-05-09 03:12:50
0 跟贴 0
ICLR 2026 | 救命，手机Live Photo重选封面终于不糊了

机器之心Pro 2026-05-06 12:31:27
0 跟贴 0

离婚不离家？看到陈思诚和阮巨现状，才知道佟丽娅的做法有多高明

离婚不离家？看到陈思诚和阮巨现状，才知道佟丽娅的做法有多高明

原梦叁生

2026-05-09 05:05:40

不出 5 年，中国贬值最快的不是房子和现金，而是这 3 样东西

不出 5 年，中国贬值最快的不是房子和现金，而是这 3 样东西

细说职场

2026-04-26 21:04:20

你发现没有，凡是结婚时不主动提彩礼的，女方家庭通常就是以下两种情况

你发现没有，凡是结婚时不主动提彩礼的，女方家庭通常就是以下两种情况

心理观察局

2026-05-08 09:32:04

CCTV5不直播！U17国足VS日本队打响生死战，输球=提前出局

CCTV5不直播！U17国足VS日本队打响生死战，输球=提前出局

何老师呀

2026-05-08 13:05:37

暴跌10亿！宜家疯狂降价自救，曾经的中产神话彻底凉了

暴跌10亿！宜家疯狂降价自救，曾经的中产神话彻底凉了

青眼财经

2026-05-07 22:00:36

苹果，要发布了个小玩意

放毒

2026-05-08 18:34:46

伦敦世乒赛：奥运亚军2-3爆冷出局，王楚钦肩负重任

伦敦世乒赛：奥运亚军2-3爆冷出局，王楚钦肩负重任

山谷里的怒吼

2026-05-09 01:13:35

“有性生活”和“没性生活”，有这4个不同之处，看完涨知识了

“有性生活”和“没性生活”，有这4个不同之处，看完涨知识了

星星会坠落

2026-04-25 07:36:57

在越南常住，才懂一个很现实的道理，非生理需求别轻易找越南女友

在越南常住，才懂一个很现实的道理，非生理需求别轻易找越南女友

老特有话说

2026-05-05 15:27:19

大众汽车或将关停四家工厂

新浪财经

2026-05-08 16:34:18

太震撼！大连再登央视镜头，全网看完直呼太过惊艳

太震撼！大连再登央视镜头，全网看完直呼太过惊艳

我不叫阿哏

2026-05-08 18:53:56

“全部约满”！不少深圳人抢到了！网友：早上定5、6个闹钟就为了抢号

“全部约满”！不少深圳人抢到了！网友：早上定5、6个闹钟就为了抢号

小影的娱乐

2026-05-07 11:05:08

英国BBC常驻心理治疗师：最消耗孩子的一种负能量, 它排第一

英国BBC常驻心理治疗师：最消耗孩子的一种负能量, 它排第一

阅读第一

2026-05-07 08:36:17

五一旅游收入排名，河南381亿第二，北京跌出前五，第一实至名归

五一旅游收入排名，河南381亿第二，北京跌出前五，第一实至名归

有范又有料

2026-05-08 11:27:59

2000枚核弹头，超越美俄位居世界第1，日本：中国2035年达成目标

2000枚核弹头，超越美俄位居世界第1，日本：中国2035年达成目标

华史谈

2026-05-08 09:08:52

49岁曾黎穿瑜伽裤晨跑被骂擦边：怎么穿都有错！

49岁曾黎穿瑜伽裤晨跑被骂擦边：怎么穿都有错！

马拉松跑步健身

2026-05-06 07:00:18

青岛民营企业家刑满释放后，曝光“六大疑点”！

青岛民营企业家刑满释放后，曝光“六大疑点”！

深度财线

2026-05-08 23:52:03

闪电队76比60逆转黑豹重返榜首

闪电队76比60逆转黑豹重返榜首

热血体育社

2026-05-09 05:43:42

国内油价今年第七涨，重返9元时代，中东局势令国际油价居高不下

国内油价今年第七涨，重返9元时代，中东局势令国际油价居高不下

上观新闻

2026-05-08 17:34:18

国青无缘世青赛，铁腕弃用两大核心中卫张洪福卢琦政，竟是出局关键败笔

国青无缘世青赛，铁腕弃用两大核心中卫张洪福卢琦政，竟是出局关键败笔

野渡舟山人

2026-05-08 08:20:41

新浪财经是一家创建于1999年8月的财经平台

3154958文章数 7249关注度

往期回顾全部

科技要闻

SK海力士平均奖金600万工服成相亲神器

头条要闻

美公布首批UFO文件视频公开：阿联酋现水母状物体

头条要闻

美公布首批UFO文件视频公开：阿联酋现水母状物体

体育要闻

他把首胜让给队友，然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子，新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相将于5月11日开启盲订

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

房产

本地

健康

公开课

艺术要闻

清风拂面，心旷神怡

房产要闻

豪掷6.8亿拿地！何猷君大手笔投资三亚！

本地新闻

用苏绣的方式，打开江西婺源

干细胞能让人“返老还童”吗

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版