网易首页 > 网易号 > 正文 申请入驻

中国论文工厂,已经用AI批量生产垃圾论文了?

0
分享至

7.9

知识分子

The Intellectual

图源:Pixabay

撰文 | 张天祁

Scientific Reports的副主编、英国萨里大学数据科学家马特·斯皮克(Matt Spick)注意到,一批垃圾论文正以每天一篇甚至两篇的速度,在迅速涌入他工作的期刊。

它们选题各异,套路却惊人地一致。有的研究血清维生素D与抑郁症的关系,有的分析碘摄入与糖尿病,有的考察炎症指数与睡眠质量,总之就是考察一个变量对一种疾病的影响。只需一份标准化的数据集、一段回归模型脚本,再得出一个统计显著的结果,这类论文就能迅速成文。换个变量,又是新的一篇。

这种没有信息含量的垃圾论文数量在迅速膨胀。2024年,仅1月至10月,全球就发表了190篇这类基于美国 NHANES 健康数据库的“单因子关联研究”,几乎是2014至2021年间年均发表数量的五十倍。

01

国产垃圾论文攻陷国外期刊


更引人注意的是,垃圾论文数量的激增几乎完全集中在中国。2021至2024年间,全球共发表了316篇此类论文,其中有292篇的第一作者来自中国单位,占比超过92%。而在2014至2020年的25篇中,这一数字仅为2篇[1]。

这组数据来自于斯皮克和他合作者今年发布的一项研究。为了系统性地研究这一现象,斯派克和他的合作者在PubMed和Scopus等学术数据库中,使用精确的关键词组合进行检索,筛选出过去十年间所有使用NHANES数据、且研究设计为单因素关联的论文。经过筛选,他们最终确定了341篇符合条件的论文作为分析对象。

这些论文大多采用相同的方法框架:使用 logistic 回归模型,研究一个健康变量与一种疾病或生理状态之间的统计关联,最多控制三五个协变量,结论集中在“显著相关”这一层面。研究的问题不同,结构几乎不变。

在对这三百多篇论文进行分析后,研究团队发现,它们普遍遵循一套高度重复的写作脚本。研究者从数据库中选取一个预测变量,比如某种维生素水平,再选择一个健康结果,比如抑郁症,通过标准化的统计流程将两者建立关联,最终得出一个简单的结论,A 与 B 相关。在最极端的情况下,研究者甚至只需颠倒自变量和因变量的位置,就能生成另一篇论文,无需任何生理学依据或理论假设,便可无限扩展变量与结局的组合方式。

为了进一步说明这类研究存在的问题,研究团队使用了网络分析方法,把所有论文中提到的预测变量和疾病之间的配对关系画成图表。结果显示,像抑郁症这样的复杂疾病,被几十个毫无关联的变量分别单独研究过一次。图中呈现出一种“一个变量对应一个疾病”的稀疏结构,揭示出这类研究往往忽视疾病背后的多重因素,只是简单地找出某种单一因素与某个结果之间的联系。

团队以抑郁症为例,检验这些论文是否可靠。他们统计了所有声称与抑郁症显著相关的研究,一共28篇,并使用一种叫“错误发现率”(FDR)的统计方法,对这些结果重新进行了校正。FDR 用来处理多个变量同时检验时容易出现的假阳性问题。结果发现,这28项中有15项在校正后不再显著,说明很多看起来有效的结果,其实可能只是偶然波动造成的。

研究人员进一步发现,不少论文在数据使用上存在操纵的嫌疑。NHANES 是一项跨年滚动调查,覆盖数十年的连续数据,供研究者完整调用。但在大部分论文中,作者却在没有提供任何解释的情况下,仅选取了其中一小段年份区间进行分析。这种精心挑选数据的做法,很难不令人怀疑其动机是为了筛选出p值最低、结果最漂亮的组合来发表。

将所有线索串联起来,一条AI论文流水线已经显示地非常清晰了。一个对AI开放的数据库作为原料,辅以自动化的分析脚本,再套用高度公式化的研究设计,最终得以在短期内以指数级速度产出大量雷同的论文。这套流程完美地契合了AI辅助的工作模式,正如报告作者所言,这种生产力的提升,对“旨在通过提供低质量或伪造稿件来牟利的论文工厂尤其具有吸引力” 。

02

论文工厂用上AI了


这一切的起点,是庞大的公共健康数据库NHANES。这是由美国官方主导的一项长期项目,旨在评估美国成人和儿童的健康与营养状况。该调查每两年进行一次,招募约1万名参与者,通过结合访谈、体格检查和实验室检测,收集了涵盖疾病、风险因素、营养指标等超过700个变量的综合数据。

造成这一局面的部分原因,在于NHANES 本身高度结构化的数据形式。它的数据可以通过API直接导入Python或R语言环境,一系列标准库(如 nhanesA、pynhanes、NHANES pyTOOL 等)支持自动搜索、清洗、建模与输出。过去需要团队手动完成的数据整理和图表绘制,如今可在更短时间内借助脚本工具实现。

更关键的是,NHANES是一个AI就绪(AI-ready)的数据集。 这意味着,研究者可以通过应用程序编程接口(API)轻松地、自动化地提取和分析数据。 这种设计本意是为提高科研效率,但它也为“数据挖掘”和批量生产论文打开了方便之门。

斯皮克团队认为,他们的研究结果很可能严重低估了问题的规模。他们的检索范围局限于符合利用NHANES的单因子研究。但更宽泛的搜索显示,仅在一年之间,使用 NHANES 数据发表的论文数量就从2023年的4926篇增长到了2024年的7876篇。

来自美国西北大学的研究者瑞兹·理查森(Reese Richardson)一直关注论文工厂的动向。他在一次快速检索中,就发现了5篇未被斯皮克团队纳入的 NHANES 论文,这些文章与某个可疑论文工厂有关联。它们的写作结构与斯皮克所识别出的论文非常相似,同样是围绕 NHANES 数据中的单一变量与某种疾病的简单相关性展开,例如电子烟使用与肺部疾病之间的关联[2]。

以“临床公共数据库挖掘”为关键词,在中国社交媒体平台上不难搜到大量提供服务的公众号。其中除了本文提到的 NHANES 数据库,GBD(Global Burden of Disease,全球疾病负担研究)等数据库也频繁出现在这些平台的推文和案例中,成为热门的数据来源。

这类公众号大多提供多种模式的服务,例如:根据研究主题协助下载公开数据,完成统计分析,撰写数据分析报告,或在已有数据和主题的基础上提供论文思路和写作指导。一些平台还进一步打出“全流程陪跑”的口号,从选题、分析到英文润色,覆盖论文写作的各个阶段。

在一些平台的广告中,造假的暗示已非常露骨。例如有平台写道:“因公共数据库的开放性,我们提供的统计服务可不断更换研究主题,挖掘数据,直至分析出发表级的统计分析结果,并可提供中英文的方法和结果。”换句话说,就是以发表为目标,围绕数据库中的变量反复组合、拆解、筛选,直到跑出一组足够显著的结果。

参考文献:

[1]Suchak, T., Aliu, A. E., Harrison, C., Zwiggelaar, R., Geifman, N., & Spick, M. (2025). Explosion of formulaic research articles, including inappropriate study designs and false discoveries, based on the NHANES US national health database. PLoS Biology, 23(5), e3003152.

[2]O’Grady, C. (2025, May 14). Low-quality papers are surging by exploiting public data sets and AI. Science.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone 20周年纪念版曝光,回归四曲面屏设计

iPhone 20周年纪念版曝光,回归四曲面屏设计

刘奔跑
2026-04-24 19:53:58
扇人耳光的保安社会性死亡!“底裤”被扒,正脸流出,还有黑历史

扇人耳光的保安社会性死亡!“底裤”被扒,正脸流出,还有黑历史

君笙的拂兮
2026-04-24 08:13:27
美伊将进行第二轮谈判,美防长:谈判底线是“伊朗不可能获得核弹”,对伊朗封锁已扩展至全球范围,34艘船只在霍尔木兹海峡被勒令折返

美伊将进行第二轮谈判,美防长:谈判底线是“伊朗不可能获得核弹”,对伊朗封锁已扩展至全球范围,34艘船只在霍尔木兹海峡被勒令折返

鲁中晨报
2026-04-24 21:04:06
角色扮演界的“泥石流”回归:低成本cos,让人一看一个不吱声

角色扮演界的“泥石流”回归:低成本cos,让人一看一个不吱声

绛紫艺术
2026-04-20 19:16:21
外资跑了,名声臭了,印度组团来华,中企为何不敢轻易接盘?

外资跑了,名声臭了,印度组团来华,中企为何不敢轻易接盘?

三农老历
2026-04-25 08:11:12
风尘女子要怎么分辨出来?行家人都能看出来

风尘女子要怎么分辨出来?行家人都能看出来

霹雳炮
2026-04-03 21:31:48
她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

她因长得漂亮,被日本兵拖进炮楼,一晚上遭受50多个鬼子的折磨

凡人聊史
2026-04-11 03:06:57
64岁俞敏洪独居北京,妻儿定居加拿大原因曝光,原来他是身不由己

64岁俞敏洪独居北京,妻儿定居加拿大原因曝光,原来他是身不由己

阅微札记
2026-04-24 14:49:10
1944年,师长吕公良拒绝换装逃生,带三千官兵与八万日军血战九日

1944年,师长吕公良拒绝换装逃生,带三千官兵与八万日军血战九日

掠影后有感
2026-04-25 10:23:20
索金新片:一个工程师对抗巨头

索金新片:一个工程师对抗巨头

追星雷达站
2026-04-24 10:57:45
特朗普访华倒计时,美方已经提出首个条件,希望中方不要见死不救

特朗普访华倒计时,美方已经提出首个条件,希望中方不要见死不救

风雨与阳光
2026-04-24 19:38:48
CBA“北京市长”到常规赛55分惨败收官!姜伟泽社媒发文耐人寻味

CBA“北京市长”到常规赛55分惨败收官!姜伟泽社媒发文耐人寻味

狼叔评论
2026-04-24 23:36:06
“被吓到!”AI生图已经这么逼真了?网友:以后还能信吗?

“被吓到!”AI生图已经这么逼真了?网友:以后还能信吗?

鲁中晨报
2026-04-24 16:56:11
坐高铁千万别带这几样东西,安检直接没收,带了纯属白费

坐高铁千万别带这几样东西,安检直接没收,带了纯属白费

健身狂人
2026-04-25 07:13:55
76岁的万科创始人王石,最近彻底成了全网焦点。

76岁的万科创始人王石,最近彻底成了全网焦点。

梦录的西方史话
2026-04-23 14:36:39
皇马警报:姆巴佩在白衣军团灾难前要求换人

皇马警报:姆巴佩在白衣军团灾难前要求换人

绿茵情报局
2026-04-25 05:47:18
丁俊晖三度领先被赵心童反超,亨得利惊呼他要崩,结果让皇帝噤声

丁俊晖三度领先被赵心童反超,亨得利惊呼他要崩,结果让皇帝噤声

杨华评论
2026-04-25 00:46:43
古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

唠叨说历史
2026-03-31 14:25:43
苏翊鸣朱易4年恋情结束!双方互相取关,女方晒眼泪照喊话向前走

苏翊鸣朱易4年恋情结束!双方互相取关,女方晒眼泪照喊话向前走

萌神木木
2026-04-24 11:41:28
“牛股”业绩大增!多家A股公司,一季度盈利翻倍!

“牛股”业绩大增!多家A股公司,一季度盈利翻倍!

证券时报e公司
2026-04-25 11:15:19
2026-04-25 13:16:49
知识分子 incentive-icons
知识分子
关注科学、人文、思想
641文章数 1080关注度
往期回顾 全部

科技要闻

Anthropic刚拿亚马逊250亿美元,又拿谷歌400亿

头条要闻

媒体:三航母准备围逼伊朗 结果美国海军后院先"炸"了

头条要闻

媒体:三航母准备围逼伊朗 结果美国海军后院先"炸"了

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

手机
游戏
家居
公开课
军事航空

手机要闻

华为Pura X Max和三星Galaxy Z Fold8 Wide折叠手机尺寸对比

育碧再出王炸!《AC黑旗》重制版登顶8大地区PS商店

家居要闻

自然肌理 温润美学

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版