网易首页 > 网易号 > 正文 申请入驻

BMJ研究:利用机器学习筛查疑似造假的论文

0
分享至

2026年1月30日,BMJ发表了一篇文章,该文章训练并验证机器学习模型,以区分癌症领域疑似出自论文工厂的论文与真实研究论文。研究发现,癌症出版领域可疑论文的比例在不断上升,论文工厂日益扩大,并且将目标瞄准了更高影响因子的期刊


原文链接:https://www.bmj.com/content/392/bmj-2025-087581

01

研究背景

论文工厂通过快速批量生产低质量研究论文来最大化收益。这些文章可能存在以下特征:通常使用已有模板,只替换特定的术语;可能包含错误试剂、伪造数据与实验,存在经过修图或重复使用的图表;通常内容泛泛、写作粗糙、章节间缺乏连贯性,且仅提供肤浅的研究论证;可能会创建从未合作过,或者未作出任何实质贡献的虚假作者;常自引文章;可能贿赂编辑并操纵同行评审以促成发表。

癌症领域受其影响尤为严重。该领域发表压力大、专业数据与技术相对易伪造,以及同行评审能力有限,造假论文更易生产且难以识别。

跨学科研究显示,机器学习方法可以基于撤稿观察数据库的文本数据,预测撤稿和论文工厂产出文章,但该方法在癌症研究领域的效能尚未经过验证。

假设论文工厂使用的文本模板会覆盖标题和摘要,且这些模板具有领域和文章类型特异性,可为机器学习模型提供强信号。本研究基于BERT构建机器学习流程,输入癌症领域已撤稿的论文工厂文章的标题和摘要,通过模型识别文本模式,进而检测现有论文与已撤稿的论文工厂文章的相似性

02

研究方法

本研究首要目标是训练并评估模型的可靠分类能力,以区分撤稿文章(疑似出自论文工厂)与真实癌症研究论文的标题摘要。其次,使用模型筛查数百万篇癌症研究论文,评估被标记的可疑论文随时间的变化趋势,被标记论文的国家、出版商、研究领域的变化,并分析其在高影响因子期刊中的演变情况。

癌症研究数据集

2025年3月下载pubmed中所有生物医学研究文献,排除摘要非英文、空白、截断、无标点、少于250字或大于4000字的文章。纳入1999-2024年的所有文章,去掉重复、撤稿、更正、关注文章后,保留1740万篇文章。通过MeSH术语和美国国家癌症研究所术语库构建关键词,在论文标题和摘要中进行匹配,最终得到包含2,647,471篇论文的癌症研究数据集,这些论文发表于11,632种期刊

提取数据进行可视化分析:第一作者所属国家、出版商、癌症类型、主要癌症研究领域以及SCImago期刊影响因子。

注:‌Scimago是一个基于Scopus数据库的学术评估平台‌,提供期刊排名、机构排名等多种科研评价工具。

论文工厂数据集

论文工厂数据集通过两个来源构建:一是撤稿观察网数据库中标记为论文工厂来源的论文(https://retractiondatabase.org/RetractionSearch.aspx);另一个是图像诚信专家(学术侦探)整理的在线列表,其中列出了图像篡改的证据。得益于PubPeer平台的匿名贡献者,论文工厂论文的汇编资料已在线发布在电子表格中(链接:https://docs.google.com/spreadsheets/d/1zKxfaqug4ZhwHyGzslF38pFyC8xtU8lzmmOFMGYITDI/edit?gid=1473413779#gid=1473413779)

撤稿观察数据库中的论文用于模型开发,最终纳入2,202论文工厂撤稿论文。图像诚信专家数据集用于外部验证,最终选取3,094疑似论文工厂论文。

模型选择和训练

训练数据集包含50%论文工厂论文和50%真实论文前者假定其为论文工厂产出,后者用作对照,选择后均在PubPeer上进行人工核查。对照组文献从癌症研究数据集中筛选,以下三部分各占约三分之一:中国机构发表在《Cell》,《Cancer Cell》,《Molecular Cell》,《The EMBO Journal》上的论文(为减少语言上可能存在的偏倚);随机选取瑞典/芬兰/挪威机构的论文(因撤稿观察网数据库中无相关撤稿记录);随机选取上述四个期刊中除外上述国家的论文。

训练数据集中4404篇论文被分为三部分,70%用于训练、17.5%用于优化、12.5%用于内部验证,每部分论文工厂论文和对照论文保持1:1。

模型性能(准确率、灵敏度和特异度)首先在内部验证集上评估,然后使用图像诚信专家整理的在线清单进行外部验证。另外进行了补充验证,使用了疑似涉及论文工厂的873癌症研究论文,这些论文来自三项研究,这些研究探讨了存在核苷酸序列/细胞系问题的癌症相关论文。

癌症文献筛查

使用经过微调的BERT模型对1999-2024年间发表的260万篇癌症研究文献进行筛查,经过训练,该模型可识别与被撤论文工厂论文相似的文本特征,将识别出的论文称为"标记论文"

03

研究结果

模型性能

内部验证准确率达到0.91,灵敏度为0.87,特异度为0.96。外部验证中这些指标分别为:0.93,0.87和0.99。补充验证中,模型共标记了72%的论文。

由于内部验证集与外部验证集的错误分类相似,二者合并分析时,假阳性文章,即将对照论文误判为论文工厂论文,仅39篇(共3375篇)。

癌症研究数据集的筛查

使用模型筛查1999-2024年的癌症研究数据集,261,245篇论文被标记为可疑,占数据集中所有论文的9.87%

时间趋势

1999-2022年间标记论文的数量呈指数级增长,于2022年达到峰值,随后两年略有下降。2000年初标记论文的比例保持在1%左右,2020年代初,这一比例已超过当年癌症研究产出的15%。


图.每年的标记论文数量

国家

各国产出的论文中,标记论文占比最高的是中国(497,672/177,907,36%),其次是伊朗(6,801/33,935,20%)。就标记论文数量而言,美国位列第二,被标记10,511篇论文,占其发表论文的2%。

出版商及其期刊

标记论文比例最高为67%,来自Verduci Editore旗下的癌症研究期刊《European Review for Medical and Pharmacological Sciences》。排名第二的出版商是International Scientific Literature,旗下《Medical Science Monitor》的标记论文比例约45%。其余四家出版商依次为E-Century Publishing Corporation(44%)、Spandidos Publications(38%)、Ivyspring International Publisher(30%)和IOS Press(30%)。

大型出版商Springer Nature,Elsevier,和Wiley标记论文比例较低,但标记论文的绝对数量较高。

研究领域

标记论文主要集中于癌症生物学与基础研究领域、新疗法研发或评估、诊断与预后领域,标记比例均超过10%。生存研究、支持性照护与临终关怀;流行病学与人群研究;卫生系统、政策与实施等领域的标记论文比例较低,均不足2%。


图.标记论文比例较高的研究领域

影响因子前10%的期刊

影响因子排名前10%的期刊中,标记论文比例呈现出随时间推移而明显上升的趋势,于2022年超过10%。


图.影响因子前10%期刊中的标记论文比例

04

模型在不同验证集上表现一致,证实了其对论文工厂文本特征的可靠识别能力,并强化了“此类论文共享通用标题与摘要模板”的假说。标记论文的多项特征与既往研究一致,如标记论文随时间的指数增长趋势与已知的论文工厂发展历程吻合;标记论文在基础研究领域更集中等。

研究局限性

  • 两个论文工厂数据集可能存在局限性。撤稿观察网数据库中的“论文工厂”标签仅反映其工作人员对出版商撤稿声明的解读,而出版商调查这些论文的方式缺乏统一标准,导致该标签可能对应不同证据强度。图像诚信专家数据集中包含图像篡改证据,这些文章可能与论文工厂无关,且专家的调查方法与透明度存在差异。模型检测到的更可能是训练集中代表的文本特征,而非论文工厂论文的全部特征。

  • 训练集中中国论文占比过高,存在模型将中文语言模式识别为论文工厂文本特征的可能

  • 对照组论文来源可能造成偏倚。

  • 深度学习模型的不可解释性导致无法直接识别BERT捕捉的特征。本研究并非旨在直接识别论文工厂论文或指控任何个人欺诈,而是关注整体模式与趋势。该分类器是一个概率模型,而非不端行为的最终判定。

05

研究结论

利用机器学习模型,通过标题和摘要识别与已撤稿论文工厂论文相似的论文是可行且有效的。研究结果揭示,癌症研究出版领域的标记论文比例不断上升,论文工厂日益扩大,现已将目标瞄准更高影响因子的期刊,这强调了期刊、审稿人和研究人员保持警惕的必要性。

参考文献:BMJ. 2026 Jan 29;392:e087581. doi: 10.1136/bmj-2025-087581.


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于和伟接过吴石将军孙女的凤梨酥

于和伟接过吴石将军孙女的凤梨酥

观威海
2026-02-18 11:50:07
染红!63岁穆里尼奥暴怒:裁判有保护名单 上面写着几名皇马球员

染红!63岁穆里尼奥暴怒:裁判有保护名单 上面写着几名皇马球员

念洲
2026-02-18 07:03:04
马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

马年春晚带火了机器人,机器人卖爆了,就连售价63万元的机器人也秒光

极目新闻
2026-02-17 11:03:42
紧急救市!美联储官员深夜连线,一场全球市场崩盘危机被按住了

紧急救市!美联储官员深夜连线,一场全球市场崩盘危机被按住了

魏家东
2026-02-18 09:19:02
买中国机器狗冒充自研,被抓包了!

买中国机器狗冒充自研,被抓包了!

环球时报国际
2026-02-18 13:48:02
艾顿涉嫌携带少量大麻被短暂拘留!目前已获释 湖人暂未发表评论

艾顿涉嫌携带少量大麻被短暂拘留!目前已获释 湖人暂未发表评论

罗说NBA
2026-02-18 11:20:42
乌谈判代表团团长:乌美俄三方会谈首日谈判结束 明日将继续

乌谈判代表团团长:乌美俄三方会谈首日谈判结束 明日将继续

大象新闻
2026-02-18 06:43:05
208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

封面新闻
2026-02-17 15:47:18
欧冠神剧情!卫冕冠军让二追三,20岁天才全场最佳:梅开二度

欧冠神剧情!卫冕冠军让二追三,20岁天才全场最佳:梅开二度

足球狗说
2026-02-18 06:53:57
马年春晚与百姓冷暖渐行渐远,非于蕾一己之力,这是时代的尴尬

马年春晚与百姓冷暖渐行渐远,非于蕾一己之力,这是时代的尴尬

姜大叔侃球
2026-02-17 12:33:58
日本1月份出口同比增长16.8%

日本1月份出口同比增长16.8%

每日经济新闻
2026-02-18 08:05:03
俾斯麦海发生6.3级地震

俾斯麦海发生6.3级地震

财联社
2024-09-12 01:09:10
震惊!江浙沪独生女压岁钱收6位数,一张全国压岁钱地图广东出圈

震惊!江浙沪独生女压岁钱收6位数,一张全国压岁钱地图广东出圈

火山詩话
2026-02-18 06:22:50
一爆一强三扑!春节档电影只有两部能看。

一爆一强三扑!春节档电影只有两部能看。

君笙的拂兮
2026-02-18 02:45:28
珍妮:詹姆斯没给出任何回归湖人信号 球队核心是围绕东契奇建队

珍妮:詹姆斯没给出任何回归湖人信号 球队核心是围绕东契奇建队

罗说NBA
2026-02-18 05:46:42
今天凌晨,大年初二,冬奥会奖牌榜再更新,中国队剩6夺金点揭晓

今天凌晨,大年初二,冬奥会奖牌榜再更新,中国队剩6夺金点揭晓

大秦壁虎白话体育
2026-02-18 08:16:49
中国游客称因道路积雪被困俄罗斯“极光村” 超40小时,俄媒:滞留游客都已离开

中国游客称因道路积雪被困俄罗斯“极光村” 超40小时,俄媒:滞留游客都已离开

上游新闻
2026-02-17 20:22:05
这种畜牲放在中国早就打靶了

这种畜牲放在中国早就打靶了

阿尔法34号
2026-02-18 10:39:05
郑丽文除夕撞钟“两度剧烈抖动”,国民党:她诚心祈愿两岸和平,尽责监督执政党

郑丽文除夕撞钟“两度剧烈抖动”,国民党:她诚心祈愿两岸和平,尽责监督执政党

海峡导报社
2026-02-17 14:46:03
1-0复仇!皇马20天后攻陷魔鬼主场:维尼修斯进球+罢赛 穆帅染红

1-0复仇!皇马20天后攻陷魔鬼主场:维尼修斯进球+罢赛 穆帅染红

风过乡
2026-02-18 06:21:31
2026-02-18 14:32:49
医咖会
医咖会
生动有趣的形式传递医学新进展
2760文章数 10972关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

本地
健康
数码
亲子
军事航空

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

转头就晕的耳石症,能开车上班吗?

数码要闻

苹果秘密研发清单流出:第三代HomePod扬声器和紧凑型室内传感器

亲子要闻

孩子心口闷得慌是怎么回事呢?

军事要闻

美国国务卿鲁比奥发表农历新年祝福

无障碍浏览 进入关怀版