导读
近年来,大量低质论文如潮水般涌向学术界,不断侵蚀并挑战科学研究的公信力。
助长该不良风气的是公共数据集与人工智能、论文工厂的“联袂携手”,让学术出版业面临更为严峻的造假危机。
英国萨里大学一名学者表示,“我每天都能收到许多几乎一模一样的论文,有时甚至一天两篇”,“劣质量研究的‘产业化’让大量无用研究充斥文献,实在令人愤怒。”
林 岩 | 编译
01
学界之“哀”,大量相似论文充斥文献
2024年,英国萨里大学统计学家、《科学报告》副主编Matt Spick在工作中觉察到诡异现象,大量看似出自同一模板的论文涌入期刊进入同行评审。
他还发现这些论文大多基于美国同一个公开数据集——全国健康与营养检查调查(NHANES)。该数据集通过健康检查、血液检测和访谈等方式,收集了超过 13 万人的饮食信息及其他健康相关测量数据。
Spick无奈地表示:“我每天都能收到许多几乎一模一样的论文,有时甚至一天两篇。”
Spick很快意识到,这并非个例,而是只是问题的冰山一角。他与同事在《公共科学图书馆·生物学》杂志上发表报告指出,近年来利用 NHANES 数据集的劣质论文数量急剧增加。
其他研究人员也发现,在基因研究、文献计量学分析以及不同科学学科中的性别差异研究等多个领域,都存在类似现象。
02
千篇一律的“套路”
这些 NHANES 论文均遵循着相似的模式:首先选定一种健康状况,再确定一个可能与之相关的环境或生理因素,最后指定一个人群群体。例如研究 65 岁以上男性维生素 D 水平与抑郁症的关联,或分析 18 至 45 岁女性牙齿健康状况与糖尿病的关系。
Spick感慨道:“感觉就像有人把所有可能的组合都研究了个遍。”
为了深入了解这类研究的泛滥程度,Spick及其团队在 PubMed 和 Scopus 两大科学论文数据集中展开搜索,寻找使用 NHANES 数据研究单一关联的论文。
结果显示,共有 341 篇此类论文发表在 147 种期刊上,包括《科学报告》《BMC 公共卫生》和《英国医学杂志·开放版》等。2014 年至 2021 年期间,平均每年仅发表 4 篇此类论文。
然而自 2022 年起,数量急剧攀升,截至 2024 年 10 月研究团队搜索时,当年已发表 190 篇。这一增长速度远远超过了使用大型数据集进行健康研究的总体增长速度,暗示 NHANES 研究数量激增背后存在其他因素。
03
人工智能与论文工厂或是“幕后推手”
Spick认为这背后极有可能是以营利为目的的论文工厂在作祟,同时 AI也起到了推波助澜的作用,不断生成文本为论文造假提供了便利。
悉尼大学分子生物学家、此次《公共科学图书馆·生物学》论文的同行评审员Jennifer Byrne认为,人工智能可能被用于不断改写相同的 NHANES 研究结果,以逃避抄袭检测。
Byrne也表示,“论文数量的激增速度和规模,让人不得不怀疑背后存在某种协调机制”。
许多近期发表的 NHANES 研究在数据分析上存在明显问题,作者往往在没有明确理由的情况下,对数据集进行选择性分析。例如仅对特定年份或特定年龄段的人群进行分析。
Spick认为,这表明作者旨在寻找具有统计学显著性的结果,以便轻松发表论文。然而,在如此庞大的数据集中“碰运气”,必然会产生大量假阳性结果。研究团队对 28 项探讨抑郁症的 NHANES 研究进行深入分析后发现,仅有 13 项研究的结果在经过统计调整后依然成立。
Spick及其团队认为,他们的分析可能大大低估了问题的严重性。他们的搜索仅针对符合特定模式的 NHANES 研究,而更广泛的搜索显示,使用该数据集的论文数量从2023 年的 4926 篇增加到 2024 年的 7876 篇。Spick还指出,其他大型健康数据集,如全球疾病负担研究,也可能面临类似风险。“劣质量研究的‘产业化’让大量无用研究充斥文献,实在令人愤怒。”
Richardson指出:“文章中提到的所有出版商都收取了费用,每篇论文的收费可能高达 1000 美元左右,以发表这些劣质量内容。” 此外,研究人员为了职业发展,往往更倾向于发表更多论文,而非追求更高质量的论文。Richardson警告说:“除非我们从根本上改变科学出版的激励机制,否则这一问题只会愈发严重。”
参考资料
Low-quality papers are surging by exploiting public data sets and AI
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
青科沙龙第154期:解读邹伟平、王少萌最新Nature研究;关键词:STAT3、PROTAC、癌症免疫
Deep Science预印本
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.