注:本文整理自知名科学侦探Elisabeth Bik的博客文章,原文题目是“Discontinuous ridiculous stools – a preprint full of tortured phrases and stolen data”。
![]()
“Patients with provocative entrail illnessunclassified gave to crisis division a 3-day history of sickness, retching, migraine and irregular stomach torment alongside discontinuous ridiculous stools as of late.(患有未分类挑衅性内脏疾病的患者向危机部门陈述了为期3天的病症:恶心、呕吐、偏头痛及不规则腹痛,近期伴有不连贯荒谬的便血)”
若您无法理解上面这句话,请不必担心——大家都一样。
![]()
扭曲短语
上面的文字充斥着“扭曲短语”(tortured phrases),这是作者试图掩盖抄袭行为常用的一种文本改写方式。为逃过查重工具检测,他们通过“同义词替换软件”来处理复制过来的内容,导致生成荒谬甚至可笑的短语。
常见的扭曲短语包括:
用“Counterfeit consciousness(伪意识)”替代“artificial intelligence(人工智能)”
用“Profound neural organization(深刻神经组织)”替代“deep neural network(深度神经网络)”
用“Colossal information(巨型信息)”替代“big data(大数据)”
用“Bosom peril(胸部危险)”替代“breast cancer(乳腺癌)”
用“Haze figuring(雾测量)”替代“cloud computing(云计算)”
此类扭曲短语由Guillaume Cabanac、Cyril Labbé和Alexander Magazinov在2021年预印本《Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals》中首次提出[1]。
他们创建的“问题论文筛查数据库”目前已收录超过21,000篇包含五处以上此类短语的论文。大多数论文发表于2020年代初,2022年后频率略有下降——可能因为ChatGPT等生成式人工智能工具能更有效地重写并隐藏抄袭文本。
![]()
来自“问题论文筛查数据库”的图表,显示每年包含至少5个扭曲短语的论文数量
链接:https://dbrech.irit.fr/pls/apex/f?p=9999:24::IR_years
![]()
一篇充满诡异同义词替换的预印本
在Google Scholar中检索扭曲短语“provocative gut illnesses”(常用来替代“炎症性肠病”,IBD),博客作者在medRxiv预印本库中发现了一篇“宝藏文章”:Baqir Ali Khalid等人所著的《Significance of headache in inflammatory bowel diseases》[2],最初于2023年2月上传至medRxiv。七名作者来自巴基斯坦的五所大学和医学院。
![]()
链接:https://www.medrxiv.org/content/10.1101/2023.02.05.23285412v1
文章中,作者声称收集了20名IBD患者的“数据”,这些患者因头痛和便血就诊于急诊科。
文本极度晦涩,存在大量过度同义替换的句子。试试理解以下表述:
Cerebral vein apoplexy can be deadly and finding is trying as side effects are vague(脑静脉中风可能是致命的,并且由于症状模糊,诊断十分困难)
We might want to urge clinicians to continually reexamine their choices, particularly in the event that there is nonappearanceof clinical improvement after a generally deep rooted treatment(我们可能想要敦促临床医生持续重新审视他们的选择,特别是在经过一段通常根深蒂固的治疗后仍缺乏临床改善的情况下)
EIMs address the primary driver of horribleness in Compact disc(EIMs应对了Compact disc中恐怖性的主要驱动因素)(注:作者可能指克罗恩病Crohn’s Disease)
In the last option study, the chances proportionwas 2.66 (95% certainty stretch = 1.08-6.54) contrasted with everybody(在最后一项研究中,与所有人相比,机会比例为2.66 [95%确定性区间=1.08-6.54])(注:Chances proportion = odds ratio; certainty stretch = confidence interval)
![]()
将单个病例报告篡改为20名患者的研究
在这个预印本中,作者详细描述了20名“挑衅性内脏疾病(provocative entrail illness)”(即炎症性肠病)患者:所有人均有3天病程、近期有“不规则腹痛伴不连贯荒谬的便血(irregular stomach torment alongside discontinuous ridiculous stools as of late)”,且均在两天前接触过“儿童(youngsters)”。
等等,20人全部如此?
其血液检测结果未以均值呈现,而是以具体数值列出:“入院当日血检显示C反应蛋白86 mg/L,白细胞计数正常,无缺铁性贫血(血红蛋白110 g/L)。肝胰酶、肌酐、尿素电解质等指标正常。白蛋白偏低(26 g/L),与数周前一致。”
这听起来更像单次血检结果,而非20名患者的数据集。
原文不难追溯到(记住:存在扭曲短语的文本为抄袭,将其还原为标准生物医学表述即可定位被抄袭的文章)。
该奇特论文抄袭的源头是Orfei等于2019年发表于《BMJ Case Reports》的IBD患者病例报告[3]。预印本论文的作者似乎篡改了该病例报告,伪造成20名患者的研究。
下图并排对比2019年《BMJ Case Reports》论文(左)与2023年medRxiv预印本(右)。已对部分句子颜色标注以便对照。
![]()
左:2019年《BMJ Case Reports》的原文;右:2023年medRxiv预印本
![]()
还抄袭了美国健康访谈调查研究的数据
该预印本文章继续展示“20名患者”的“数据”。表1和表2列出吸烟状况、BMI、偏头痛等特征。文中写道:“经年龄调整的偏头痛或严重头痛总患病率为15.4%(n=9,062),IBD患病率为1.2%(n=862)”。20名患者的研究出现如此巨大的“n”,极不合理。
使用表1的部分数据,也可以轻易定位到源头:所有数值与Yong Liu等在《Headache》(2021)的研究完全一致[4]。该研究基于2015-2016年60,436名美国成年人的国家健康访谈调查(NHIS)数据——远不止20人!
下图并排对比2021年NHIS数据与2023年预印本,数值完全相同。
![]()
左:2021年《Headache》的原文;右:2023年medRxiv预印本
该预印本可能还剽窃了其他论文,但当前证据已确凿:数据至少复制了两篇论文,并通过同义词替换掩盖抄袭。
目前博客作者已在medRxiv网站留言并向预印本平台组织举报了这篇“杰作”。
参考文献:
1. https://arxiv.org/abs/2107.06751
2. https://www.medrxiv.org/content/10.1101/2023.02.05.23285412v1
3. https://casereports.bmj.com/content/12/1/e227228.long
4. https://pmc.ncbi.nlm.nih.gov/articles/PMC8289487
文章整理自:https://scienceintegritydigest.com/2025/07/28/discontinuous-ridiculous-stools-a-preprint-full-of-tortured-phrases-and-stolen-data/-4053
医咖会9周年
惊喜第一弹来啦!
医咖会基础会员全面大升级,赶快去领取一年基础会员!
基础会员权益:28张基础课程券,基础课程均可兑换!医咖会SCI-AI工具,科研内容训练,回复更专业!
点击“阅读原文”/应用商店搜索/扫码下载医咖会APP,登录后,弹窗领取基础会员!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.