网易首页 > 网易号 > 正文 申请入驻

研究各阶段常犯的10大统计学错误

0
分享至

在我们的日常科学研究或者论文撰写过程中,统计学错误普遍存在,近年来也日益受到学者以及大众媒体的广泛关注。关于如何改进统计学应用与实践的争论,目前主要集中在统计推断方法的选择,尤其是P值和显著性检验上。

2020年6月,PM&R杂志发表了题为“Ten Common Statistical Errors from All Phases of Research, and Their Fixes”的文章,作者列举了研究四个阶段(研究设计→数据整理与清洗→数据分析→结果报告)常犯的10个统计学错误案例,并给出了可以帮助研究人员避免这些错误的潜在解决方案。让我们来一起看看吧!

研究设计

(Study Design)阶段

1.研究目的是为了证明等效性或非劣效性,但研究未进行相应设计

举例:30名运动员被随机分为两组:生酮饮食组和习惯性饮食组,为期4周。研究目的是为证明生酮饮食与正常饮食相比,不会引起炎症反应升高。研究者直接比较了两组患者4周的脂联素(炎症标志物)水平,差异无统计学意义(P=0.50),于是得出结论:4周的生酮饮食不会增加炎症反应。

解决办法:研究者应把这项研究设计成一个非劣效性试验,目的是为证明一种干预措施不差于另一种干预措施。因此,研究者应事先设定一个非劣效性界值(non-inferiority margin),比如脂联素增加0.5 mg/L,同时样本量计算也应包含这个非劣效性界值。

图片来源:医咖会既往推文《》

2.未进行样本量计算,导致结果估计不精确、可信区间过宽

举例:某研究旨在评估一种新型卒中患者平衡测试的评分者间的可靠性。两名评分者分别测量了10名卒中患者,研究者计算了组内相关系数(intra-class correlation coefficient,ICC)和95%可信区间,结果为0.76(0.23-0.93)。问题在于,对ICC的估计过于不精确,导致无法判断结果的可靠性。

解决办法:研究者应该事先进行样本量计算。对于评价一致性或可靠性的研究,样本量的计算应基于实现较高的ICC精度或者将ICC与非零值(比如0.50)进行比较。

3.研究使用了既往未经验证的测量量表

举例:某研究旨在探讨网球比赛对主观精神疲劳的影响,随访了12名运动员整个赛季,并在每场比赛前后收集精神疲劳评分。研究者要求运动员在自制的量表上(0-100分)报告他们的精神疲劳情况。研究发现,从赛前到赛后精神状况都有明显的下降。但问题是,这种自制量表的有效性和可靠性均未经验证,因此观察到的差异有可能是因为测量误差导致的。

解决办法:研究者应该使用一个先前验证过的主观精神疲劳的测量方法。该方法应具有已知的信度和效度,而且最好在类似研究人群中进行过验证。

数据整理与清洗

(Data Wrangling and Cleaning)阶段

4.数据处理中的错误操作导致了二分类变量编码的1/0反转

举例:研究人员调查了700名跑步者,以了解他们的防晒习惯。初步分析发现,女性、年龄较大和有皮肤癌病史的跑步者不太可能经常使用防晒霜,这些结果与预期相反。在进一步检查后发现了一个编码错误:防晒是按照1(经常使用)到5(从不使用)的维度来编码的,然而当数据在Excel中转换为二分类变量时,4和5的值被错误地编码为经常使用防晒霜,而1到3的值被重新编码为表示缺乏防晒措施。

解决办法:建议在统计分析软件(如SAS、STATA、R)中进行数据清理,以便所有数据更改记录都可以保存在代码中。在运行统计模型之前,应检查所有变量的准确性和一致性。

5.数据输入错误导致了虚假关联

举例:研究人员前瞻性地收集了150名美国大学长跑运动员的数据,包括睡眠习惯和1英里跑步时间。初步分析发现,较长时间的平均夜间睡眠与更快的1英里跑步时间存在中度相关性(r=-0.55,P<0.01)。

但是,在绘制数据散点图时发现了一个数据输入错误:1名运动员报告了他的跑步时间(7分30秒)与相当短的睡眠时长(每晚5小时)。在移除这个数据点之后,睡眠时长和跑步时间的相关性变为阴性(r=-0.15,P=0.46),最终原因是这名运动员的数据在数据库中输入有误导致的

解决办法:在进行正式分析之前,研究者应该核查数据并尽可能绘制散点图,以识别异常值和数据输入的错误。输入有误的数据应及时更正,异常值应保留在数据集中,但是其影响应该通过敏感性分析来探究。

数据分析

(Data Analysis)阶段

6.未检查统计模型的相关性假设,导致错误的推断

举例:有学生分析了健康对照组和轻度脑外伤患者在四种不同条件下的头部旋转角度数据。使用重复测量方差分析发现,研究条件的主效应差异具有统计学意义(P=0.032)。然而,在查看原始数据时发现其中两种研究条件下的旋转角度方差是其他条件的3倍,而且也非正态分布。

因此,该数据违背了方差分析的两个假设:方差齐性(本例中更具体地说是球形检验)和残差的正态性。违反球形检验的假设可能会导致一类错误率增加。当对本例中数据进行非参数检验时,得到的P值要高得多(P=0.24)。

解决办法:研究者在运行任何正式的统计模型和检验之前,应充分了解数据集中的变量情况,为所有相关变量进行描述性统计、生成散点图和直方图等。研究者还应该检验数据是否满足统计模型或检验的假设条件。

7.应用了错误的统计方法,导致了潜在的误导性结论

举例:某研究旨在了解钙摄入量对软组织损伤后运动恢复的影响,随访了62名澳大利亚业余足球运动员两个赛季,记录了他们的钙摄入量和受伤情况。研究者采用线性回归模型,对于未受伤的运动员(n=50),结局变量编码为0;对于受伤的运动员(n=12),结局变量为缺席比赛的周数。

基于这个模型,研究者得出结论:钙摄入与更快的恢复时间有关,每摄入100 mg钙,平均减少0.2周的恢复期(P=0.03)。本研究的问题在于“重返赛场时间”具有一个双峰分布,其中许多运动员都有“0”值。线性回归模型拟合了两个峰之间的直线,因此观察到的关联更可能反映出预测因素对于发病率、而不是损伤恢复时间的影响。此外,线性回归模型的应用假设也不被满足。

解决办法:本研究建议仅在受伤的运动员中进行分析,同时也可以考虑使用零膨胀模型。

8.数据分析忽略了重要的相关性来源,导致P值被严重低估

举例:研究者进行了一项旨在预防运动性伤害的整群随机对照试验,随机抽取了5所高中进行干预,5所高中随机分为对照组。其中,干预组教练参加了时长1小时的教育研讨会,学习可以减少伤害的特定热身方案,而对照组教练收到一封教育性邮件。

在接下来的一年里,研究人员参加了球队的比赛,并记录了热身活动的次数。他们发现,干预组教练在54/200(27%)的比赛中实施了这一程序,然而对照组教练只在30/200(15%)的比赛进行了热身训练。

通过卡方检验,研究者得出结论:两组差异非常显著,P<0.005。本研究问题在于,本研究的400个观测对象其实是非独立的,而且存在两种相关性的来源:1)每个教练在多场比赛中被反复测量;2)来自相同高中的教练也存在相关性。因此,本研究可能会大大增加P值,因为有效的样本量远远小于400。

解决办法:在分析具有相关性的观测值时,数据中的一些相关性来源需进行调整或校正,比如可以通过改变观察单位(从比赛到教练)或利用能够处理相关观测值的统计学模型。

结果报告

(Reporting)阶段

9.摘要突出强调了组内比较结果,但忽略了组间比较结果,掩盖了组间差异不具有统计学意义的事实

举例:研究者进行了一项随机对照试验,评估鱼油改善卒中患者的认知功能情况。鱼油组(n=20)患者的认知功能平均改善了3分,组内变化差异在α=0.05水平上具有统计学意义(P=0.043);安慰剂组(n=20)的认知功能改善了2.1分,组内变化差异无统计学意义(P=0.087);平均组间差异(0.9分)无统计学意义(P=0.47)。

然而,研究者在摘要中写道:鱼油组有显著改善(P<0.05),而安慰剂组没有(P>0.05)。因此,鱼油可能有助于改善认知功能。这是一个具有高度误导性的结果陈述。

解决办法:在报告随机对照试验的结果时,摘要和主要结论应主要呈现组间比较的结果。

10.来自单一数据集的高度相关结果分别在多篇不同文章中进行报告

举例:研究者调查了1000名老年人,以了解他们当前的关节疼痛与锻炼习惯的关系。研究者分别建立了三个Logistic回归模型,探讨早期进行游泳、跑步和球类运动对老年关节疼痛的影响。

该研究发现,游泳可以降低关节疼痛的风险,跑步可以增加风险,而球类运动没有任何效果。这些结果分别发表在三篇独立的论文中,作者也没有告知读者其他研究的存在。

本研究问题在于,检验三项运动会增加总体的I型错误率;分开进行分析的话排除了调整潜在相关性的可能,例如对同时参与不同运动进行调整;读者也很难发现不同模型中的细小差异。

解决办法:研究者应仔细考虑来自同一数据集的多个分析,是否值得在多篇论文中分别进行发表。如果对同一样本的相关结果采用相同的统计方法,那么写成一篇完整的论文可能更合适。

总之,从研究设计到最终结果报告,在研究的各个阶段都会出现统计学上的错误。上述提到的十大错误,其实大多与误用P值或统计学检验是无关的。因此,建议广大研究者在今后的研究过程中加强统计学思维和素养的提升。那么如何提升统计学知识、避免犯上述错误?

一个最好、最简单的办法就是关注医咖会的公众号,与我们的小伙伴一起学习、一起进步吧!

参考文献:

[1] David N Borg, Keith R Lohse, Kristin L Sainani. Ten Common Statistical Errors from All Phases of Research, and Their Fixes. PM R, 2020, 12(6): 610-614.

[2]

”,查看全部免费统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,分类查看全部统计教程

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许晋亨回豪宅晓庐,座驾是200万奔驰,车牌号是ME我,司机80多岁

许晋亨回豪宅晓庐,座驾是200万奔驰,车牌号是ME我,司机80多岁

小娱乐悠悠
2026-03-11 10:09:05
美伊战火引爆能源危机?特朗普:得州将迎美国50年来首座新炼油厂!

美伊战火引爆能源危机?特朗普:得州将迎美国50年来首座新炼油厂!

财联社
2026-03-11 12:01:28
美国专家:中国简直“反人类”,杜邦专利刚过期,中国企业秒攻克

美国专家:中国简直“反人类”,杜邦专利刚过期,中国企业秒攻克

古史青云啊
2026-03-10 10:24:52
重庆13岁少年“街舞世界杯”夺冠 教练:最初的目标仅是“进入下一轮”

重庆13岁少年“街舞世界杯”夺冠 教练:最初的目标仅是“进入下一轮”

红星新闻
2026-03-11 17:13:57
荸荠立大功?研究发现:荸荠可在24小时清除47%炎症因子?

荸荠立大功?研究发现:荸荠可在24小时清除47%炎症因子?

医学科普汇
2026-03-04 19:35:03
市级已立案调查,鲁山舅舅求饶想私了!更多猛料被扒,谁也别想逃

市级已立案调查,鲁山舅舅求饶想私了!更多猛料被扒,谁也别想逃

离离言几许
2026-03-10 10:20:04
碎三观!一河南网友哭诉长期被妻子身体“冷暴力”,评论区炸锅…

碎三观!一河南网友哭诉长期被妻子身体“冷暴力”,评论区炸锅…

火山詩话
2026-03-09 05:29:27
第6波反制,中方准时索赔,巴政府收到罚单,两家公司被中国约谈

第6波反制,中方准时索赔,巴政府收到罚单,两家公司被中国约谈

小陆搞笑日常
2026-03-11 17:09:07
前军统特务谷正文的晚年自述:在台湾落网的诸多中共地下党员里,仅有张志忠算得上真男人

前军统特务谷正文的晚年自述:在台湾落网的诸多中共地下党员里,仅有张志忠算得上真男人

起飞做故事
2026-03-07 19:46:12
满屏涨停!储能概念大爆发,中国能建强势封板

满屏涨停!储能概念大爆发,中国能建强势封板

21世纪经济报道
2026-03-11 16:31:20
万亿烟草市场正在漏水?你常买的烟可能已经不值钱了!

万亿烟草市场正在漏水?你常买的烟可能已经不值钱了!

老特有话说
2026-03-07 16:09:02
朱高煦被扣在铜缸里,朱瞻基让人点火,朱高煦喊了一句话

朱高煦被扣在铜缸里,朱瞻基让人点火,朱高煦喊了一句话

掠影后有感
2026-03-11 10:10:28
何时结束战争?特朗普又和自己“打架”了,伊朗赌美国先“眨眼”

何时结束战争?特朗普又和自己“打架”了,伊朗赌美国先“眨眼”

上观新闻
2026-03-10 17:32:06
以色列特种兵深夜突袭惨败,伊朗系成功伏击,远火轰击F-35维修厂

以色列特种兵深夜突袭惨败,伊朗系成功伏击,远火轰击F-35维修厂

军机Talk
2026-03-07 16:42:12
48小时内,亚洲三国给中国送大礼,美专家痛心疾首:特朗普犯大错

48小时内,亚洲三国给中国送大礼,美专家痛心疾首:特朗普犯大错

现代小青青慕慕
2026-03-11 14:14:28
新冠病毒三大结局已成定局,提醒:62岁以上的老年人要特别注意

新冠病毒三大结局已成定局,提醒:62岁以上的老年人要特别注意

王晓爱体彩
2026-03-09 15:57:52
伊朗“四两拨千斤”:中国代表前脚到,后脚给66国甩出“选择题”

伊朗“四两拨千斤”:中国代表前脚到,后脚给66国甩出“选择题”

Ck的蜜糖
2026-03-11 17:23:01
在银行工作是最好的避孕方式

在银行工作是最好的避孕方式

微微热评
2025-11-22 16:04:34
后续!鲁山舅舅事件爆大瓜:网友爆料爷爷身份,五大重击彻底凉凉

后续!鲁山舅舅事件爆大瓜:网友爆料爷爷身份,五大重击彻底凉凉

奇思妙想草叶君
2026-03-11 16:30:03
1960年林彪赴兰州,人群中一眼认出李福泽,惊喜道:你怎么在这里

1960年林彪赴兰州,人群中一眼认出李福泽,惊喜道:你怎么在这里

叹为观止易
2026-03-11 15:47:28
2026-03-11 18:51:00
医咖会
医咖会
生动有趣的形式传递医学新进展
2782文章数 10984关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

重庆13岁少年"街舞世界杯"夺冠 最初目标仅是进下一轮

头条要闻

重庆13岁少年"街舞世界杯"夺冠 最初目标仅是进下一轮

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

家居
艺术
教育
数码
公开课

家居要闻

中式风格 人间朝与暮

艺术要闻

这组剪纸太美了!

教育要闻

坚持不住的晚自习

数码要闻

存储与CPU双涨施压PC市场,主流电脑型号售价或上涨40%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版