网易首页 > 网易号 > 正文 申请入驻

心塞!样本量不够多,还能开展logistic回归吗?

0
分享至

对于样本量问题,头大的事情不是一箩筐。有人问我:

“郑老师,论文审稿人认为,我的文章样本量只有56,自变量有15个,做logistic回归的结果不行”

灵魂拷问:样本量过小,就不能开展logistic回归吗?临床研究变量这么多,就得要要好几百的样本量吗?

医学研究样本量估算是令人头大的事情。近几年来,回归分析的样本量令人关注。无论研究影响因素,还是控制混杂,或者构建预测模型,总是有人发蒙,“我的样本量够不够!”

回归分析对样本量是有要求的,或者对自变量个数是有要求的。一定的样本量只允许一定数量的自变量进入模型,否则会出现超载情况,模型构建不成功!

回归分析到底对样本量有何要求呢?在回归分析中,存在着一个样本量是自变量个数10倍以上的概念,英文的意思是10 events per variable (10 EPV)。

什么是10 EPV?那就是回归分析的阳性事件数,不少于开展回归纳入模型自变量数的10倍。

这一概念广为流传,也深受国内外学者认可。近些年有大量的文章认为这种方法不严谨----的确,哪有这么绝对的说法。不过实际应用中,没有更简单的指导回归分析样本量计算的方法了,因此10 EPV仍然是最被认可的方法。

在这里,我在关于10EPV做一些关键点的介绍。

1.对于定量变量结局(特别是连续型数据),如需开展线性回归分析,有效样本量直接由总的观察对象数决定。比如一项研究如果总样本量200例,如果定量结局为血压值,那么开展线性回归分析时,将允许纳入同时20个自变量进入模型。

2.对于二分类结局,一般开展logistic回归分析。关于样本量,目前网络上流传的概念是logistic回归要求阳性事件数的5-10倍以上。其实这个概念不严谨的!真正有效样本量将根据二分类结局中两类结果观察数的最小值而定。比如基于200例研究对象开展分析,120例发生高血压,80例未发生高血压。本案例阳性数是120,但是实际上两类结果中,阴性数量才80,是较小值。因此有效样本量是80例,按照10 EPV原则,logistic只允许8个(而不是12个)自变量同时进入模型。

3.对于生存时间结局,则是另外的说法了。生存时间资料回归分析常见采用Cox回归,一般来说生存分析样本量测算是根据事件的发生数!这里的事件发生数则是一般意义上的阳性事件数。比如200例高血压患者,随访5年,其中120人发生心血管病患,那么回归分析时可根据120例的数据作为纳入自变量个数的标准。

4.除此之外,我在这里必须要介绍一下回归分析自变量的概念。一个自变量不等同于数据库一个变量,自变量个数会由于不同的回归模型而发生变化。比如需要哑变量,以及交互效应存在时,自变量个数有所增加。

第一,分类变量考虑设置哑变量时,情况要复杂一些。比如变量种族(分为白人、黑人、其他人种三个水平)一般回归模型需要设置哑变量。回归分析时,种族这一变量将转为2个自变量(是否是黑人、是否是其他人种)。如果一个分类变量类别越多,形成的自变量个数越多。

第二,如果要探讨交互作用,也要增加自变量的数量。如果,与设置哑变量的自变量产生交互作用,那么自变量数更要增加了。

比如上表为logistic回归分析结果。种族是哑变量,同时和产妇年龄进行交互作用分析。此时,种族产生2个自变量,同时与产妇年龄的交互作用也产生2个自变量,1*2的结果。如果,两个都设置哑变量的变量开展交互作用分析,那么产生的自变量数排列组合一下,可能3*2、3*3或者更多了!

因此,回归分析的自变量数量不是原始变量的个数,而是回归分析将要呈现出来的数目。

5.回归分析不同的变量筛选方法对自变量个数或者对样本量有没有影响?

回归分析一般有向前逐步、向后逐步、双向逐步,一般来说,回归分析对自变量的个数不是建模成功的自变量数,而是候选自变量数,也就是准备纳入模型的、考虑了哑变量、交互项之后的自变量个数。当然有些时候实在没有办法--样本量真的不多--能否通过逐步回归法可以多一些变量进去呢?可以的,选择向前逐步和双向逐步,别选择向后逐步。简单的数据模拟分析显示,如果向前逐步和双向逐步两种方法在建模成功后保留在模型的自变量个数不多,回归分析可以多考虑一些候选自变量。因为,这两种方法建模过程中不是候选自变量一口气全部纳入,因此可以避免样本量过多而超载的现象。

6.有效样本量一般建议自变量数10倍以上,但这事不绝对。统计学者也提过5-10倍以上的概念,说明5倍以上也可能可以。所以,10倍以上的概念可作为参考,接近或者超过则较为妥当。

7. 很多时候会出现出现OR值特别大,或者特别小的原因

很多人咨询过我,logistic回归分析结果中某个自变量的OR值特别大(如>999.999)或特别小(<0.001),可信区间也特别宽(如<0.001~>999.999)。怎么回事?

对于此类问题,可能有以下原因:

(1)空单元格,如性别与疾病的关系,所有男性都发生了疾病或都没有发生疾病,这时候可能会出现OR值无穷大或为0的情形。

(2)该变量某一类的例数特别少,如性别,男性有100人,女性有2人,可能会出现这种情形。

(3)完全分离现象,对于某自变量,如果该自变量取值大于某一值时结局发生,当小于该值时结局都不发生,就会出现完全分离现象。如年龄20、30、40、50四个年龄段,如果40岁以上的人全部发生疾病,40岁以下的人全部不发病,就就产生了完全分离现象,也会出现奇怪的OR值和置信区间。

(4)多重共线性问题,多重共线性会产生大的标准误。

对于上述问题,肯定需要一个一个因素来回归 探索 分析, 找到原因, 对自变量要进行合并、 删除、分组等方式来避免上述现象, 造成多重共线性的自变量,要排除在外。

8. 样本量不够大,还能开展logistic、线性等回归吗?

没有问题,合理 筛选自 变量个数进入模型。

9.针对小样本多自变量,如何进行自变量筛选呢?

对此,常规的方法就是先单因素后多因素。这估计很多人都知道,我也不多说了。反而,我要说的是,先单因素后多因素策略不是所有回归分析都要采纳的。这种理念的出现是因为小样本量而多自变量数,如果是大样本量但自变量数也不多,没有必要采用单因素后多因素,直接多因素回归分析即可。

对于小样本量多自变量数的研究,我认为是主流的方法是纳入必要的自变量进入模型。必要的自变量指的是理论上是研究结局的原因变量才纳入进来。建立回归分析之前,必须认真考虑,哪些是结局可能的原因变量,哪些可能是混杂变量,哪些又可能是中介变量。不能什么都不考虑,一股脑全放进来,或者一股脑先单因素再多因素。

10. 样本量不够大,logistic回归到底结果可以被认可吗?

采用先单后多的回归法方法,应该淘汰了大量的自变量,剩下的在开展多因素回归的时候,样本量已经不多了,应该可以勉强开展logistic回归了

那么结果可以被认可吗?那就看结果吧!如果结果确实得到了我们想要的结果,又没有什么过大的OR值或者离谱的置信区间。只要都合理,那作为探索性分析的结果,还是可以拿出来说说的。不用过分担心,无论是中文还是英文论文,都有不少没有满足10 EPV甚至5EPV 还得到了认可的结果

11. 如何回复审稿人、毕业论文答辩人的拷问?

面对本文开题的质疑,“论文审稿人认为,我的文章样本量只有56,自变量有15个,做logistic回归的结果不行”。我觉得可以这么回答,1. 这是探索性研究;2.自变量进行了筛选才开展多因素回归;3.结果的OR值和置信区间较为正常 ;4. 模型的拟合优度结果显示模型建模是成功的;5.这个结果确实存在着一定不稳健性,不过指标特征结果与同类研究相比,具有一定相似性,应该还算可靠。

12. 样本量不够大,回归分析都是阴性结果怎么办?

如果单因素结果,都是阴性结果,那么真的凉菜了!如果单因素也有若干个有统计学意义,多因素一个也没有,那么当务之急,是看看究竟什么原因造成的,再挑选合适的变量开展多因素回归分析。这一过程,我之前的文章有所说明,有兴趣可以看看。

回归分析时,单因素P<0.05,而多因素却没有意义,我该如何是好?

往期推荐

国自然技术路线图如何设计和绘制

2021-02-08

如何免费下载论文——这几种方式可以帮你解决几乎所有文献

2021-02-05

SCI文章中机制图如何设计与绘制—这个小软件+PPT可帮你搞定

2021-02-04

国自然基金的题目、摘要、结题报告、研究论文全文的网站和方法推荐

2021-01-31

Kaplan-Meier生存曲线(包括统计检验、95%Cl)的简介与绘制(不用R软件)

2021-01-25

Graphic abstract如何设计与绘制—以中药复方药理为例简单讲讲

2021-01-22

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新加坡大满贯赛:国乒6人出战,王楚钦对阵日本主力

新加坡大满贯赛:国乒6人出战,王楚钦对阵日本主力

张例喜欢软软糯糯
2026-02-24 05:39:36
宁可向美妥协,也不求助中国?俄罗斯愿有条件妥协,到底想干啥?

宁可向美妥协,也不求助中国?俄罗斯愿有条件妥协,到底想干啥?

小久解说
2026-02-22 22:10:04
惨遭30多国围攻,美国紧急警告中国:别在特朗普最惨的时候捅刀子

惨遭30多国围攻,美国紧急警告中国:别在特朗普最惨的时候捅刀子

爱看剧的阿峰
2026-02-23 16:12:30
妈妈走了,女儿还在比赛,谷燕连悲伤都得按暂停键

妈妈走了,女儿还在比赛,谷燕连悲伤都得按暂停键

喜欢历史的阿繁
2026-02-23 18:33:47
《镖人》历史真相:知世郎为什么失败?

《镖人》历史真相:知世郎为什么失败?

最爱历史
2026-02-23 18:12:06
陕西发布暴雪黄色预警 高速路管制、机场启动三级响应

陕西发布暴雪黄色预警 高速路管制、机场启动三级响应

上游新闻
2026-02-23 16:37:05
曼妙的身材:一副会呼吸的建筑

曼妙的身材:一副会呼吸的建筑

疾跑的小蜗牛
2026-01-20 22:35:32
教过很多孩子,回头看才敢告诉你:小学差的,到初中大概率还是差

教过很多孩子,回头看才敢告诉你:小学差的,到初中大概率还是差

好爸育儿
2026-02-11 20:45:27
未来已来!马斯克预言全球共产,你剩下五年去致富或自救

未来已来!马斯克预言全球共产,你剩下五年去致富或自救

涵豆说娱
2026-01-28 18:45:50
送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

送走马蓉又迎来冯清,倒霉的王宝强,终究还是逃不过“女人坑”

卷史
2026-02-15 06:08:47
卡里克严正警告曼联:必选对卡塞米罗继任者,四大候选浮出水面

卡里克严正警告曼联:必选对卡塞米罗继任者,四大候选浮出水面

林子说事
2026-02-23 22:21:39
还得是港星!黄日华为粉丝现场摇人,苗侨伟开车来签名,太接地气

还得是港星!黄日华为粉丝现场摇人,苗侨伟开车来签名,太接地气

萌神木木
2026-02-23 15:22:29
娜然跟霍启山回香港!男友忙工作她逛街消费,娜然脸肿开始幸福肥

娜然跟霍启山回香港!男友忙工作她逛街消费,娜然脸肿开始幸福肥

琴声飞扬
2026-02-23 11:43:07
人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

马拉松跑步健身
2026-02-22 06:30:04
马筱梅晒设计款红包,汪小菲带队外出聚餐,小菻菻显得格外亲张兰

马筱梅晒设计款红包,汪小菲带队外出聚餐,小菻菻显得格外亲张兰

动物奇奇怪怪
2026-02-23 12:57:26
苏翊鸣夺金后高调认爱朱易,却有人替佟丽娅不值?这十二年的情谊终究被错付了?

苏翊鸣夺金后高调认爱朱易,却有人替佟丽娅不值?这十二年的情谊终究被错付了?

TVB的四小花
2026-02-23 08:21:55
当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

霹雳炮
2026-02-06 13:48:54
羊肉被关注!研究发现:脑梗患者吃羊肉,用不了多久,或有3益处

羊肉被关注!研究发现:脑梗患者吃羊肉,用不了多久,或有3益处

阿兵科普
2026-02-07 21:11:54
瑞典为何结束210年中立,加入北约并援乌近百亿美元?

瑞典为何结束210年中立,加入北约并援乌近百亿美元?

高博新视野
2026-02-22 20:16:40
中考要变天?三地传出重磅信号,五五分流或成历史,时代真变了?

中考要变天?三地传出重磅信号,五五分流或成历史,时代真变了?

眼界看视野
2026-02-23 21:05:20
2026-02-24 06:23:00
如沐风科研
如沐风科研
科研实验-中医药-制剂研发
2865文章数 1113关注度
往期回顾 全部

教育要闻

开工大吉不要说 happy start working!用这句话表达更地道!

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

头条要闻

墨西哥最大毒枭被击毙:喜欢杀人灭门 几乎没人看见过他

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

房产
艺术
亲子
教育
手机

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

艺术要闻

雍正帝御笔春条

亲子要闻

孩子长得慢长得矮,查查这四项

教育要闻

北大教授透露:70% 职高生农村户口,不是孩子不争气,是现实扎心

手机要闻

iPhone 18 Pro进入量产测试阶段 今年秋季发布

无障碍浏览 进入关怀版