本文内容整理自医咖会《样本量计算的理论+实操》专栏,小咖针对其中关于“为什么估算样本量”的内容进行了整理,可点击左下角“阅读原文”查看完整视频。
样本量估算起源于临床试验。早期上市试验的发起方一般为药企,开始前必须考虑经费、招募规模、足以满足上市需求的结果评价的成本等等。后来,临床不同科室、不同专业都会进行临床研究,其中也包括临床试验。
随着越来越多的临床试验的开展,人们逐渐意识到,想要得到一个真实的、有意义的结果,对于研究质量的考量在研究设计阶段必不可少。在这个过程中,样本量估算逐渐受到重视。
样本量过大或过小都有缺点。样本量过大时,可能会经费不足,更重要的是实际操作难度较大,比如质控,四大期刊都倾向于多中心研究,其存在具有代表性等诸多优势,但其质控需要严格把控。样本量大到一定程度,足以获得统计效能来检验组间差异之后,继续增加样本量可能就比较浪费。
样本量过小,操作简单,但可能检验效能低到根本不足以检出差异。就像一些阴性结果的研究局限性部分,常见其将阴性原因归咎于样本量过小,但其实并不一定。
其实,估算样本量主要是为了克服抽样误差。临床研究一般是想通过抽样的样本人群得出结论,然后推广到总体目标人群,是从样本到整体的一个过程。而抽样人群的数据是碰巧存在的,还是真实存在的?这就需要应用统计学来处理。
这种利用样本信息对相应总体的特征进行的推断称为统计推断。而处理上述问题时,“对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设”的过程,就是常说的假设检验。
如果来自同一总体抽取的两个样本,其差异是因为抽样误差,对应到统计学中即“P>0.05”,无统计学意义。而如果来自两个总体分别抽取的样本,其差异是本质不同引起的,对应到统计学中即“P<0.05”,有统计学意义。
在假设检验中,有两个概念和样本量估算有关,其一为I类错误,也就是假阳性错误,常称弃真假设;II类错误为存伪。对应的统计学参数为α和β,前者对应的是可信度,也就是常见的显著性水平P值预设的0.05;后者1-β对应的是把握度,代表两总体确实有差别时,差别被检出的能力。
那么P值有什么意义呢?举例来讲,如果两组(A vs B)的有效率是固定的,不同样本量的P值如下图,第三种情况P<0.05,但处于临界状态,稍有变动可能就会出现组间差异不显著的情况。因此,研究者不应神化P值。
临床研究的设计中,样本量只是统计学解决的问题之一。估算样本量并不是套公式就可以简单计算的,而是一个系统的工作,必须对研究者计划的疗效指标、随访情况、组内变异、α、β等等都有一定的了解。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.