我们紧接着上篇文章继续学习统计学的寄版概念,这边文章我们要学习总体、样本、随机抽样这一组概念。
总体、样本、随机抽样
总体 : 根据 研究目的 确定 的 所有 个体 ,总体 分为有限总体和无限总体。
有限总体就是在具体情况下可以穷举出来的,比如假设我们要调查2019年中国人口中的男性的情况,那么中国人口就是总体,而在2019年这一年内,中国的人口肯定是可以穷举确定的。
无限总体就是总体的数量不可以明确的穷举出来,比如说我们要调查工厂里面某条产线的产品的合格情况,因为产线是可以一直生产产品的,那产品的数量是一直在增加的,是没有办法把所有产品穷举出来的,这样的产品总体就是无限总体。
样本:在总体中抽取一部分个体组成的集合。
这里我们要知道,就像之前我们在《简单理解大数据~》一文中所阐述的,在大数据之前的时代里面,绝大多数统计分析接触到的都是样本,原因一个是统计技术方法的不成熟,第二个是成本上的考虑。
比如上面说的要统计产线上的产品的合格情况,就只能抽取样本来做统计。不管是无限总体还是有限总体,其实大家都还是在用样本来做统计分析,因为把总体来做一次分析,费时费力。
那么当我们用样本来做统计的时候,最重要的就是样本对总体的可代表性了。这里就要说到随机抽样了。
随机 抽样 :基于 随机的原则,抽取样本的过程。
这里要注意了,随机≠随便。
随机的本质是说,每个个体进入样本的概率是确定的,甚至都有可能是一样的,而随便就不一定能达到这个效果了,因为随便的话,加入了很多因素,比如选取样本的人的主观意愿、一些过程导致的看似随机其实不随机等等。
打两个比方。
记者站在街头随机找路人采访来调查某个问题,这里的随机其实不是随机,是随便。因为记者能遇到的人,首先是要经过记者所在的位置,其次记者在主观上肯定也会做一些选择,比如选择面善的,上镜的,所以这个就不是随机。再比如之前我们在《简单理解幸存者偏差~》一文中说到的飞机弹孔的问题,其实就是过程已经筛选了一遍导致不管你对总体怎么随机,都已经不能做到真正的随机了。
那怎么才可以做到真正的随机呢?其实很简单,把所有总体编号,然后按照随机算法或者抓阄的方式,抓出来,这样就可以了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.