网易首页 > 网易号 > 正文 申请入驻

SCI论文中的描述性统计(descriptive statistics)是什么?

0
分享至

《论语·为政第二》里有说“视其所以,观其所由,察其所安”,对于科学研究来说,就是需要通过实验或调查等手段获取数据,进行必要的统计分析,对科学研究进行数据画像。那么因此,SCI论文中统计学内容一般包含描述统计分析。所谓描述性统计(descriptive statistics)即将调查样本中包含的大量数据资料进行整理和计算,对调查总体所有变量的有关数据进行统计学上的总结。简单来说,就是将一系列复杂的数据集用几个有代表性的数据进行描述,进而能够直观地解释数据的变动,主要包括数据的离散程度分析、集中趋势分析、频数分析、分布以及一些基本的统计图形。描述统计是推断性统计的基础。

以下是SCI论文中一些包含描述性统计内容的实例:

定量研究中,在收集数据后,统计分析的第一步是进行描述性统计,即描述回答样本数据的特征,如一个变量的平均值(如年龄),或两个变量之间的关系(如年龄和创造力)。在描述性统计的基础上,下一步研究工作是推论统计(Inferential statistics),用来帮助研究者决定样本的数据是否证实或反驳研究的假设,以及假设的结论是否可以推广到更大的总体中去,对统计总体的未知数量特征做出以概率形式表述的推断。

描述性统计有三种主要方法

1.频数分析,与各个体的变量值出现的次数有关。

2.集中趋势分析,与变量数值的平均值有关。

3.离散程度分析,与各个体的变量值之间差异程度有关。

在单变量分析中,一次只能评估一个变量,或者在双变量中比较两个变量之间关系或在多变量分析中比较多个变量之间的关系。

下面用一个研究实例来说明一下描述性统计的三种方法

实例1:某课题想按性别研究不同业余时间休闲活动的流行程度。研究项目分发一份问卷调查,并询问被调查者在过去一年中,他们做了以下每一项休闲活动的次数,三种活动分别为:

  • 去图书馆读书,简称为图书馆;
  • 在电影院看电影,简称为电影院;
  • 游览国家级公园,简称公园。

统计的数据集是对调查结果的收集。通常,可以使用描述性统计来找出每种活动的总体频率(分布)、每种活动的平均值(中心趋势)以及每种活动的离散程度(可变性)。

01 频数分析(Frequency distribution)

频数分布(frequency distribution),亦称“次数分布”,是数据的基本统计整理方式之一,即可以用数字或百分比总结变量每个测量值的频数或频率。频数一般是指每个数据出现的次数,而频率是指每个数据出现的次数与总次数的比值,是一种相对频数。

在SCI论文中,往往使用两种图表表达频数分布:简单频数分布表(Simple frequency distribution table)和分组频数分布表(Grouped frequency distribution table)。

简单频数分布表:

对于实例1,根据性别变量,在左边一栏列出所有可能的答案。计算每个答案的回答数或百分比,并将其显示在对应的右侧列中。

Gender

Number

Man

242

Woman

235

No answer

37

从以上表格可以得出结论:在本项研究中,男性参与调查的人数比较多。

分组频数分布表:

对于实例1,在分组频率分布中,可以对每个答案的数值进行分组,并将每组的响应数相加,还可以将每个数字转换为百分比。

Library visits in the past year

Percent

0-3

8%

4-8

18%

9-12

40%

13-16

26%

17+

8%

从上面这张表中可以看到,大多数人在过去的一年里去图书馆4到16次。

02 集中趋势度量(Measures of Central Tendency)

集中趋势度量表明数据集的中心或平均值,能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。平均值(mean)、中位数(median)和众数(mode)是估计集中趋势度量的三种方法。

平均值,是求平均值最常用的方法。这里的平均数是指算术平均数,即一组数据的和除以这组数据的个数所得的平均值,也叫算术平均值。

例如图书馆平均访问次数的数据集为{15, 3, 12, 0, 24, 3},则平均数为(15 + 3 + 12 + 0 + 24 + 3)/6 = 9.5

中位数,是正好位于数据集中间的值。为了找到中位数,将每个数据值从最小到最大排序。然后,中间数是中间数。如果中间有两个数字,则计算它们的平均值。对于数据集{15, 3, 12, 0, 24, 3},则中位数为(3 + 12)/2 = 7.5。当数据集中数据的大小趋势悬殊较大时,中位数比平均数更能代表整体水平,而数据大小趋势悬殊较小时,中位数和平均数都可以代表这组数据的整体水平。

众数,是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。对于数据集{0, 3, 3, 12, 15, 24},最频繁出现的众数是3。

1. 差异量数(Measures of Variability)

差异量数也称离中趋势量数,是指描述一组数据离中差异情况和离散程度的量数。差异量数的种类很多,主要包括极差(Range,R)、标准差 (Standard deviation, σ)、方差(Variance, σ2 ) 、四分位距(interquartile range, IQR)。下面简单介绍一下前三种方法:

极差(Range),又称范围误差或全距,是用来表示样本数据中最大值与最小值之间的差距,即最大值减最小值后所得之数据。

例如,过去一年来参观图书馆的次数为有序数据集:{0、3、3、12、15、24},则极差为:24–0=24。

标准差(Standard deviation)是数据的平均变异量,主要描述数据的离散程度,其符号为σ。它告诉大家,数据中平均每个分数离平均值有多远。标准差越大,数据集的离散程度就越大。例如,两组数的集合 {0,4, 9, 15} 和 {5, 6, 7, 10} 其平均值都是 7 ,但第二个集合具有较小的标准差。

计算标准差的步骤通常主要有三步:计算平均值、计算方差、计算标准差。例如,对于一个有八个数据的数据集{7,13,15,18,20,24,30,31},其标准差可通过以下步骤计算:

1)计算平均值:

2)计算方差:

3)计算标准差:

方差(variance)是每个样本值与全体样本值的平均数之差的平方值的平均数,同样用来描述数据的离散程度,实际上就是标准差的平方,其符号为σ²。在统计学史上,方差早于标准差出现,但由于统计学家发现,方差和样本值不在同一个数量级内(因为是平方过来的),不便于比较样本值与偏差之间的关系。后来,统计家为了保证计算偏差值和实际样本值的单位统一(这个值和实际值的单位是平方关系) ,因此提出了把这个值再开平方一次,以保证它和样本值同样是一次幂单位。

以上面的数据集{7,13,15,18,20,24,30,31}为例:

如果以统计变量来说,描述性统计又可以分为单变量描述性统计、双变量描述性统计以及多变量描述性统计。

所谓单变量描述性统计是每次只关注一个变量的数据。下面本文举一个单变量描述性统计的集中趋势度例子,使用集中趋势度量的多种差异度量方法分别检查每个变量的数据是很重要的。像SPSS和Excel这样的软件工具或自己编写Python、R小程序都可以很容易地计算数据集的差异(离散)评价数值。

例1中采取到一年内访问图书馆次数的数据集{3,3,8,7, 14,18,20, 25, 22, 15, 9, 5,20,31},那么对它进行集中趋势度则有:

Small tips:在对数据进行统计分析时,如果研究者只考虑平均值作为中心趋势的度量,那么数据集的中心可能会被异常值所扭曲,这与中位数或众数不同,比如像“某研究团队的张三和李四月薪3K,王五月薪100W”,那么这个研究团队的平均月薪为33万一样。

同样道理,虽然极差(全距)对极值很敏感,但也应考虑标准差和方差,以获得比较准确的差异(离散)度量。

双元描述性统计和多元描述性统计在收集了不止一个变量的数据时,可以使用双元或多元描述性统计来探索它们之间是否有关系。

在双变量分析中,同时研究两个变量的频率和变异性,看它们是否同时变化。在进行进一步的统计测试之前,还可以比较这两个变量的中心趋势。多元分析与二元分析相同,但有两个以上的变量。

双元描述性统计描述的一个重要工具就是列联表(Contingency Table)。列联表又称为条件次数表、情形分析表,它对一组数据用两种不同方法进行分析的行和列组成。在列联表中,每个单元格表示两个变量的交集。通常,自变量(如性别)沿纵轴出现,因变量沿横轴出现(如活动)。阅读表格时,可以观察到自变量和因变量是如何相互关联的。例如,过去一年图书馆的参观次数根据性别来进行统计。

Number of visits to the library

in the past year

Group

0–4

5–8

9–12

13–16

17+

Men

38

66

34

82

20

Women

36

48

43

63

22

Small tips:当原始数据的数值转换成百分比时,SCI论文读者理解列联表会更容易。百分比使得每一行看起来好像都有相同的100个被观察者或被调查者,从而使每一行与另一行具有可比性。在创建基于百分比的列联表时,在末尾为每个变量添加一列为样本总量N。

Visits to the library in the past year

(Percentages)

Group

0–4

5–8

9–12

13–16

17+

N

Men

18%

37%

20%

13%

12%

240

Women

15%

20%

18%

35%

11%

235

从上面这张表中可以更清楚地看出,相近比例的喜欢泡图书馆的男性和女性每年都要去图书馆17次以上。此外,男性去图书馆的次数通常在5到8次之间,而女性则在13到16次之间。

对于双元及多元数据统计描述的一个重要工具是散点图(Scatter plots)。散点图是用来表达两个或三个变量之间关系的图表。这是一种关系强度的视觉表现。

在散点图中,沿x轴绘制一个变量,沿y轴绘制另一个变量。每个数据点由图表中的一个点表示。

下面介绍一个散点图示例。以例1中参观图书馆和电影院的描述统计,需要在调查数据中了解那些经常去图书馆的人是否倾向于少去电影院看电影。散点图可以设计为,沿x轴是电影院观看电影次数,沿y轴是访问图书馆读书的次数。

从散点图可以看出,随着电影院里看电影的数量减少,图书馆的访问量也随之增加。基于对可能的线性关系的可视化直观评估,研究者可进一步对数据进行的相关性分析和回归测试。

用好统计学方法,是撰写SCI论文的利器!最迟写成于万历年间的《增广贤文》 有言:“画龙画虎难画骨...”,这句话凸现了透过现象认识本质是很难的,那么SCI论文中的描述性统计部分常常可以让我们降低一下这种难度。

作者简介:晨星,男,湖北武汉人,副高职称,理学博士,高级程序员,IAMG(国际数学地球科学协会)会员,省级医学人工智能与大数据专委会委员,部级行业智库特约研究员。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今明两年,不出意外的话,社会很可能发生“5大转变”

今明两年,不出意外的话,社会很可能发生“5大转变”

庞明说财经
2024-06-16 16:52:31
美媒:中国已经“出手”了,而美国感到紧张了

美媒:中国已经“出手”了,而美国感到紧张了

新时光点滴
2024-06-16 04:40:02
形势有多严峻?暗示“苦日子”已经开始了

形势有多严峻?暗示“苦日子”已经开始了

山丘楼评
2024-06-03 11:30:33
美媒评NBA5条大鱼归属:哈登克莱留队 保罗赴湖人 乔治加盟纽约

美媒评NBA5条大鱼归属:哈登克莱留队 保罗赴湖人 乔治加盟纽约

锅子篮球
2024-06-16 23:03:52
美国选手夸张幅度破女子100蝶世界纪录 超现实水准全世界独她拥有

美国选手夸张幅度破女子100蝶世界纪录 超现实水准全世界独她拥有

威猛孟巍
2024-06-16 08:39:11
媒体人:蓉城半场猛虎扑食但比赛后程体能有问题 申花国脚很疲劳

媒体人:蓉城半场猛虎扑食但比赛后程体能有问题 申花国脚很疲劳

直播吧
2024-06-16 22:00:32
久保裕也美职联9分钟戴帽!榜首迈阿密多赛2场仅领先辛辛那提2分

久保裕也美职联9分钟戴帽!榜首迈阿密多赛2场仅领先辛辛那提2分

直播吧
2024-06-16 13:22:03
比阿根廷还猛!美洲杯头号夺冠热门诞生:3亿劲旅爆发,23场不败

比阿根廷还猛!美洲杯头号夺冠热门诞生:3亿劲旅爆发,23场不败

邮轮摄影师阿嗵
2024-06-16 16:46:20
回顾:男子炫耀大14岁老婆,风韵犹存,网友:姐弟恋也吃香

回顾:男子炫耀大14岁老婆,风韵犹存,网友:姐弟恋也吃香

夫妻谈资局
2024-06-16 15:11:20
舔狗校长被家族流放了

舔狗校长被家族流放了

毒舌扒姨太
2024-06-15 22:07:19
武汉楼市全军覆没,武汉楼市武昌区某豪宅跌至3万多元

武汉楼市全军覆没,武汉楼市武昌区某豪宅跌至3万多元

有事问彭叔
2024-06-16 14:26:02
汪小菲带马筱梅和孩子们民宿泡温泉,网友:孩子们玩儿美了!

汪小菲带马筱梅和孩子们民宿泡温泉,网友:孩子们玩儿美了!

娱记掌门
2024-06-16 16:45:05
联合国预测:中国人口迅速萎缩,将成为全球面对的最大挑战!

联合国预测:中国人口迅速萎缩,将成为全球面对的最大挑战!

悦悦侃历史
2023-08-15 13:09:34
三星电子越南工厂今年一季度盈利12亿美元

三星电子越南工厂今年一季度盈利12亿美元

芯智讯
2024-06-15 22:48:38
苹果首次展示卫星短信功能 仅限iPhone 14及以上机型

苹果首次展示卫星短信功能 仅限iPhone 14及以上机型

手机中国
2024-06-14 06:55:20
实在想不明白!一个球队替补,拿着300万底薪,为什么都叫他巨头

实在想不明白!一个球队替补,拿着300万底薪,为什么都叫他巨头

球毛鬼胎
2024-06-15 15:10:53
对中国没认同感!美境内38万苗族人,是背叛与鲜血酿出的“恶果”

对中国没认同感!美境内38万苗族人,是背叛与鲜血酿出的“恶果”

咖啡店的老板娘
2024-06-16 19:33:40
为何总统房一晚以万为单位?5项“隐性服务”,大多数人没体验过

为何总统房一晚以万为单位?5项“隐性服务”,大多数人没体验过

科普新角度
2024-06-13 16:42:59
梅西拒绝沙特内幕:无视14亿天价合同!背后原因曝光!对方惊了!

梅西拒绝沙特内幕:无视14亿天价合同!背后原因曝光!对方惊了!

风过乡
2024-06-16 07:13:26
浙江一地紧急通知:停课!全省几乎都被覆盖,明天出门要警惕……

浙江一地紧急通知:停课!全省几乎都被覆盖,明天出门要警惕……

都市快报橙柿互动
2024-06-16 21:55:41
2024-06-16 23:36:49
投必得专业论文编译
投必得专业论文编译
学术论文润色编辑及翻译
1323文章数 611关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

欧洲猪肉业界:中国若限制进口将是梦魇

头条要闻

欧洲猪肉业界:中国若限制进口将是梦魇

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

家居
旅游
健康
教育
时尚

家居要闻

空谷来音 朴素留白的侘寂之美

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

有一类中考必考,分值不低,形式多样的物理题!你能满分吗?

伊姐周日热推:电影《沙漏》;动漫《眷思量2》......

无障碍浏览 进入关怀版