统计学是一门集收集、处理、分析与解释量化的数据的科学. 统计学也包含了一些实验科学的因素, 例如通过设计收集数据的实验方案获取有价值的数据, 为提供优化的决策以及推断问题中的因果关系提供依据.
统计学主要起源对国家经济以及人口的描述, 那时统计研究基本上是经济学的范畴. 之后, 因心理学、医学、人体测量学、遗传学和农业的需要逐渐发展壮大, 20 世纪上半叶是统计学发展的辉煌时代. 世界各国学者在共同努力下, 逐渐建立了统计学的框架, 并将其发展成为一个成熟的学科.随着科学技术的进步, 作为信息处理的重要手段, 统计学已经从政府决策机构收集数据的管理工具发展成为各行各业必备的基础知识.
从 20 世纪 60 年代开始, 计算机技术的发展给统计学注入了新的发展动力.特别是近二十年来, 社会生产活动与科学技术的数字化进程不断加快, 人们越来越多地希望能够从大量的数据中总结出一些经验规律, 对各行各业的发展提供数据科学的方法论, 统计学在其中扮演了越来越重要的角色. 从 20 世纪 80 年代开始, 科学家就阐明了统计学与数据科学的紧密关系.进入 21 世纪, 把统计学扩展到数据计算的前沿领域已经成为当前重要的研究方向. 针对这一发展趋势, 进一步提高我国的统计学与数据处理的研究水平, 应用与数据分析有关的技术和理论服务社会, 加快青年人才的培养, 是我们当今面临的重要和紧迫的任务. “统计与数据科学丛书”因此应运而生.
本丛书旨在针对一些重要的统计学及其计算的相关领域与研究方向作较系统的介绍.既阐述该领域的基础知识, 又反映其新发展, 力求深入浅出, 简明扼要,注重创新. 丛书面向统计学、计算机科学、管理科学、经济金融等领域的高校师生、科研人员以及实际应用人员, 也可以作为大学相关专业的高年级本科生、研究生的教材或参考书.
在一文中我们介绍了《智能计算中的算法、原理和应用》《多水平模型及其在经济领域中的应用(第二版)》及《应用非参数统计(第二版)》,今天为大家介绍丛书新成员《多元统计分析》。
多元统计分析
(统计与数据科学丛书 4)
李高荣,吴密霞
北京:科学出版社
责任编辑: 李 欣
内容简介
本书介绍了多元统计分析的方法和理论,以及R语言计算,涵盖了经典多元统计分析的全部内容,包括:矩阵运算知识、数据可视化与R语言、多元正态分布、多元正态总体的抽样分布、多元正态分布的参数估计、置信域和假设检验、线性回归模型、多元多重回归分析、主成分分析、因子分析、判别分析、聚类分析和典型相关分析等内容,以及R语言的应用。本书除了重点介绍各种多元统计分析的思想、方法和理论外,使用R语言进行计算和数据可视化也是本书的特色,对书中所有的多元统计分析方法和理论都给出了R语言程序和应用,有大量翔实的应用案例可供参考,并配有相当数量的习题可供练习。
本书取材新颖、内容丰富、阐述严谨、推导详尽、重点突出、思路清晰、深入浅出、富有启发性,便于教学与自学。
本书可作为统计学、数学、金融学和经济学等专业本科生、研究生多元统计分析课程的教材或参考书,也可作为数据分析相关科技人员和工作者使用多元统计分析方法与R语言的参考手册。
目录速览
“统计与数据科学丛书”序
前言
第1章 绪论和预备知识 1
1.1 绪论 1
1.1.1 多元统计分析概述 1
1.1.2 关于本书 2
1.1.3 适用对象 3
1.2 矩阵运算知识 4
1.2.1 线性空间 4
1.2.2 Kronecker乘积与拉直运算 6
1.2.3 矩阵的几种重要分解 7
1.2.4 矩阵的广义逆 11
1.2.5 对称幂等阵 14
1.2.6 分块矩阵 16
1.2.7 矩阵微商和变换的雅可比 18
习题1 22
第2章 数据可视化与R语言 24
2.1 数据可视化概述 24
2.2 R语言介绍 25
2.3 R语言绘图基础 29
2.3.1 R基础的数据可视化 29
2.3.2 ggplot2系列程序包的可视化 36
2.4 多元统计数据的可视化 39
2.4.1 轮廓图 39
2.4.2 雷达图 40
2.4.3 星图 41
2.4.4 脸谱图 42
2.4.5 散点图 44
习题2 47
第3章 多元正态分布 49
3.1 随机向量 49
3.1.1 随机向量及其分布表示 49
3.1.2 随机向量的数字特征 51
3.1.3 变量变换 56
3.2 多元正态分布的定义、性质与独立性 56
3.2.1 多元正态分布的定义及性质 58
3.2.2 多元正态分布的R语言计算 62
3.2.3 条件分布和独立性 65
3.3 偏相关系数* 68
3.4 矩阵多元正态分布 72
习题3 75
第4章 多元正态总体的抽样分布 79
4.1 二次型分布 79
4.2 Wishart分布 84
4.2.1 Wishart分布的定义及其性质 84
4.2.2 非中心Wishart分布 93
4.3 HotellingT 2分布 94
4.4 Wilks分布 97
习题4 99
第5章 多元正态分布的参数估计 102
5.1 多元正态分布样本统计量和极大似然估计 102
5.1.1 多元正态分布样本统计量 102
5.1.2 极大似然估计 105
5.2 多元正态分布的参数估计的性质 107
5.2.1 无偏性 107
5.2.2 充分性 107
5.2.3 相合性 108
5.2.4 完备性 111
5.2.5 有效性 111
5.2.6 Bayes与minimax估计* 112
5.3 均值向量的改进估计* 113
5.3.1 协方差矩阵已知时,均值向量的改进估计 114
5.3.2 协方差矩阵未知时,均值向量的改进估计 120
5.4 相关系数的估计与应用* 120
5.4.1 样本相关系数的精确分布 121
5.4.2 样本相关系数的渐近正态分布 132
5.4.3 样本偏相关系数 135
习题5 137
第6章 多元正态分布的置信域和假设检验 140
6.1 总体均值向量的置信域估计 140
6.1.1 单个多元正态总体 140
6.1.2 同时置信区间 144
6.1.3 Bonferroni同时置信区间 146
6.1.4 大样本置信区间 149
6.1.5 两个多元正态总体 150
6.2 p值与似然比统计量 154
6.2.1 p值法 154
6.2.2 似然比原理 155
6.3 总体均值向量的检验与R语言计算 157
6.3.1 总体均值向量的检验 157
6.3.2 案例与R语言计算 160
6.4 多总体均值向量的检验 161
6.4.1 两正态总体均值向量比较的检验 161
6.4.2 案例与R语言计算 164
6.4.3 多个正态总体均值向量的检验——多元方差分析 165
6.4.4 案例与R语言计算 169
6.5 协方差矩阵的检验 170
6.5.1 单个多元正态总体协方差矩阵的检验 170
6.5.2 球形检验问题 172
6.5.3 均值向量和协方差矩阵的联合检验问题 175
6.5.4 多总体协方差矩阵的检验问题 176
6.5.5 多正态总体均值向量和协方差矩阵的同时检验问题 179
6.6 独立性检验 181
习题6 184
第7章 线性回归模型 189
7.1 多元线性回归分析 189
7.1.1 模型介绍 189
7.1.2 最小二乘估计 194
7.1.3 σ2的估计 195
7.1.4 假设检验 198
7.1.5 预测区间与置信区间 200
7.1.6 R语言函数及应用 201
7.2 回归诊断 205
7.2.1 什么是回归诊断?205
7.2.2 残差 206
7.2.3 残差图 208
7.2.4 影响分析 210
7.2.5 多重共线性 214
7.3 子集选择 218
7.3.1 最优子集选择 218
7.3.2 逐步选择方法 219
7.3.3 最优模型选择 220
7.3.4 案例与R语言计算 223
7.4 压缩估计方法 230
7.4.1 岭回归 231
7.4.2 桥回归 234
7.4.3 惩罚变量选择方法 235
7.5 Lasso:线性回归模型应用 240
7.5.1 Lasso方法 240
7.5.2 自由度 242
7.5.3 调节参数λ的选择 243
7.5.4 案例与R语言计算 243
7.6 SCAD:线性回归模型应用 245
7.6.1 理论结果 245
7.6.2 算法 247
7.6.3 调节参数λ的选择 251
7.6.4 案例与R语言计算 252
7.7 自适应Lasso 254
7.8 高维回归模型:Lasso应用 261
习题7 268
第8章 多元多重回归分析 273
8.1 多元方差分析模型 273
8.1.1 单因子多元方差分析 273
8.1.2 双因子多元方差分析 280
8.2 多元多重回归 284
8.2.1 多响应变量的多元多重回归模型 284
8.2.2 模型参数的估计 286
8.2.3 模型参数的检验 291
8.2.4 多元多重线性回归模型的预测 296
8.2.5 案例分析 297
8.3 多元生长曲线模型 302
习题8 305
第9章 主成分分析 307
9.1 总体主成分分析 307
9.1.1 主成分的定义与导出 307
9.1.2 主成分分析的几何意义 309
9.2 主成分的推导和性质 311
9.2.1 主成分的计算和性质 311
9.2.2 基于标准化的主成分 318
9.3 样本主成分分析 320
9.3.1 基于样本协方差矩阵S的主成分 321
9.3.2 样本主成分的解释 323
9.3.3 标准化的样本主成分 324
9.4 大样本性质 329
9.4.1 特征值和特征向量估计的大样本性质 329
9.4.2 等相关结构的检验 332
9.4.3 主成分的充分性检验 332
9.5 主成分分析在图像处理中的应用 333
9.5.1 图像压缩 333
9.5.2 人脸识别 335
习题9 338
第10章 因子分析 341
10.1 因子分析模型 341
10.2 因子载荷矩阵的估计方法 345
10.2.1 主成分法 345
10.2.2 主因子法 349
10.2.3 极大似然法 353
10.3 因子旋转 358
10.4 因子分析模型的拟合优度检验 364
10.5 因子得分 367
10.5.1 Thomson因子得分 367
10.5.2 Bartlett因子得分 368
10.5.3 Thomson因子得分和Bartlett因子得分比较 371
10.5.4 案例与R语言计算 372
10.6 因子分析与主成分分析的关系 379
习题10 380
第11章 判别分析 383
11.1 判别准则 383
11.1.1 判别准则简介 383
11.1.2 两个总体的情形 384
11.2 两个总体的判别方法 386
11.2.1 先验概率已知的情形 386
11.2.2 先验概率未知的情形 388
11.3 两个已知多元正态分布的判别 389
11.3.1 先验概率已知的情形 389
11.3.2 先验概率不存在的情形 391
11.4 参数未知时两个正态总体的判别 394
11.4.1 判别准则 394
11.4.2 判别准则的分布 395
11.4.3 判别准则的渐近分布 396
11.4.4 极大似然比准则 397
11.5 错判概率 399
11.5.1 基于W错判概率的渐近展开 399
11.5.2 基于Z错判概率的渐近展开 402
11.6 多个总体的判别 404
11.7 多个多元正态分布的判别 407
11.8 案例及R语言计算 410
习题11 423
第12章 聚类分析 428
12.1 距离和相似系数 429
12.1.1 数据预处理 429
12.1.2 样本间的距离 431
12.1.3 相似系数 434
12.1.4 定性变量样本的距离和相似系数 438
12.1.5 定性变量间的相似系数 442
12.2 K均值聚类 445
12.2.1 K均值聚类算法 445
12.2.2 K均值聚类中类个数的确定和应用 448
12.2.3 图像色彩的K均值聚类 451
12.2.4 密度聚类 453
12.3 系统聚类法 457
12.3.1 系统聚类法的思想和算法 457
12.3.2 类间距离和系统聚类法 458
12.3.3 系统聚类法的统一 464
12.3.4 系统聚类法的性质和类的确定 465
12.3.5 系统聚类的R语言计算和应用 470
12.3.6 新的聚类方法 475
12.4 基于统计模型的聚类*475
习题12 480
第13章 典型相关分析 483
13.1 相关系数的定义 483
13.2 总体的典型相关分析 486
13.2.1 总体的典型相关的定义 486
13.2.2 典型相关系数的性质 487
13.3 样本典型相关分析 491
13.3.1 样本典型相关 491
13.3.2 典型相关系数个数的检验 495
13.4 典型相关分析的R语言应用 497
13.4.1 典型相关分析的程序 497
13.4.2 案例分析 500
习题13 504
参考文献 506
“统计与数据科学丛书”已出版书目 512
电子资源获取
《多元统计分析》电子资源的公众号,读者可扫下面二维码进行关注,获取本书相关的电子资源,包括课件、程序、数据和彩图等。电子资源只能用于本书的教学和学习,不得用于商业盈利之目的,请大家遵守版权协议,否则将承担相应后果。
使用本书作为教材的老师,请下载附件的“《多元统计分析》课件申请表”(见下面附件),填写申请表,盖学院或系的公章,扫描并发送电子版到:ligaorong@bnu.edu.cn,文件名以:教师名+学校命名,教师在使用本书课件时,请遵守使用协议。也请各位专家、老师和同学多提宝贵意见。
(本期编辑:王芳)
一起阅读科学!
科学出版社│微信ID:sciencepress-cspm
专业品质 学术价值
原创好读 科学品味
科学出版社视频号
硬核有料 视听科学
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.