用Python实现的多元数据分析与建模实战指南——PDF版深度解析与实例论文
最编程
2024-02-21 18:57:06
...
文章目录
- 一、多元统计基础
- 1.基本定义与样本数据阵
- 2.随机向量的分布
- 3.随机向量数字特征
- 4.随机向量数字特征的性质
- 总结回顾
一、多元统计基础
1.基本定义与样本数据阵
多元统计与一元统计的最大不同,就在于一元统计的样本全部来自一元总体,而多元总体的样本来自多元总体,用多个随机变量刻画它的多个维度。比如,要获得人的身高分布情况,只要对一个人群中体的样本测量身高,这是一个一元随机变量;而要获得人的身高、体重分布情况,每一个样本就要测量身高、体重,这样组成一个二元随机向量。
很显然,随机向量中的每一个分量都是随机变量,那么对多元总体进行分析时,我们能否分开每一个随机变量分量呢?这是不合理的,因为不同的随机变量之间很可能存在着关联。比如身高、体重显然是存在的关联的,所以往往用BMI衡量人的身体质量情况,如果分开研究,就会打破它们之间的联系,失去一部分信息。
因此,多元统计其实是对多维随机向量的研究,而不是对分开的随机变量的研究。为了描述随机向量的性质,我们需要使用一定的概念来描述。要注意的是,以下出现的向量一般都是列向量。
一个总体中每一个个体具有个属性,它们或存在关联或不存在关联,这个属性分别用个随机变量总体来表示。从总体中抽取个样本,每一个样本记作(一般在下标加括号与属性总体区分),这样,每一个样本还可以表示成
将个样本纵向排列,就得到一个矩阵,称为样本数据阵,如下:
样本数据阵的相关概念如下有:
- 第行:代表第个维样本,具有两重性。在观测前,它是维随机向量;在观测后,它是维向量。
- 第列:代表第个属性的个观测值,相当于将样本的每个属性分开研究,每一个构成一个样本容量为的样本。
2.随机向量的分布
对个样本进行研究,用到数理统计的知识,多元情况下也不例外。在一元的情形,数理统计是依赖于概率论,尤其是其中的几个重要分布;因此在进行多元统计之前,有必要对随机向量的分布进行讨论。随机向量的分布,指的是联合分布、边缘分布、条件分布等。
维随机向量的联合分布是一个元函数