用Python实现的多元数据分析与建模实战指南——PDF版深度解析与实例论文

最编程 2024-02-21 18:57:06

...

文章目录

一、多元统计基础

1.基本定义与样本数据阵
2.随机向量的分布
3.随机向量数字特征
4.随机向量数字特征的性质
总结回顾

一、多元统计基础

1.基本定义与样本数据阵

多元统计与一元统计的最大不同，就在于一元统计的样本全部来自一元总体，而多元总体的样本来自多元总体，用多个随机变量刻画它的多个维度。比如，要获得人的身高分布情况，只要对一个人群中体的样本测量身高，这是一个一元随机变量；而要获得人的身高、体重分布情况，每一个样本就要测量身高、体重，这样组成一个二元随机向量。

很显然，随机向量中的每一个分量都是随机变量，那么对多元总体进行分析时，我们能否分开每一个随机变量分量呢？这是不合理的，因为不同的随机变量之间很可能存在着关联。比如身高、体重显然是存在的关联的，所以往往用BMI衡量人的身体质量情况，如果分开研究，就会打破它们之间的联系，失去一部分信息。

因此，多元统计其实是对多维随机向量的研究，而不是对分开的随机变量的研究。为了描述随机向量的性质，我们需要使用一定的概念来描述。要注意的是，以下出现的向量一般都是列向量。

一个总体中每一个个体具有个属性，它们或存在关联或不存在关联，这个属性分别用个随机变量总体来表示。从总体中抽取个样本，每一个样本记作（一般在下标加括号与属性总体区分），这样，每一个样本还可以表示成

将个样本纵向排列，就得到一个矩阵，称为样本数据阵，如下：

样本数据阵的相关概念如下有：

第行：代表第个维样本，具有两重性。在观测前，它是维随机向量；在观测后，它是维向量。
第列：代表第个属性的个观测值，相当于将样本的每个属性分开研究，每一个构成一个样本容量为的样本。

2.随机向量的分布

对个样本进行研究，用到数理统计的知识，多元情况下也不例外。在一元的情形，数理统计是依赖于概率论，尤其是其中的几个重要分布；因此在进行多元统计之前，有必要对随机向量的分布进行讨论。随机向量的分布，指的是联合分布、边缘分布、条件分布等。

维随机向量的联合分布是一个元函数

上一篇： Python实用教程：多元回归分析实战范例

下一篇：如何使用R语言搭建混合效应模型

用Python实现的多元数据分析与建模实战指南——PDF版深度解析与实例论文

文章目录

一、多元统计基础

1.基本定义与样本数据阵

2.随机向量的分布

用Python实现的多元数据分析与建模教学PDF资料

用Python实现的多元数据分析与建模实战指南——PDF版深度解析与实例论文