欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

用Python实现的多元数据分析与建模实战指南——PDF版深度解析与实例论文

最编程 2024-02-21 18:57:06
...



文章目录

  • 一、多元统计基础
  • 1.基本定义与样本数据阵
  • 2.随机向量的分布
  • 3.随机向量数字特征
  • 4.随机向量数字特征的性质
  • 总结回顾


一、多元统计基础

1.基本定义与样本数据阵

多元统计与一元统计的最大不同,就在于一元统计的样本全部来自一元总体,而多元总体的样本来自多元总体,用多个随机变量刻画它的多个维度。比如,要获得人的身高分布情况,只要对一个人群中体的样本测量身高,这是一个一元随机变量;而要获得人的身高、体重分布情况,每一个样本就要测量身高、体重,这样组成一个二元随机向量。

很显然,随机向量中的每一个分量都是随机变量,那么对多元总体进行分析时,我们能否分开每一个随机变量分量呢?这是不合理的,因为不同的随机变量之间很可能存在着关联。比如身高、体重显然是存在的关联的,所以往往用BMI衡量人的身体质量情况,如果分开研究,就会打破它们之间的联系,失去一部分信息。

因此,多元统计其实是对多维随机向量的研究,而不是对分开的随机变量的研究。为了描述随机向量的性质,我们需要使用一定的概念来描述。要注意的是,以下出现的向量一般都是列向量

一个总体中每一个个体具有 个属性,它们或存在关联或不存在关联,这 个属性分别用 个随机变量总体 来表示。从总体 中抽取 个样本,每一个样本记作 (一般在下标加括号与属性总体区分),这样,每一个样本还可以表示成

个样本纵向排列,就得到一个 矩阵,称为样本数据阵,如下:
Missing \end{bmatrix} X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}
样本数据阵的相关概念如下有:

  • :代表第 维样本,具有两重性。在观测前,它是 维随机向量;在观测后,它是 维向量。
  • :代表第 个属性的 个观测值,相当于将样本的每个属性分开研究,每一个构成一个样本容量为 的样本。

2.随机向量的分布

个样本进行研究,用到数理统计的知识,多元情况下也不例外。在一元的情形,数理统计是依赖于概率论,尤其是其中的几个重要分布;因此在进行多元统计之前,有必要对随机向量的分布进行讨论。随机向量的分布,指的是联合分布、边缘分布、条件分布等。

维随机向量 联合分布是一个 元函数

上一篇: Python实用教程:多元回归分析实战范例

下一篇: 如何使用R语言搭建混合效应模型