欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

你有兴趣花10分钟深入了解数据分析的技巧与方法吗?

最编程 2024-08-01 12:45:57
...

理论介绍:相关性分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。相关分析与回归分析之间的区别:回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。可用相关系数r来衡量两个特征之间的相关性。

相关系数r的解读

  1.  正相关:如果x,y变化的方向一致,如登陆次数和商机用户的关系,r>0;一般地, |r|>0.95 存在显著性相关|r|≥0.8 高度相关;0.5≤|r|<0.8 中度相关0.3≤|r|<0.5 低度相关;|r|<0.3 关系极弱,认为不相关。

  2. 负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0

  3. 无线性相关:r=0。


关于相关系数的计算有三种:

  • ①Pearson相关系数

  • Spearman秩相关系数

  • Kendall相关系数。

注意点:皮尔逊相关系数的计算是数据分布为正太分布,所以计算之前要先进行正态性检验。对于不服从正太分布变量的关联性可用斯皮尔曼相关系数来计算,也叫等级相关系数。

Python结果分析

  1. 首先对数据进行正太性检验,利用scipy里面集成好的K-S检验方法。