方言空间统计 IV:P 值和 Z 值(中)
要说P、Z之前(本文的P、Z写法,请忽略大小写),我们先看看一个中学化学的概念:PH值。
另外,还要纠正一个说法,p 是一个值(p value),而z是一个得分(z scores),上篇文章中,称谓出错了。
就像上面那个PH试纸的标尺,从中间往两边延伸,表示酸碱的强度。理论上,自然界的物质,基本上以7为中心的泊松分布,就像下面这样:
相对于极度的强酸和极度的强碱,在自然界中的含量都是比较少的,更多的都是中性或者是弱酸或者弱碱的物质。
PH值就是用来度量酸碱度的东东,那么我们今天要说的P、Z就类似于PH值这样一个概念,也是用来衡量空间分布模式,而且最关键的,它的值也有一个和PH试纸一样的参考标尺。
首先看看,空间分布的模式,一般来说,有三种,分别是离散的、随机的、和聚合的。
离散的概念就是指观测的每个数据之间的差异程度,离散程度越大,差异性就越大。
聚合与离散正好相反,表示在一定区域内的相关程度,就是聚合程度越大,相关性就越大。
随机就不用说了,纯粹的无模式,你既不能从随机数据中获取结论,也发现不了规律和模式。
拿到数据之后,我们都要进行零假设,然后验证这份数据是不是具有随机模式,如果有很大的概率是随机模式,那么这份数据的可分析性,基本上就微乎其微了(比如布朗运动的运动规律,估计没有哪个人会无聊的去做研究,一方面根本就研究不出什么结果来嘛,另一方面是随机结果的分析也不具有可重现性)。
P值和Z得分分别表什么呢?
p值(P-Value,Probability,Pr),代表的是概率。它是反映某一事件发生的可能性大小。在空间相关性的分析中,p 值表示所观测到的空间模式是由某一随机过程创建而成的概率。比如我说,你计算出来的p值是1,那就表示你用于计算的这份数据,100%是随机生成的了(当然,不可能是1的,0.5以上就也不得了)。如果是0.1,就表示只有10%的可能性是随机生成的结果。
这样看来,p值是越小越好,但是小到什么样的程度才会最好呢?后面我们会就这个问题继续讨论。
z得分(Z scores)表示标准差的倍数(standard deviations)。
先看看“标准差”是什么,在官方的解释是:“总体各单位标准值与其平均数离差平方的算术平均数的平方根”,好吧,我知道这个概念有点绕口,你就知道记住“标准差能反映一个数据集的离散程度”,就可以了。
那么z得分,就是标准差的倍数(有正负之分),比如z得分是+2.5,就表示你的数据计算出来,得到的结果是标准差的正2.5倍,那么就表示数据已经高度聚集了。反之,如果你算出来的是-2.5,那么就表示你的结果是标准差的负2.5倍,就是高度离散的数据了。
P值和Z得分,一般都是一起出现的,如下图所示:
可以看见,p值与z值是有相关性的。上面这个标尺就是p值和z得分的"PH试纸标准比色卡"。
按照这个分布趋势,我们可以看出,数据高度聚集和高度离散,都是小概率的事件。如果你计算出来的p值和z得分,被分布在了两端,就说明你的数据出现随机模式的概率非常低了。
一般来说,要进行数据分析,我们首先就要设立一个置信度,也就是说,你要设定你的数据,起码要有多大的可能性,被落在你期望的区间内。
如,一拿到数据,我们最先就要想,这份数据起码应该有绝大部分的值,不是随机的(也就说,是应该有规律的),这个绝大部分到底应该被量化为多少呢?一般来说,我们会选择90%,或者95%或者99%。那么99%是最极端的情况,表示你能够完全的确认,这份数据没有任何的随机可能(只有1%的可能是随机创建的),完全的接受了零假设。
下表显示了不同置信度下未经校正的临界 p 值和临界 z 得分。
z 得分(标准差) |
p 值(概率) |
置信度 |
< -1.65 或 > +1.65 |
< 0.10 |
90% |
< -1.96 或 > +1.96 |
< 0.05 |
95% |
< -2.58 或 > +2.58 |
< 0.01 |
99% |
“未经校正”就所谓的“经验参数”,当然还有一个“错误发现率 (FDR)”工具,可以对p 值的临界点进行校正。这些校正后临界值会等于或小于上面的表所示的值。
对于这个FDR工具,先挖个坑,以后填。
最后,我们最后来解读一份数据
这个是通过ArcMap的全局莫兰指数计算出来的结果,我们暂时跳过期望指数和方差,直接看我们这几天讲的内容。
莫兰指数是大于0.7,z得分是大于1.96,p值为大于0.04小于0.05,对照上面那个对比标尺,所以就能得出以下的结果:
1、莫兰指数是正数,而且大于0.7,就表示这份数据具有空间正相关性,数据集的用于分析的值与空间聚集度成正比。
2、p值小于0.05,所以本数据是随机生成的概率只有5%(95%的置信度)。
3、z得分大于1.96,说明这份数据的呈现了明显的聚类特征。
那么总体说,p值代表数据来源的可靠性,z得分和莫兰指数都表示此数据有明显的规律。
最后来看看,这是一份什么数据:
这是北京市2013年9月的房价数据(友情感谢小强同学提供)。这份数据是通过爬虫从网络上扒下来的,自然不会是随机生成,而且房价的数据确实是明显有聚集特性和空间正相关的。
这样,通过计算,验证了我们的猜测和观点。
关于P值和Z得分的内容,后面还有,未完待续。
前面的文章,可以先关注虾神的公众号,然后查看历史信息就行。或者点击原文链接,去看虾神我的博客。
推荐阅读
-
正负偏差变量 即 d2+、d2- 分别表示决策值中超出和未达到目标值的部分。而 di+、di- 均大于 0 刚性约束和目标约束(柔性目标约束有偏差) 在多目标规划中,>=/<= 在刚性约束中保持不变。当需要将约束条件转换为柔性约束条件时,需要将 >=/<= 更改为 =(因为已经有 d2+、d2- 用来表示正负偏差),并附加上 (+dii-di+) 注意这里是 +di、-di+!之所以是 +di,-di+,是因为需要将目标还原为最接近的原始刚性约束条件 优先级因素和权重因素 对多个目标进行优先排序和优先排序 目标规划的目标函数 是所有偏差变量的加权和。值得注意的是,这个加权和都取最小值。而 di+ 和 dii- 并不一定要出现在每个不同的需求层次中。具体分析需要具体问题具体分析 下面是一个例子: 题目中说设备 B 既要求充分利用,又要求尽可能不加班,那么列出的时间计量表达式即为:min z = P3 (d3- + d3 +) 使用 + 而不是 -d3 + 的原因是:正负偏差不可能同时存在,必须有 di+di=0 (因为判定值不可能同时大于目标值和小于目标值),而前面是 min,所以只要取 + 并让 di+ 和 dii- 都为正值即可。因此,得出以下规则: 最后,给出示例和相应的解法: 问题:某企业生产 A 和 B 两种产品,需要使用 A、B、C 三种设备。下表显示了与工时和设备使用限制有关的产品利润率。问该企业应如何组织生产以实现下列目标? (1) 力争利润目标不低于 1 500 美元; (2) 考虑到市场需求,A、B 两种产品的生产比例应尽量保持在 1:2; (3)设备 A 是贵重设备,严禁超时使用; (4)设备 C 可以适当加班,但要控制;设备 B 要求充分利用,但尽量不加班。 从重要性来看,设备 B 的重要性是设备 C 的三倍。 建立相应的目标规划模型并求解。 解:设企业生产 A、B 两种产品的件数分别为 x1、x2,并建立相应的目标计划模型: 以下为顺序求解法,利用 LINGO 求解: 1 级目标: 模型。 设置。 variable/1..2/:x;! s_con_num/1...4/:g,dplus,dminus;!所需软约束数量(g=dplus=dminus 数量)及相关参数; s_con(s_con_num);! s_con(s_con_num,variable):c;!软约束系数; 结束集 数据。 g=1500 0 16 15. c=200 300 2 -1 4 0 0 5; 结束数据 min=dminus(1);!第一个目标函数;!对应于 min=z 的第一小部分;! 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); !使用设置完成的数据构建软约束表达式; ! !软约束表达式 @for(variable:@gin(x)); !将变量约束为整数; ! 结束 此时,第一级目标的最优值为 0,第一级偏差为 0: 第二级目标: !求 dminus(1)=0,然后求解第二级目标。 模型。 设置。 变量/1..2/:x;!设置:变量/1..2/:x; ! s_con_num/1...4/:g,dplus,dminus;!软约束数量及相关参数; s_con(s_con_num(s_con_num));! s_con(s_con_num,variable):c;! 软约束系数; s_con(s_con_num,variable):c;! 结束集 数据。 g=1500 0 16 15; c=200 300 2 -1 4 0 0 5; 结束数据 min=dminus(2)+dplus(2);!第二个目标函数 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ! 软约束表达式;! dminus(1)=0; !第一个目标结果 @for(variable:@gin(x)); ! 结束 此时,第二个目标的最优值为 0,偏差为 0: 第三目标 !求 dminus(2)=0,然后求解第三个目标。 模型。 设置。 变量/1..2/:x;!设置:变量/1..2/:x; ! s_con_num/1...4/:g,dplus,dminus;!软约束数量及相关参数; s_con(s_con_num(s_con_num));! s_con(s_con_num,variable):c;! 软约束系数; s_con(s_con_num,variable):c;! 结束集 数据。 g=1500 0 16 15; c=200 300 2 -1 4 0 0 5; 结束数据 min=3*dminus(3)+3*dplus(3)+dminus(4);!第三个目标函数。 2*x(1)+2*x(2)<12;!硬约束 @for(s_con_num(i):@sum(variable(j):c(i,j)*x(j))+dminus(i)-dplus(i)=g(i)); ! 软约束表达式;! dminus(1)=0; !第一个目标约束条件; ! dminus(2)+dplus(2)=0; !第二个目标约束条件 @for(variable:@gin(x));! 结束 最终结果为 x1=2,x2=4,dplus(1)=100,最优利润为
-
统计学习 04:假设检验(以 t 检验为例)和 P 值 - 要点 I. 假设检验的一般思路 假设检验 清楚你的问题是什么?期望得出什么结论? 例如,两种药物的疗效是否存在差异,自变量与因变量之间是否存在回归关系 .... 请始终牢记,假设检验回答的是是否存在某种关系的问题:它并不衡量这种关系有多大。 提出两种假设:零假设 (H0) 和备择假设 (H1) 零假设与备择假设相反,一般来说,研究的目的是证明原假设是错误的,即得出备择假设的结论。 例如,如果实验预期希望两种药物的疗效存在差异,那么 H0:μ1 - μ2 = 0;H1:μ1 - μ2 ≠ 0 H0:μ1-μ2 = 0 的一般形式称为双侧检验,而 >、<等零假设称为单侧检验。一般来说双侧检验更为常见,下面也主要介绍这种方法。 单尾或双尾测试 根据原始数据计算零假设概率分布的统计量(t 值、Z 值、F 值等)。 根据问题的性质选择合适的概率检验方法,从而计算出相应的统计量值;因此,不同情况的统计量值有不同的计算方法。 根据计算出的统计量值,利用统计软件,可以知道相应的 p 值是多少 也可以先确定一个合适的显著性水平(0.0.001....),并计算其临界值,再与我们计算出的统计量值进行比较,从而做出判断。 根据第四步的比较结果,如果 p 值小于预期的显著性水平(α,通常设定为 0.05),则认为该统计量远离原假设分布,属于小概率事件,则拒绝原假设,从而接受备择假设。 决定 要点 2:以 t 检验为例,演示上述假设检验思路。 t 检验基于 t 分布,常见的 t 检验有三种,如下图所示,但我认为第三种配对设计可能更常用(零假设:差异是否为零),下面介绍的例子就是一种配对设计 三次 t 检验 举例测量两组大鼠肝脏中维生素 A 的含量,比较两组大鼠维生素 A 含量是否有差异。数据如下 数据 (1) 预计两组大鼠的维生素 A 水平存在差异 (2) H0:μd=0,H1:μd≠0,α=0.05,双侧检验 (3) t 统计量的计算 配方 计算 上述程序计算的是*度为 7 的 t 分布情况下的 t 值。只需理解公式即可,不同的方法有不同的公式,这些交给统计软件即可。
-
方言空间统计 IV:P 值和 Z 值(中)