理解与应用:一个logistic回归分析的数据统计实例
在上一期我们讲了logistic回归分析的策略,有很多读者朋友反馈理解比较困难,所以本我们用一个案例来解析一下神奇的logistic回归,希望能帮助大家理解。
例:某研究观察某基因对糖尿病抑郁的影响,选择了132名抑郁&糖尿病患者,另选了632名糖尿病患者,检测他们的基因表达,并整理成下表形式。
【分析思路】
步骤1:确定分析方法
该研究是诊断性研究,目的是看基因对抑郁的影响是否有统计学意义。如果该基因对抑郁的影响无统计学意义,本例研究中的两个变量均为二分类变量,分析基因对抑郁的影响既可以用χ2检验,也可以用logistic回归。χ2检验在列联表的分析已有介绍,这里采用logistic回归进行分析。
软件:SAS
结果主要有四部分。
第一部分是模型信息的简单介绍,提示因变量的水平有2个,属于二分类变量,“建模的概率为outcome=1”提示模型是对outcome=1求解。
第二部分是模型拟合优度信息。
当变量中仅含截距项(无任何自变量)时,AIC,SC,-2Logl,值分别为1174.284,1179.043,1172.281,加入自变量即基因后,三个指标的值分别变为1168.589,1178.112,1164.589,均明显降低。提示加入自变量后模型有所改善,表明基因对抑郁的影响有统计学意义。
第三部分是模型总体检验结果。
似然比检验(likelihood ratio)、得分检验(score)和Wald检验均表明,模型总的来讲有统计学意义。这里似然比检验结果实际上就是第二部分结果中包含和不包含自变量的-2LogL值之差。
*小提示:这里得分检验的χ2值等于采用χ2检验所求得的χ2值,似然比检验结果等于χ2检验中的似然比χ2值,有兴趣的朋友可自行验证。
第四部分是参数估计和危险度估计结果。
各自变量的参数估计采用的是Wald χ2检验。由于本例只有一个自变量,因此参数估计结果等同于第三部分结果中的Wald χ2检验值。参数估计结果提示,基因对抑郁的影响有统计学意义(P=0.006)。危险度估计结果显示,基因型“CC+TC”患者发生抑郁的风险是“TT” 基因型患者的 1.536 倍。
*小提示:logistic回归中参数估计与危险度估计的几种联系:参数估计中的Wald χ2值=(参数估计值/标准误)的平方;OR值=EXP(参数估计值),OR值的可信区间为EXP(参数估计值±1.96×标准误);OR值的可信区间如果不含1,则P0.05。
有了参数估计值和标准误,便可推算出P值、OR值及其可信区间,反之亦然。
— THE END —
上一篇: 全面指南:理解 RNA-seq 中的似然比检验(第13部分)
下一篇: 讲讲似然比检验
推荐阅读
-
统计学习 04:假设检验(以 t 检验为例)和 P 值 - 要点 I. 假设检验的一般思路 假设检验 清楚你的问题是什么?期望得出什么结论? 例如,两种药物的疗效是否存在差异,自变量与因变量之间是否存在回归关系 .... 请始终牢记,假设检验回答的是是否存在某种关系的问题:它并不衡量这种关系有多大。 提出两种假设:零假设 (H0) 和备择假设 (H1) 零假设与备择假设相反,一般来说,研究的目的是证明原假设是错误的,即得出备择假设的结论。 例如,如果实验预期希望两种药物的疗效存在差异,那么 H0:μ1 - μ2 = 0;H1:μ1 - μ2 ≠ 0 H0:μ1-μ2 = 0 的一般形式称为双侧检验,而 >、<等零假设称为单侧检验。一般来说双侧检验更为常见,下面也主要介绍这种方法。 单尾或双尾测试 根据原始数据计算零假设概率分布的统计量(t 值、Z 值、F 值等)。 根据问题的性质选择合适的概率检验方法,从而计算出相应的统计量值;因此,不同情况的统计量值有不同的计算方法。 根据计算出的统计量值,利用统计软件,可以知道相应的 p 值是多少 也可以先确定一个合适的显著性水平(0.0.001....),并计算其临界值,再与我们计算出的统计量值进行比较,从而做出判断。 根据第四步的比较结果,如果 p 值小于预期的显著性水平(α,通常设定为 0.05),则认为该统计量远离原假设分布,属于小概率事件,则拒绝原假设,从而接受备择假设。 决定 要点 2:以 t 检验为例,演示上述假设检验思路。 t 检验基于 t 分布,常见的 t 检验有三种,如下图所示,但我认为第三种配对设计可能更常用(零假设:差异是否为零),下面介绍的例子就是一种配对设计 三次 t 检验 举例测量两组大鼠肝脏中维生素 A 的含量,比较两组大鼠维生素 A 含量是否有差异。数据如下 数据 (1) 预计两组大鼠的维生素 A 水平存在差异 (2) H0:μd=0,H1:μd≠0,α=0.05,双侧检验 (3) t 统计量的计算 配方 计算 上述程序计算的是*度为 7 的 t 分布情况下的 t 值。只需理解公式即可,不同的方法有不同的公式,这些交给统计软件即可。
-
实操指南:把线性回归统计模型应用到真实案例中的数据分析实例
-
理解与应用:一个logistic回归分析的数据统计实例
-
理解Logistic回归在人口增长数据分析中的应用