欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

菜鸟也能懂的Logistic回归分析入门指南

最编程 2024-02-12 20:28:42
...

病例对照研究(回顾性调查)

 •病例对照研究(case-control study)

 •研究对象分为病例组、对照组(广义来说阳性组/阴性组) 

 •回顾性比较阳性事件(发病/死亡/有效)前接触某暴露因素的状况

 •通过比较暴露因素在阳性组和对照组的差异性,初步探讨了发生阳性事件有关的原因 • 

 •不仅研究发病的有关原因

 •广义来说,探讨阳性事件发生的影响因素


病例对照研究的基本思维

•如果一项暴露因素影响了结局,比如吸烟提升了肺癌的发生率

•则肺癌人群的过去吸烟比例将高于非肺癌人群


病例对照研究数据整理方式

病例对照研究统计分析过程

(一)统计描述


(二)简单关联性研究方法

     •差异性分析:常用卡方检验

     •或单因素回归分析—logistic回归

关联性指标 OR值,优势比/比数比(oddsratio,OR)

优势(odds)是指二分类事件中一类事件相对于其对立事件的优势。

病例组中优势:暴露数/非暴露数

对照组中优势:暴露数/非暴露数

OR值大于1,提示暴露促进阳性事件的发生;

OR值小于1,提示暴露阻碍阳性事件的发生;

OR值等于1,提示暴露与阳性事件发生无关。


OR值越远离1,暴露对结局的影响程度越大,它几乎可以用倍数或者百分比来反映暴露因素相对结局的影响。

         OR=3,意味着暴露组相对对照组,产生阳性结局的可能性几乎增加2倍

         OR=0.6,意味着暴露组相对对照组,产生阳性结局的可能性几乎减少40%


举例:

例1:某医师基于某医院开展病例对照研究,探讨冠心病发病有关的影响因素,收集新发冠心病患者作为病例组,收集同期医院非循环系统疾病患者作为对照组,研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。数据见casecontrol.sav。


自变量和因变量

步骤(一)

对年龄进行差异性分析    ①正态检验,两组年龄分布    ②t检验,两组差异


正态检验


直方图,近似正态分布,用t检验


t检验

步骤(二)

对分类变量进行卡方检验,计算OR值、P值

以高血压为例,卡方检验,卡方值为20.72,P<0.001,OR值为4.680,95%CI为2.37-9.26。这一结果可以通俗的理解为,高血压患者将增加冠心病发病风险3.68倍左右(不过请一定要记住:这是通俗的理解,3.68倍也大概值而非精确值,原因后续再分析)。

步骤(三)

差异性分析结果可以合并成一张总表:表格有两种形式,不带OR值和带OR值。

                                                                               不带OR值

带OR值

(三)多因素Logistic回归分析方法

多因素回归分析操作步骤 Analyze → regression → binary logistic


模型效果评价

Omnibus Tests of model Coefficients  结果里面的三行分别指的是:

步骤(step)统计量是每一步与前一步的似然比检验结果,

块(block)是指将blockn与block n-1 相比的似然比检验结果,

模型(model) 一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果,这是总体评价的关键检验。P<0.05表示本次拟合的模型中,纳入的变量中,至少有一个变量的OR值有统计学意义,即模型总体有意义。

Omnibus Tests of model Coefficients :指的是对模型的总的全局检验,为似然比检验。模型成功性进行判定

量化评价拟合优度效果。

-2对似然值(-2log likelihood,-2LL))是模型评价重要的指标,该值越小越好,可以用于不同模型评价效果。

质性评价拟合优度效果。

霍斯黙-莱梅肖拟合优度检验(Hosmer-Lemesho,H-L检验)可以用于评价模型是否充分利用了现有的信息最大化地拟合了模型、解释了模型的变异。该研究若P>0.05,则可说明模型拟合优度效果较好,若P<0.05,则说明可以模型构建效果欠佳。


主要回归结果分析

核心分析的结果:Logistic回归分析分别回归系数b值、b值的标准误、Wald卡方值(瓦尔德)、*度、P值(显著性)、OR值(ExpB)及其置信区间。

Wald 卡方值(瓦尔德)和P值是对回归系数b值的假设检验。P<0.05,

说明该变量对结局的影响具有统计学意义;本例,性别、年龄、心电图表现、有无高血压变量对结果具有统计学意义

Exp B即OR值,与回归系数的关系是e^b值。OR值置信区间与P值的关系是:当P<0.05,则置信区间不包括1;当P>0.05,则置信区间包括1。

SPSS分析中,阳性事件指的是数据库结局变量赋值较大的结局

SPSS统计分析在二分类自变量的影响时,默认是以自变量赋值较低作为对照,探讨赋值较大者能否相对能否增加阳性事件概率。


规范文字1:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常对冠心病的影响具有统计学意义(OR=3.40,95%CI 1.81-6.37, P<0.001);年龄对冠心病的影响具有统计学意义(OR=1.09, 95%CI 1.03-1.15, P=0.001); 性别对冠心病的影响具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压状况对对冠心病的影响具有统计学意义(OR=10.81,95%CI4.15-28.20, P<0.001)。

规范文字2:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常等级增加将增加冠心病的风险,具有统计学意义(OR=3.40,95%CI1.81-6.37, P<0.001);年龄越大冠心病风险越高,具有统计学意义(OR=1.09,95%CI 1.03-1.15, P=0.001);相对女性,男性增加冠心病发生的风险,差异具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压增加冠心病的风险,差异具有统计学意义(OR=10.81,95%CI4.15-28.20, P<0.001)。

特别提醒:Logistic回归OR值不能代表风险增加的准确倍数,因此文字描述,切勿说相对女性,男性增加冠心病风险5.24倍的说法。



变量赋值注意事项

OR值大于1是暴露促进结局变量赋值较大值事件的发生(比如赋值1)

构建数据库时,暴露编码值要大于对照(一般分别设置1和0)

目标阳性事件的编码要大于对照组,最好就设置1和0(比如冠心病这一结局变量,未患冠心病者赋值0作为对照,冠心病患者赋值为1作为阳性事件组)