菜鸟也能懂的Logistic回归分析入门指南

最编程 2024-02-12 20:28:42

...

病例对照研究（回顾性调查）

•病例对照研究（case-control study）

•研究对象分为病例组、对照组（广义来说阳性组/阴性组）

•回顾性比较阳性事件（发病/死亡/有效）前接触某暴露因素的状况

•通过比较暴露因素在阳性组和对照组的差异性，初步探讨了发生阳性事件有关的原因 •

•不仅研究发病的有关原因

•广义来说，探讨阳性事件发生的影响因素

病例对照研究的基本思维

•如果一项暴露因素影响了结局，比如吸烟提升了肺癌的发生率

•则肺癌人群的过去吸烟比例将高于非肺癌人群

病例对照研究数据整理方式

病例对照研究统计分析过程

（一）统计描述

（二）简单关联性研究方法

•差异性分析：常用卡方检验

•或单因素回归分析—logistic回归

关联性指标 OR值，优势比/比数比(oddsratio，OR)

优势（odds）是指二分类事件中一类事件相对于其对立事件的优势。

病例组中优势：暴露数/非暴露数

对照组中优势：暴露数/非暴露数

OR值大于1，提示暴露促进阳性事件的发生；

OR值小于1，提示暴露阻碍阳性事件的发生；

OR值等于1，提示暴露与阳性事件发生无关。

OR值越远离1，暴露对结局的影响程度越大，它几乎可以用倍数或者百分比来反映暴露因素相对结局的影响。

OR=3，意味着暴露组相对对照组，产生阳性结局的可能性几乎增加2倍

OR=0.6，意味着暴露组相对对照组，产生阳性结局的可能性几乎减少40%

举例：

例1：某医师基于某医院开展病例对照研究，探讨冠心病发病有关的影响因素，收集新发冠心病患者作为病例组，收集同期医院非循环系统疾病患者作为对照组，研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。数据见casecontrol.sav。

自变量和因变量

步骤（一）

对年龄进行差异性分析 ①正态检验，两组年龄分布 ②t检验，两组差异

正态检验

直方图，近似正态分布，用t检验

t检验

步骤（二）

对分类变量进行卡方检验，计算OR值、P值

以高血压为例，卡方检验，卡方值为20.72，P<0.001，OR值为4.680，95%CI为2.37-9.26。这一结果可以通俗的理解为，高血压患者将增加冠心病发病风险3.68倍左右（不过请一定要记住：这是通俗的理解，3.68倍也大概值而非精确值，原因后续再分析）。

步骤（三）

差异性分析结果可以合并成一张总表：表格有两种形式，不带OR值和带OR值。

不带OR值

带OR值

（三）多因素Logistic回归分析方法

多因素回归分析操作步骤 Analyze → regression → binary logistic

模型效果评价

Omnibus Tests of model Coefficients 结果里面的三行分别指的是：

步骤（step）统计量是每一步与前一步的似然比检验结果，

块（block）是指将blockn与block n-1 相比的似然比检验结果，

模型（model) 一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果，这是总体评价的关键检验。P<0.05表示本次拟合的模型中，纳入的变量中，至少有一个变量的OR值有统计学意义，即模型总体有意义。

Omnibus Tests of model Coefficients ：指的是对模型的总的全局检验，为似然比检验。模型成功性进行判定

量化评价拟合优度效果。

-2对似然值（-2log likelihood，-2LL)）是模型评价重要的指标，该值越小越好，可以用于不同模型评价效果。

质性评价拟合优度效果。

霍斯黙-莱梅肖拟合优度检验（Hosmer-Lemesho，H-L检验）可以用于评价模型是否充分利用了现有的信息最大化地拟合了模型、解释了模型的变异。该研究若P>0.05，则可说明模型拟合优度效果较好，若P<0.05，则说明可以模型构建效果欠佳。

主要回归结果分析

核心分析的结果：Logistic回归分析分别回归系数b值、b值的标准误、Wald卡方值（瓦尔德）、*度、P值（显著性）、OR值（ExpB）及其置信区间。

Wald 卡方值（瓦尔德）和P值是对回归系数b值的假设检验。P<0.05,

说明该变量对结局的影响具有统计学意义；本例，性别、年龄、心电图表现、有无高血压变量对结果具有统计学意义

Exp B即OR值，与回归系数的关系是e^b值。OR值置信区间与P值的关系是：当P<0.05，则置信区间不包括1；当P>0.05，则置信区间包括1。

SPSS分析中，阳性事件指的是数据库结局变量赋值较大的结局

SPSS统计分析在二分类自变量的影响时，默认是以自变量赋值较低作为对照，探讨赋值较大者能否相对能否增加阳性事件概率。

规范文字1：纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现：心电图异常对冠心病的影响具有统计学意义（OR=3.40,95%CI 1.81-6.37, P<0.001）；年龄对冠心病的影响具有统计学意义（OR=1.09, 95%CI 1.03-1.15, P=0.001）；性别对冠心病的影响具有统计学意义（OR=6.24，95%CI 2.50-15.56, P<0.001）；高血压状况对对冠心病的影响具有统计学意义（OR=10.81,95%CI4.15-28.20, P<0.001）。

规范文字2：纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现：心电图异常等级增加将增加冠心病的风险，具有统计学意义（OR=3.40,95%CI1.81-6.37, P<0.001）；年龄越大冠心病风险越高，具有统计学意义（OR=1.09,95%CI 1.03-1.15, P=0.001）；相对女性，男性增加冠心病发生的风险，差异具有统计学意义（OR=6.24，95%CI 2.50-15.56, P<0.001）；高血压增加冠心病的风险，差异具有统计学意义（OR=10.81,95%CI4.15-28.20, P<0.001）。

特别提醒：Logistic回归OR值不能代表风险增加的准确倍数，因此文字描述，切勿说相对女性，男性增加冠心病风险5.24倍的说法。

变量赋值注意事项

OR值大于1是暴露促进结局变量赋值较大值事件的发生（比如赋值1）

构建数据库时，暴露编码值要大于对照（一般分别设置1和0）

目标阳性事件的编码要大于对照组，最好就设置1和0（比如冠心病这一结局变量，未患冠心病者赋值0作为对照，冠心病患者赋值为1作为阳性事件组）

上一篇：如何使用代码计算孟德尔随机化所需的样本量和统计功效？——详解3.2节

下一篇：用R语言实现卡方检验的方法

菜鸟也能懂的Logistic回归分析入门指南

病例对照研究（回顾性调查）

病例对照研究的基本思维

病例对照研究数据整理方式

病例对照研究统计分析过程

（一）统计描述

（二）简单关联性研究方法

关联性指标 OR值，优势比/比数比(oddsratio，OR)

OR值大于1，提示暴露促进阳性事件的发生；

OR值小于1，提示暴露阻碍阳性事件的发生；

OR值等于1，提示暴露与阳性事件发生无关。

举例：

（三）多因素Logistic回归分析方法

模型效果评价

主要回归结果分析

特别提醒：Logistic回归OR值不能代表风险增加的准确倍数，因此文字描述，切勿说相对女性，男性增加冠心病风险5.24倍的说法。

变量赋值注意事项

菜鸟也能懂的Logistic回归分析入门指南

菜鸟也能懂的前端开发入门教程

菜鸟也能懂！从入门到放弃的CTF二进制分析(之二)-彻底搞懂gdb的使用方法

菜鸟也能懂的IDEA入门指南

小白也能懂的GPU入门指南

菜鸟也能懂！微波炉使用指南（微波炉加热食物的原理大揭秘）

小白也能懂！互联网信息经营许可证(ICP)的入门指南

小白也能懂的微信小程序入门指南

小白也能懂！用Python爬取豆瓣图书信息的入门指南