SPSS实例教程：二分类Logistic回归-CDA数据分析师官网

SPSS实例教程：二分类Logistic回归

2017-01-17

SPSS实例教程：二分类Logistic回归

某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析？

表1. 肺癌危险因素分析研究的变量与赋值

表2. 部分原始数据

2、对数据结构的分析

该设计中，因变量为二分类，自变量（病例对照研究中称为暴露因素）有二分类变量（性别、BMI和是否吸烟）、连续变量（年龄）和有序多分类变量（COPD病史）。要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。

在进行二分类Logistic回归（包括其它Logistic回归）分析前，如果样本不多而变量较多，建议先通过单变量分析（t检验、卡方检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。

本例中单变量分析的结果见表3（常作为研究报告或论文中的表1）。

表3. 病例组和对照组暴露因素的单因素比较

单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。

此时，应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，没有发现差异有统计学意义，但是临床上认为与因变量关系密切的自变量。

本研究中，年龄和BMI与因变量没有统计学关联。但是，临床认为年龄也是肺癌发生的可能危险因素，因此Logistic回归模型中，纳入以下自变量：性别、年龄、COPD病史和是否吸烟。

此外，对于连续变量，如果仅仅是为了调整该变量带来的混杂（不关心该变量的OR值），则可以直接将改变量纳入Logistic回归模型；如果关心该变量对因变量的影响程度（关心该变量的OR值），一般不直接将该连续变量纳入模型，而是将连续变量转化为有序多分类变量后纳入模型。这是因为，在Logistic回归中直接纳入连续变量，那么对于该变量的OR值的意义为：该变量每升高一个单位，发生结局事件的风险变化（比如年龄每增加1岁，患肺癌的风险增加1.02倍）。这种解释在临床上大多数是没有意义的。

3、SPSS分析方法

（1）数据录入SPSS

（2）选择Analyze→Regression→Binary Logistic

（3）选项设置

1）主对话框设置：将因变量cancer送入Dependent框中，将纳入模型的自变量sex, age, BMI和COPD变量Covariates中。本研究中，纳入age变量仅仅是为了调整该变量带来的混杂（不关心该变量的OR值），因此将age直接将改变量纳入Logistic回归模型。

对于自变量筛选的方法（Method对话框），SPSS提供了7种选择，使用各种方法的结果略有不同，读者可相互印证。各种方法之间的差别在于变量筛选方法不同，其中Forward: LR法（基于最大似然估计的向前逐步回归法）的结果相对可靠，但最终模型的选择还需要获得专业理论的支持。

2）Categorical设置：该选项可将多分类变量（包括有序多分类和无序多分类）变换成哑变量，指定某一分类为参照。本研究中，COPD是多分类变量，我们指定“无COPD病史”的研究对象为参照组，分别比较“轻/中度”和“重度”组相对于参照组患肺癌的风险变化。

点击Categorical→将左侧Covariates中的COPD变量送入右侧Categorical Covariates中。点击Contrast右侧下拉菜单，选择Indicator（该下拉菜单内的选项是几种与参照比较的方式，Indicator方式最常用，其比较方法为：第一类或最后一类为参照类，每一类与参照类比较）。

在Reference Category的右侧选择First（表示选择变量COPD中，赋值最小的，即“0”作为参照。如果选择Last则表示以赋值最大的作为参照）→点击Change→点击Continue。

3）Options设置中，勾选如下选项及其意义：

Hosmer-Lemeshow goodness-of-fit：检验模型的拟合优度；

CI for exp(B)：结果给出OR值的95%可信区间；

Display→At last step：仅展示变量筛选的最后一步结果。

→Continue→回到主界面→OK

4、结果解读

Logistic回归的结果给出了很多表格，我们仅需要重点关注三个表格。

（1）Omnibus Tests of Model Coefficients：模型系数的综合检验。其中Model一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果。P<0.05表示本次拟合的模型中，纳入的变量中，至少有一个变量的OR值有统计学意义，即模型总体有意义。

（2）Hosmer and Lemeshow Test：是检验模型的拟合优度。当P值不小于检验水准时（即P>0.05），认为当前数据中的信息已经被充分提取，模型拟合优度较高。

（3）Variables in the Equation：

1）本次统计过程中筛选变量的方式是Forward: LR法，Variables in the Equation表格中列出了最终筛选进入模型的变量和其参数。其中Sig.一列表示相应变量在模型中的P值，Exp (B)和95% CI for EXP (B)表示相应变量的OR值和其95%可信区间。

对于sex, smoke这两个二分类变量，OR值的含义为：相对于赋值较低的研究对象（sex赋值为“0”的为女性；smoke赋值为“0”的为不吸烟），赋值较高的研究对象（男性、吸烟者）发生肺癌的风险为是多少（2.308倍、3.446倍）。

2）对于多分类变量COPD，设置中以“0”组作为参照，则得到的结果是“1”组、“2”组分别对应于“0”组的OR值。在Logistic回归中，设置过哑变量的多分类变量是同进同出的，即只要有一组相对于参照组的OR值有统计学意义，则该变量的全部分组均纳入模型。COPD变量的第一行没有OR值，其P值代表该变量总体检验的差异有统计学意义（即至少有一组相对于参照组的OR值有统计学意义）。

3）本研究中的COPD变量以“0”组作为参照，因此COPD (1)行的参数中给出了“1”相对于“0”组的OR值和P值，而在COPD (2)行的参数中给出了“2”组相对于“0”组的OR值和P值。数据分析培训

4）Constant为回归方程的截距，在模型中一般没有实际意义，大家可不必关注。

5、撰写结论

本研究发现，85例肺癌患者中，吸烟者67例（78.8%）；259例非肺癌患者中，吸烟者153例（59.1%），肺癌患者和非肺癌患者中的吸烟率的差异有统计学意义（χ2=10.829, P<0.01）。Logistic回归模型在调整了性别和COPD病史后，吸烟者相对于不吸烟者，发生肺癌的风险增加（OR=3.45, 95% CI: 1.86-6.40）。

多变量分析的结果见表4（常作为研究报告或论文中的表2）。

表4. 肺癌危险因素的Logistic回归分析

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

SPSS实例教程：二分类Logistic回归

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...