SPSS实例教程：无序多分类Logistic回归 -CDA数据分析师官网

SPSS实例教程：无序多分类Logistic回归

2020-12-08

1、问题与数据

为了探讨基因X突变与恶性肿瘤Y不同组织类型发生风险的关系，某医生设计了一项病例对照研究。该医生纳入所在科室一年收治的145名该恶性肿瘤患者，并从医院体检数据库中随机选择了100名未患该肿瘤的体检者作为对照。相关信息整理成表1：

表1 各病例组织类型与突变情况

变量赋值情况如表2：

表2 变量及变量赋值情况

该研究中，“病例”与“对照”的关系不再是简单的“患病”与“不患病”，而是病例分为四类（本例中包含对照组共四类），且各类别无次序关系。或者说，因变量Y不再是二分类的，而是无序多分类的。通过无序多分类的Logistic回归分析可以将三种不同组织类型的病例分别与对照组进行对比，分别得到基因X突变与三种肿瘤组织类型的暴露-风险关系。

3、SPSS分析方法

A. 数据录入SPSS

若数据格式如表1所示，则首先在SPSS变量视图（Variable View）中新建三个变量：ID代表患者编号，Y代表组织类型，X代表是否突变，赋值参考表2.

然后在数据视图（Data View）中录入数据。

B. 选择Analyze → Regression → Multinomial Logistic

C. 选项设置

将变量Y选入因变量（Dependent）位置，变量X选入因子（Factors）位置。如果自变量中还有连续型变量，则需要放入协变量（Covariate）位置。由于因变量Y有多个分类，而无序多分类Logistic回归的原理是先指定一个类别为参考类别，然后将其他类别分别与参考类别对比。故需点击Reference Category设置参考类别（本例中作为参考类别的为对照组）。

SPSS默认选择因变量赋值中按升序排列后最后类别（即赋值最大者）为参考类别（即对照组），而本研究中参考类别Y赋值为0，故可以点击First Category 或直接在Custom中输入0，点击Continue。

如果要分析的自变量不止一个，且要分析不同自变量之间的交互作用，则需点击Model进行设置，否则无需进行设置。

Statistics、Criteria等维持默认设置即可。点击OK，SPSS生成分析结果。

4、结果解读

Case Processing Summary 对数据进行了总结。

Model Fitting Information 给出的模型拟合好坏的信息。其中-2Log Likelihood值越小越好，从结果中可以看出，加入自变量后的模型比只有常数项的模型拟合要好（27.311<80.234），似然比检验（Likelihood Ratio Tests）结果显示这种模型的改善是有统计学意义的（P<0.001），说明自变量X的加入是有统计学意义的。

Likelihood Ratio Tests 与Model Fitting Information给出的信息一致，不再赘述。

Parameter Estimates表格给出了参数估计值。首先在表格的注释a说明了此次回归所使用的参考类别为“对照”，即数据中的对照组。表中给出了三种组织类型肿瘤分别与对照相比的自变量X的回归系数，且三个系数均有统计学意义。

以腺癌组为例，X=0相比于X=1，系数值Exp（B）为0.068，说明基因X未突变者患腺癌的风险是突变者患腺癌风险的0.068倍，将0.068取倒数即为基因X突变者患腺癌风险是未突变者的1/0.068=14.71倍，P（Sig.）<0.001，说明差异有统计学意义。其他两组系数解释同。如果想直接得到X=1 对比 X=0的结果，可以将自变量X当作协变量放入Covariate中，而不作为因子进行分析。或者将自变量反过来，如突变阳性时，X=0；突变阴性时，X=1。

5、结果汇总

基因X突变患者相比于未突变患者，其发生某恶性肿瘤类型为腺癌、鳞癌和大细胞癌的风险分别为14.71（1/0.068，P<0.001），3.66（1/0.273，P=0.002），8.93（1/0.112，P<0.001）倍，均有统计学意义。

6、总结与拓展

1)SPSS结果中会给出Pseudo R-Square，即伪R方，或假R方，与普通线性回归中衡量模型拟合好坏的R方概念类似。但由于Logistic回归中因变量为分类变量，其计算方法与普通线性回归中的R方不同，其值一般较小，可不予关注。

2)无序多分类Logistic回归并非只用于病例对照研究中，只要分析时指定对照，且与指定的对照进行比较得出的回归结果可以说明想探究的问题即可。如在本研究中，若研究者关注的不是基因X突变对不同类别的肿瘤发生的风险情况，而是基因X突变对三种类别肿瘤的发生风险是否有差异，以及差异的大小，那么就不需要纳入对照。

在本例分析中虽然我们可以在数值上看出基因X突变对三种类别肿瘤的发生风险是不同的，但无法从统计学上进行判断，因为这种差异并没有进行统计学检验。要探讨这种差异，可以将参考类别选为三种类别肿瘤中的一中，如想比较腺癌和鳞癌的差异，则可选鳞癌组为对照，这样得出的回归系数即为基因X突变引起两种类别肿瘤发生风险的比值。

3)实际应用中可能也需要调整一些混杂因素变量，若变量为分类型变量则放入因子位置，若为连续型变量则放入协变量位置，其分析和解释与要分析的暴露变量是一致的。

4)可以把无序多分类Logistic回归看作是多个二分类Logistic回归的同时实现。

7、无序多分类Logistic回归适用条件

1)不限于病例对照类型；

2)因变量为分类变量，分类大于两个，且各分类之间并无次序关系。

来CDA学业务数据分析师，SPSS理论结合实战进行项目数据分析，助你成为从事数据采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才，点击了解课程详情！

数据分析师一定要了解的大厂入门券，CDA数据分析师认证证书！

CDA（数据分析师认证），与CFA相似，由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新，迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准，具有专业化、科学化、国际化、系统化等特性。

同时，CDA全栈考试布局和认证体系已得到教育部直属中国成人教育协会及大数据专业委员会认可，并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。

报名方式

登录CDA认证考试官网注册报名>>点击报名

报名费用

Level Ⅰ：1200 RMB

Level Ⅱ：1700 RMB

Level Ⅲ：2000 RMB

考试地点

Level Ⅰ：中国区30+省市，70+城市，250+考场，考生可就近考场预约考试 >看看我所在的地哪里报名<

Level Ⅱ+Ⅲ：中国区30所城市，北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<

报考条件

业务数据分析师 CDA Level I >了解更多<

▷ 报考条件：无要求。

▷ 考试时间：随报随考。

建模分析师 CDA Level II >了解更多<

▷ 报考条件（满足任一即可）：

1、获得CDA Level Ⅰ认证证书；

2、本科及以上学历，需从事数据分析相关工作1年以上；

3、本科以下学历，需从事数据分析相关工作2年以上。

▷ 考试时间：

一年四届 3月、6月、9月、12月的最后一个周六。

大数据分析师 CDA Level II >了解更多<

▷ 报考条件（满足任一即可）：

1、获得CDA Level Ⅰ认证证书；

2、本科及以上学历，需从事数据分析相关工作1年以上；

3、本科以下学历，需从事数据分析相关工作2年以上。

▷ 考试时间：

一年四届 3月、6月、9月、12月的最后一个周六。

数据科学家 CDA Level III >了解更多<

▷ 报考条件（满足任一即可）：

1、获得CDA Level Ⅱ认证证书；

2、本科及以上学历，需从事数据分析相关工作3年以上；

3、本科以下学历，需从事数据分析相关工作4年以上。

▷ 考试时间：

一年四届 3月、6月、9月、12月的最后一个周六。

（备注：数据分析相关工作不限行业，可涉及统计，数据分析，数据挖掘，数据库，数据管理，大数据架构等内容。）

——热门课程推荐：

想学习PYTHON数据分析与金融数字化转型精英训练营，您可以点击>>>“人才转型”了解课程详情；

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

推荐学习书籍
《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析多分类大数据 R方连续型变量二分类大数据分析线性回归

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇利用SAS程序生成系统颜色名称与代码表

下一篇大数据的概念定义及其发展历史

SPSS实例教程：无序多分类Logistic回归

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...