SPSS分析技术:二元logistic回归-CDA数据分析师官网

SPSS分析技术:二元logistic回归

2017-07-11

SPSS分析技术:二元logistic回归

今天我们介绍另外一种应用范围更加广泛的回归分析方法：二元logistic回归。

应用背景

数据分析技术在实际应用过程中，大量的研究都需要对只有“是”和“否”两种选择的结论给予解释，即研究中的因变量并不是常用的定距变量和定序变量，而是仅有两种状态的二分变量。针对这种变量的回归分析称为二元Logistic回归分析技术。二元Logistic回归分析是一种多元回归分析，这里的二元不是自变量个数，而是指因变量的取值范围，与多元回归分析中的多元代表自变量个数截然不同。

例如，作为汽车销售商，其最关心的问题是顾客是否会购买某种品牌小汽车，为了预测未来顾客的购车可能性，汽车销售商可以采集半年来咨询该种小汽车的顾客的基本信息，以这些顾客最终是否购买了小汽车作为因变量，以顾客的职业、文化程度、收入情况、民族、宗教、喜好等因素作为自变量、借助二元Logistic回归分析技术，构造顾客购买此品牌小汽车的回归方程。然后，汽车销售商就可以以此回归方程式为依据，对前来咨询的顾客做出初步判定。这就是二元Logistic回归分析的主要目的。

理论基础

在因变量取值只能是0和1时，虽然从理论上讲无法直接使用一般多元线性回归模型建模，但是如果借助普通多元线性回归模型研究该问题，则在大量个案的情况下，所获得的因变量的均值将是因变量取“真”值时的概率。由此，可以得到初步想法：把因变量取值为1的概率作为新的因变量，把二元回归分析转化为针对新因变量的普通多元线性回归。

由于在二元回归模型中，因变量取值为1的概率P的值应在0~1之间。在借助普通多元线性回归模型解释二元回归中的概率P时，模型中的因变量与概率值之间的关系是线性的，然而在实际应用中，这个概率值与因变量之间往往是一种非线性关系。例如，在一定的条件范围内，购买新型手机的概率与收入增长情况呈正比，但这种情况并不稳定，经常是在收入增长初期，购买新手机的概率增长得比较缓慢，当收入增长到一定水平后，购买新手机的概率会快速增长，但当收入增长到某个数额后，购买新手机的概率人会增长，但增长速度已经逐渐变缓，对这样的概率P进行必要的转化，使之符合常规线性模型，例如下式：

上式就是Logistic函数，它是在增长函数的基础上，针对二元回归中的概率P值所做的专门变形。如果将上式推广到多元线性回归公式，就形成了针对二分变量的多元回归分析。

参数求解

二元Logistic回归方程的参数求解采用极大似然估计法。极大似然估计是一种在总体分布密度函数和样本信息的基础上，求解模型中未知参数估计值的方法，它基于总体的分布密度函数来构造一个包含未知参数的似然函数，并求解在似然函数值最大情况下的未知参数的估计值。在这一原则下得到的模型，其产生的样本数据的分布与总体分布相近的可能性最大。因此，似然函数的函数值实际上也是一种概率值，它反映了在所确定拟合模型为真时，该模型能够较好的拟合样本数据的可能性，所以似然函数的取值也是0~1。

Logistic回归系数显著性检验的目的是逐个检验模型中各个自变量是否与LogitP有显著的线性关系，对于解释LogitP是否有重要贡献。在二元Logistic回归分析中，对回归系数的判定统计量是Wald统计量。Wald统计量的原理与普通线性回归分析中的T值的概念相似。Wald值越大，表示回归系数的影响力越显著。

二元Logistic回归分析也是一种多元回归分析，在面临多个自变量时，同样存在着自变量的筛选标准和自变量进入方程的顺序问题。

自变量筛选方法

极大似然估计的方法；极大似然估计方法，即基于极大似然估计算法对每个待选自变量进行评价，以便确定该自变量是否进入方程。似然比检验的原理是通过分析模型中自变量的变化对似然比的影响来检验增加或减少自变量的值是否对因变量有统计学上的显著意义。

采用Wald检验方法；这是一种类似T检验的自变量筛选方法，根据二元数据处理的特点，人们对T检验的算法进行了扩展，剔提出了Wald统计量，通过检查Wald统计量的强度，以确定相对应的自变量能否进入方程。

采取比分检验方式；在已经设计好的回归模型的基础上增加一个变量，并假设新变量的回归系数为0,。此时以似然函数的一阶偏导和信息矩阵的乘积作为比分检验的统计量S。在样本量较大时，S服从自由度为检验参数个数的卡方分布。然后借助卡方分布的原理对自变量实施判定。

自变量进入方程顺序

直接进入方式；所谓直接进入，就是所有给定自变量都进入到回归方程中。在最终的回归方程中，应该包含全部自变量。直接进入方式的最大缺点是需要用户根据回归分析的输出表格，人工判定回归方程的质量和各个回归系数的质量。

逐个进入法；逐个进入发，也叫向前法。其思路是对于给定自变量，按照其检验概率的显著性程度选择最优的自变量，把它依次加入到方程中，然后按照选定的筛选技术进行自变量的判定。在SPSS的二元Logistic回归分析中，对于自变量的筛选，在向前方式下，分别有条件、似然和Wald三种筛选方法。

向后，逐渐剔除法；逐个剔除法的基本思路是对于给定自变量，先全部进入方程，按照其检验概率P的显著性水平一次选择最差的自变量，从方程中剔除。在SPSS的二元Logistic回归分析中，对于自变量的剔除，在向后方式下，也分别有条件、LR和Wald三种筛选技术。

回归方程质量评价

二元Logistic回归分析也提供了类似于线性回归的判定系数R方，F值和Sig值的专门数据指标。

判定系数；在二元Logistic回归分析中，衡量其拟合程度高低的指标是二元回归分析的判定系数，它叫“Cox&Snell R方”统计量，这是一个与普通线性回归中的判定系数R方作用相似的统计量。但是，由于它的取值范围不易确定，因此在使用时并不方便。为了解决这个问题，SPSS引入了NagelkerteR方统计量，它是对CS R方的修正，取值范围为0~1。它的值越接近1，越好。

回归系数显著性及其检验概率；在二元Logistic回归分析中，对于纳入方程的每个自变量，都可以计算其Wald值（相当于线性回归中的T值）。利用Wald值，可以判定该自变量对回归方程的影响力，通常Walds值应大于2。另外，与Walds值配套的检验概率Sig值也能发挥同样的作用。

错判矩阵；错判矩阵是一个二维表格，用于直观的显示出二元Logistic回归中原始观测数据与预测值之间的吻合程度。由于二元Logistic回归的因变量只有2个取值，所以错判矩阵的结构很简单。如下表：