SPSS实例教程：多重线性回归，你用对了么-CDA数据分析师官网

SPSS实例教程：多重线性回归，你用对了么

2017-09-27

SPSS实例教程：多重线性回归，你用对了么

在实际的医学研究中，一个生理指标或疾病指标往往受到多种因素的共同作用和影响，当研究的因变量为连续变量时，我们通常在统计分析过程中引入多重线性回归模型，来分析一个因变量与多个自变量之间的关联性。

一、多重线性回归的作用

多重线性回归模型在医学研究领域得到了广泛的应用，其作用主要体现在以下几个方面：

1、探索对于因变量具有影响作用的因素；

2、控制混杂因素，评价多个自变量对因变量的独立效应；

3、用已知的自变量来估计和预测因变量的值及其变化。

二、多重线性回归的形式

多重线性回归的一般表达形式为：

由表达式可以看出，每个因变量的实际测量值yi由两部分组成，即和ei 。

为估计值，即在给定自变量取值时因变量y的估计值，表示能由自变量决定的部分；ei为残差，即因变量实测值yi与估计值之间的差值，表示不能由自变量决定的部分，而对于残差的分析是多重线性回归建模过程中需要重点关注的地方。

此外在多线性回归的表达式中，b0为常数项，表示当所有自变量取值为0时因变量的估计值；bi为偏回归系数，表示当其他自变量不变时，xi每改变一个单位时所引起的的变化量。

三、多重线性回归的适用条件

多重线性回归模型作为一种统计模型，它有严格的适用条件，在建模时也需要对这些适用条件进行判断。但是许多使用者往往忽视了这一点，在使用过程中只是单一的构建模型，最终很有可能得出错误的结论。因此在应用多重线性回归之前，我们应该了解它需要满足哪些前提条件呢？

总结起来可用4个词来概况：线性(Linear)，独立(Independence)，正态(Normality)，齐性(Equal variance)，缩写为LINE原则。

(1) 线性：各自变量xi与因变量yi之间存在线性关系，可以通过绘制散点图来进行判断；

(2) 独立：因变量yi的取值之间相互独立，反映到回归模型中，实际上就是要求残差ei之间相互独立；

(3) 正态性：构建多重线性回归模型后，残差ei服从正态分布；

(4) 方差齐性：残差ei的大小不随xi取值水平的变化而变化，即残差ei具有方差齐性。

只有准确把握了LINE核心原则，才能够保证构建符合统计学要求的多重线性回归模型。但是，由于多重线性回归模型具有一定的“抗偏倚性”，如果只是想通过构建方程来探讨自变量和因变量之间的关联性，而非对因变量进行预测，那么后面两个条件可以适当放宽。

此外，还应该注意以下几点：

(5) 因变量yi为连续性变量，而非分类变量；

(6) 自变量xi可以为连续变量，也可以为分类变量，当自变量为多分类无序变量时，则需要设置哑变量，当为有序变量时，则需要根据等级顺序进行赋值。

(7) 对于自变量xi的分布特征没有具体的限定，只要求自变量xi间相互独立，不存在多重共线性；

(8) 对于样本量的要求，根据经验一般要求样本量应当为纳入模型的自变量的20倍以上为宜，比如模型纳入5个自变量，则样本量应当在100以上为宜。

四、SPSS实例操作

1. 研究设计

某研究人员收集了100名研究者的最大摄氧量（VO2max），并记录了他们的年龄，体重，心率和性别，拟探讨年龄，体重，心率和性别对VO2 max的影响，并希望能够根据一个人的年龄，体重，心率和性别来对他的VO2 max值进行评估和预测。

2. 录入数据

SPSS数据文件如图所示，分析数据结构：

因变量VO2max为连续变量，满足上述条件（5）；

自变量中年龄（age），体重（weight），心率（heart_rate）为连续变量，性别（gender）（女=0，男=1）为二分类变量，满足条件（6）；

样本量为100，纳入的自变量为4个，满足条件（8）中大于20倍的要求。在满足上述几个基本条件后，根据研究目的研究人员拟采用多重线性回归的方法来进行统计分析，而对于其他几点适用条件我们将在后面的介绍中进行一一验证。

3. 多重线性回归操作

(1)选择Analyze → Regression → Linear

在Linear Regression对话框中，将VO2max选入Dependent，将age，weight，heart_rate，gender选入Independent(s)中。

点击Method下拉列表，会出现Enter，Stepwise，Remove，Backward，Forward共5种方法可供选择，这里选择默认的Enter法，表示将所有的变量都纳入到回归模型中。（自变量筛选共有5种方法，每种方法的区别我们将会在以后的内容中进行详细介绍。）

(2)点击Statistic选项

在Regression Coefficients复选框中，勾选Estimates和Confidence Intervals Level（%）并设定为95，可输出自变量的回归系数及其95%可信区间。

选择Model fit，输出模型拟合优度的检验结果；选择Descriptive，输出对所有变量的基本统计描述；选择Part and partial correlations，输出自变量之间的相关系数；选择Collinearity diagnostics，输出对自变量进行共线性诊断的统计量。

在Residus复选框中，选择Durbin-Watson，输出值用于判断残差之间是否相互独立。选择Casewise Diagnositics，默认在3倍标准差内来判定离群点。一般来说，95%的值在 ± 2倍标准差内，99%的值在 ± 2.5倍标准差内，可根据具体情况来进行设定。

(3)点击Save选项

在Predicted Values复选框中选择Unstandardized，保存模型对因变量的原始预测值，在Residuals是复选框中选择Standardized，保存均数为0标准差为1的标准化残差值，在Prediction Intervals复选框中选择Individuals，设定Confidence Intervals为95%，保存个体预测值的95%可信区间。

（数据标准化：用观察值减去该变量的均数，然后除以标准差所得，标准化后数据的均数为0，标准差为1，经标准化的数据都是没有单位的纯数量。）

(4)点击Plot选项

在Plots对话框中将*ZRESID（标准化残差）放入Y轴，将*ZPRED（标准化预测值）放入X轴，绘制残差散点图；同时选择Histogram和Normal probability plot来绘制标准化残差图，考察残差是否符合正态分布；选择Produce all partial plots绘制每一个自变量与因变量残差的散点图。

(5)点击Continue回到Linear Regression主对话框，点击OK完成操作。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

线性回归散点图正态分布统计分析特征数据标准化

数据分析咨询请扫描二维码

上一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业

下一篇Excel-漏斗图分析（差异分析）

SPSS实例教程：多重线性回归，你用对了么

CDA考试动态

CDA报考指南

热门栏目

最新资讯

数据分析师的工作内容是什么？岗位职责与发展前景 ...

数据分析师的工作内容是什么？岗位职责与发展前景 ...

金融数学专业学什么？从理论到实践的全面解析 ...

大数据一般学什么？从入门课程到核心技能全覆盖 ...

数据科学与大数据专业的就业方向与行业需求解析 ...

大数据专业毕业后去哪些岗位就业？高薪机会揭秘 ...

学数据分析需要学什么？课程内容全面解析 ...

学Python能做什么？这些高薪职业等你来 ...

数据分析的常用方法有哪些？详解五大实用技巧 ...

数据分析自学中常见问题

数据挖掘与分析中的机器学习方法

数据分析师应具备的数据可视化能力 ...

数据分析师的沟通能力要求

数字化转型的主要挑战与对策

数据分析师报考条件？怎么学？

数据分析自学的学习计划

数据分析相关职业选择

数据挖掘与分析在金融行业的使用

学习数据挖掘需要掌握哪些技能

统计学就业机会都在哪里