SPSS分析技术:线性回归分析-CDA数据分析师官网

SPSS分析技术:线性回归分析

2017-09-17

SPSS分析技术:线性回归分析

相关分析可以揭示事物之间共同变化的一致性程度，但它仅仅只是反映出了一种相关关系，并没有揭示出变量之间准确的可以运算的控制关系，也就是函数关系，不能解决针对未来的分析与预测问题。

回归分析就是分析变量之间隐藏的内在规律，并建立变量之间函数变化关系的一种分析方法，回归分析的目标就是建立由一个因变量和若干自变量构成的回归方程式，使变量之间的相互控制关系通过这个方程式描述出来。

回归方程式不仅能够解释现在个案内部隐藏的规律，明确每个自变量对因变量的作用程度。而且，基于有效的回归方程，还能形成更有意义的数学方面的预测关系。因此，回归分析是一种分析因素变量对因变量作用强度的归因分析，它还是预测分析的重要基础。

回归分析类型

回归分析根据自变量个数，自变量幂次以及变量类型可以分为很多类型，常用的类型有：

线性回归；

曲线回归；

二元Logistic回归技术；

线性回归原理

回归分析就是建立变量的数学模型，建立起衡量数据联系强度的指标，并通过指标检验其符合的程度。线性回归分析中，如果仅有一个自变量，可以建立一元线性模型。如果存在多个自变量，则需要建立多元线性回归模型。线性回归的过程就是把各个自变量和因变量的个案值带入到回归方程式当中，通过逐步迭代与拟合，最终找出回归方程式中的各个系数，构造出一个能够尽可能体现自变量与因变量关系的函数式。在一元线性回归中，回归方程的确立就是逐步确定唯一自变量的系数和常数，并使方程能够符合绝大多数个案的取值特点。在多元线性回归中，除了要确定各个自变量的系数和常数外，还要分析方程内的每个自变量是否是真正必须的，把回归方程中的非必需自变量剔除。

名词解释

线性回归方程：一次函数式，用于描述因变量与自变量之间的内在关系。根据自变量的个数，可以分为一元线性回归方程和多元线性回归方程。

观测值：参与回归分析的因变量的实际取值。对参与线性回归分析的多个个案来讲，它们在因变量上的取值，就是观测值。观测值是一个数据序列，也就是线性回归分析过程中的因变量。

回归值：把每个个案的自变量取值带入回归方程后，通过计算所获得的数值。在回归分析中，针对每个个案，都能获得一个回归值。因此，回归值也是一个数据序列，回归值的数量与个案数相同。在线性回归分析中，回归值也常常被称为预测值，或者期望值。

残差：残差是观测值与回归值的差。残差反映的是依据回归方程所获得的计算值与实际测量值的差距。在线性回归中，残差应该满足正态分布，而且全体个案的残差之和为0。

回归效果评价

在回归分析的评价中，通常使用全部残差的平方之和表示残差的量度，而以全体回归值的平方之和表示回归的量度。通常有以下几个评价指标：

判定系数

为了能够比较客观的评价回归方程的质量，引入判定系数R方的概念：

判定系数R方的值在0~1之间，其值越接近1，表示残差的比例越低，即回归方程的拟合程度越高，回归值越能贴近观测值，更能体现观测数据的内在规律。在一般的应用中，R方大于0.6就表示回归方程有较好的质量。

F值

F值是回归分析中反映回归效果的重要指标，它以回归均方和与残差均方和的比值表示，即F=回归均方和/残差均方和，在一般的线性回归中，F值应该在3.86以上。

T值

T值是回归分析中反映每个自变量的作用力的重要指标。在回归分析时，每个自变量都有自己的T值，T值以相应自变量的偏回归系数与其标准误差的比值来表示。在一般的线性回归分析中，T的绝对值应该大于1.96。如果某个自变量的T值小于1.96，表示这个自变量对方程的影响力很小，应该尽可能把它从方程中剔除。

检验概率（Sig值）

回归方程的检验概率值共有两种类型：整体Sig值和针对每个自变量的Sig值。整体的Sig值反映了整个方程的影响力，而针对自变量的Sig值则反映了该自变量在回归方程中没有作用的可能性。只有Sig值小于0.05，才表示有影响力。

案例分析（一元线性回归）

现在有一份《大学生学习状况》的数据，请分析作业情况与数学成绩之间的关系，构造回归方程，并评价回归分析的效果。

SPSS分析步骤

1、选择菜单【分析】-【回归】-【线性】命令，启动线性回归命令。

2、将数学成绩选为因变量，将作业情况选为自变量，点击【确定】。

结果解释

判定系数R方值为0.919，表示此回归方程具有很好的质量。

在方差分析表格中，显著性为0.000，小于0.05，表示回归方程具有很强的影响力，能够很好的表达数学成绩与作业情况的控制关系。

最后一个表格中的B列，常数为39.887，作业情况的系数为6.539，所以回归方程为y=6.539x+39.887。

案例分析（多元线性回归）

分析数学成绩与专业、爱好、作业情况、上网时间和游戏时间之间的关系。

分析步骤

1、字符型数据数值化编码，将爱好和专业进行数值化编码。

2、选择踩踏【分析】-【回归】-【线性】命令。

3、将数学成绩选入因变量，将数值化后的爱好、专业以及上网时间、游戏时间、作业情况选为自变量。

4、在自变量下的选项框中选择【逐步】，如下图：

红框内选项含义：

输入：对于用户提供的所有自变量，回归方程全部接纳。

逐步：先检查不在方程中的自变量，把F值最大（检验概率最小）且满足进入条件的自变脸选入方程中，接着，对已经进入方程的自变量，查找满足移出条件的自变量（F值最小且F检验概率满足移出条件）将其移出。

前进：对于用户提供的所有自变量，系统计算出所有自变量与因变量的相关系数，每次从尚未进入方程的自变量组中选择与因变量具有最强正或负相关系数的自变量进入方程，然后检验此自变量的影响力，直到没有进入方程的自变量都不满足进入方程的标准为止。

后退：对于用户提供的所有自变量，先让它们全部强行进入方程，再逐个检查，剔除不合格变量，直到方程中的所有变量都不满足移出条件为止。

删除：也叫一次性剔除方式，其思路是通过一次检验，而后剔除全部不合格变量。这种方法不能单独使用，通常建立在前面已经构造出初步的回归方程的基础上，与前面其他筛选方法结合使用。

结果解释

1、第一个表格是输入/移去变量表格；

即最后游戏时间和作业情况被纳入到回归方程当中。

2、模型表格和方差分析表格。这两个表格表明产生两个回归模型，这是游戏时间和作业情况依次进入回归过程之后的结果，且第二个回归模型的R方值大于第一个，所以第二个回归方程比较好。

3、系数表格；

采用第二个回归模型是y=-0.743*x1+1.216*x2+97.729，x1代表游戏时间，x2代表作业情况。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

线性回归方差分析正态分布

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业

下一篇Excel-漏斗图分析（差异分析）

SPSS分析技术:线性回归分析

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介