R语言对回归模型进行回归诊断-CDA数据分析师官网

R语言对回归模型进行回归诊断

2017-02-15

R语言对回归模型进行回归诊断

在 R语言中，对数据进行回归建模是一件很简单的事情，一个lm()函数就可以对数据进行建模了，但是建模了之后大部分人很可能忽略了一件事情就是，对回归模型进行诊断，判断这个模型到低是否模型的假定；如果不符合假定，模型得到的结果和现实中会有巨大的差距，甚至一些参数的检验因此失效。

因为在对回归模型建模的时候我们使用了最小二乘法对模型参数的估计，什么是最小二乘法，通俗易懂的来说就是使得估计的因变量和样本的离差最小，说白了就是估计出来的值误差最小；但是在使用最小二乘法的前提是有几个假设的。

这里我就引用《R语言实战》的内容了，在我大学中的《计量经济学》这本书讲的更为详细，不过这里主要是介绍使用R语言对模型进行回归诊断，所以我们就不说太详细了；

假定

正态性：对于固定的自变量值，因变量值成正态分布，也就是说因变量的是服从正态分布的

独立性：Yi值之间相互独立，也就是说Yi之间不存在自相关

线性：因变量和自变量是线性相关的，如果是非线性相关的话就不可以了

同方差：因变量的方法不随着自变量的水平还不同而变化，也可称之为同方差

为了方便大家使用和对照，这里就使用书上的例子给大家介绍了，在系统自带的安装包中women数据集，我们就想通过身高来预测一下体重；在做回归诊断之前我们得先建模；

首先我们先看一下数据是长什么样子的，因为我们不能盲目的拿到数据后建模，一般稍微规范的点流程是先观察数据的分布情况，判断线性相关系数，然后在考虑是否建立回归模型，然后在进行回归诊断；

R代码如下：

data(‘women’)

women

结果如下

初步观察数据大概告诉我们体重就是跟随着身高增长而增长的，再通过画一下散点图观察。

R代码如下

plot(women)

然后我们在判断一下各个变量之间的线性相关系数，然后再考虑要不要建模

R代码如下

cor(women)

结果如下

从相关系数的结果上看，身高和体重的相关程度高达0.9954，可以认为是完全有关系的。

根据以上的判断我们认为可以建立模型去预测了，这时候我们使用LM()函数去建模，并通过summary函数去得到完整的结果。

R代码如下

model <- lm(weight~height,data=women)

summary(model)

出现这个问号原因是由于电脑字符集问题；稍微解读一下这个结果，RESIDUALS是残差的五分位数，不知道五分位的可以百度一下，这里不多说，下面的结果height的回归系数是3.45，标准差是0.09114，T值为37.85，P值为1.09e-14,并显著通过假设检验，残差的标准差为1.525，可决系数为0.991,认为自变量可以解释总体方差的99.1%，调整后的可决系数为0.9903,这是剔除掉自变量的个数后的可决系数，这个比较有可比性，一般我都看这个调整后的可决系数。结果就解读那么多，因此得到的结果就是

上面只是借用了一个小小例子来讲解了一下R语言做回归模型的过程，接下来我们将一下如何进行回归诊断，还是原来的那个模型，因为使用LM函数中会有一些对结果评价的内容，因此我们用PLOT函数将画出来；

R代码如下

par(mfrow=c(2,2))

plot(model)

结果如下

左上：代表的残差值和拟合值的拟合图，如果模型的因变量和自变量是线性相关的话，残差值和拟合值是没有任何关系的，他们的分布应该是也是在0左右随机分布，但是从结果上看，是一个曲线关系，这就有可能需要我们家一项非线性项进去了

右上:代表正态QQ图，说白了就是标准化后的残差分布图，如果满足正态假定，那么点应该都在45度的直线上，若不是就违反了正态性假

左下：位置尺度图，主要是检验是否同方差的假设，如果是同方差，周围的点应该随机分布

右下：主要是影响点的分析，叫残差与杠杆图，鉴别离群值和高杠杆值和强影响点，说白了就是对模型影响大的点

根据左上的图分布我们可以知道加个非线性项，R语言实战里面是加二次项，这里我取对数，主要是体现理解

R代码如下

model1 <- lm(weight~height+log(height),data=women)

plot(model1)

summary(model1)

结果如下

诊断图

模型拟合结果图

综合起来我们新模型貌似更优了；我就介绍到这里，具体大家可以看书籍

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言方差相关系数最小二乘正态分布标准差假设检验散点图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

R语言对回归模型进行回归诊断

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...