热线电话:13121318867

登录
首页精彩阅读【从零开始学统计】9.回归:统计方法的大结合!
【从零开始学统计】9.回归:统计方法的大结合!
2014-07-04
收藏

在开始本次的专题之前,楼主先问个小问题:姚明和他妻子叶莉生的孩子(儿子或女儿)会超过其父母的身高么?当然这是同性的相比(儿子一般都会比母亲高,女儿一般不会超过父亲……楼主才不会这么二呢……)

       当然这个问题提的也有点极端(毕竟像姚明那身高的世界上也没几个,要长那么高真心不容易啊),但是这个问题,则引入了我们今天的话题:回归~~

       这个回归不是香港澳门的回归,而是数学上的回归。回归最初被提出的时候,是作为现象出现的。在此引用《女士品茶》中的一段文字,来描述一下这个现象:高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回
归。下面一段话,则说明了回归现象是符合直观的(为什么出现这个现象):

       高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。 上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。

回归的现象.jpg


       看这篇文章的很多童鞋,在接触回归的时候,有多少是被老师用这段话(或大致内容差不多的例子)引入回归之门的呢?楼主肯定是的。也正因为如此,楼主对自己的身高终于心理平衡点了……好了,既然引入了回归,那我们就入正题,来讲讲回归的故事。

       有人要问了,楼主你说这么多,和回归分析(或回归模型)有什么关系?
      楼主:乍一看,是有点联系不上(顶多让人联想到中心极限定理),但我们若是将父亲的身高作为自变量X;儿子的身高作为因变量Y,那么我们也许就能根据父亲的身高大致预测儿子的身高了。儿子身高的均值E(Y)可以大致用公式E(y)=bx+a+ε来做简单预测,这就是回归的现代意义:一个被解释变量(因变量)与若干个解释变量(自变量)依存关系的研究。要做回归分析,有2个必需具备的条件
1、变量之间存在相关关系
Q:两个变量间有哪些关系
A:两个变量间有不相关、函数关系(函数关系是两个变量之间有确定的关系,可以明确用函数表达的)和相关关系(相关关系包括线性相关和非线性相关)
备注:通常我们使用的线性回归分析都会计算一个相关系数,这里的相关系数特指线性相关系数,如果哪天你计算出的相关系数为0.001~~那也仅仅表示他们的线性相关度很低,并不说明他们不存在非线性的什么关系……当然,当我们遇到的变量存在非线性相关关系,可以构建非线性回归方程,也可以想办法将其转换成线性方程。

2、自变量间相互独立且服从正态分布
变量间的相互独立是为了保证其不会产生共线性(这个是要多元回归才有的),正态分布的要求则保证了他们能使用那些基于正态分布而推导得出的统计理论(比如最小二乘假设检验之类的)。这里还要求ε的均值为0,方差为σ2,且σ2与自变量无关。
Q:为什么会有ε?
A:若没有随机误差,则变量间就为函数关系,加入了随机误差,则表明此方程模型中的X只能解释或影响部分的Y,在他们之间可能还有其他的因素同样牵引Y的变动(可能是一些我们没有发现的因素,也可能是样本获取中的一些误差引起的……)
我们来看一个小例子: 身高和体重图.jpg 
假设随机误差对体重没有影响,那么散点图中所有的点将完全落在回归直线上。但是,图中的数据点并没有完全落在回归直线上,而是散布在回归直线的附件,我们可以认为是那些随机误差将点从回归直线上“推”开了。

回归的目的也可以说是实质是由解释变量(自变量)去估计被解释变量(因变量)的均值!这个目的往往会被我们忽视,最终导致模型建立后因变量到底是什么都不清楚了。

再说回回归方程的表达式,E(y)=bx+a+ε,b为斜率,a为截距,他们的计算公式为:清晰公式.jpg 
这里,在计算a,b时运用到最小二乘的方法,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小,楼主之前做过一个最小二乘的专题,大家可点击:http://bbs.pinggu.org/thread-3041002-1-1.html参看一下。

为了更好的理解回归方程的含义,我们举个例子来说:
比如有方程表达式为:y=0.849x-85.7(y其实应该用y的估计,计算所得的参数值也是b和a的估计,但那个符号,打不上去~~大家将就一下),它表示x每增加1个单位,y就增加0.849个单位,且两者具有正相关性。

那是不是这个方程就OK了,就能拿来用来预测呢?当然没那么简单,在这里我们就要来说说一个概念,那叫残差。
Q:什么是残差,残差有什么作用?
A:在线性回归模型中,残差是真实值与估计值之间的差值,还记得前文中的ε,它是一个不可测量的随机误差,但我们可以用残差去估计随机误差的方差。当然我们还能用残差制作残差图来判断模型拟合的好坏以及原始数据时候有奇异值。通常,我们将残差作为纵轴,样本序号、自变量或因变量的估计值作为横轴画残差图。
举个例子来说吧:(图中横轴为样本观测编号)

残差图.jpg


由图可知,样本1和6的残差较大,需要查看一下是否数据采集过程中有所错误,或是否有其他原因导致数值异常。
备注:残差点比较均匀的分布在水平带状区域内,说明选用的模型比较合适,带状区域宽度越窄,说明拟合精度越高,回归方程的估计精度越高。

Q:Adjusted R2与R2之间有什么关系?
A:R2称为方程的确定系数,0~1之间,越接近1,表明方程的变量对y的解释能力越强。 对于回归方程来说,总结了以下几个意义: 
1.R2可以作为选择不同模型的标准。如果在拟合数据之前,不能确定数据到底是什么模型,那么可以对变量的不同数学形式进行拟合,然后看R2的大小,R2大的模型,说明这个模型对数据拟合的较好。 
2.在数据的关系存在非线性可能情况下:
(a)不一定R2越大拟合越好,因为R2只是回归平方和占总平方和的比例。 (b)如果一个模型的R2很小,不一定代表数据之间没有关系,而很有可能是选择的模型不对,因为数据之间也许的其他的函数关系,比如对数关系或者指数关系。这意味着需要对数据作进一步的拟合。(当然,最好的方法应该是在数据拟合之前先观察散点图)。如果是线性模型,那么R square才是方程拟合优度的度量,R2越大,回归方程拟合数据越好,线性关系越强。 
3.当自变量个数增加时,尽管有的自变量与y的线性关系不显著,R2也会增大。R2受自变量个数与样本规模影响。对于这点,采用Adjusted R2进行调整。 
4.当想确定方程中的每一个自变量对y的边际解释能力时,应该确定每个自变量的偏确定系数。注意,偏确定系数反映的是新加入回归的变量所解释的百分比,而这百分比是以前一步回归所未能解释的部分为整体,而不是以y的总变化为整体。也就是说,x1与x2共同解释的y的贡献,已包含在x1解释的y的贡献里面。偏确定系数的意义是,用于判断自变量的重要性。但是,在遇到虚拟变量时,计算这个的意义不大。

Q:多元回归分析中某自变量删除的判断
A:数理统计中有检验自变量和因变量关系的密切程度的方法, 利用此法可判断一自变量与因变量的关系之密切程度, 因而放弃该最差的自变量, 达到简化回归分析的目的。 在运用自变量相对重要性的检验方法以及以此检验结果作出删除某自变量时, 不能单纯按数理统计所提供的数学处理, 而应以专业知识作全面考虑.  自变量的重要性是通过相应回归系数的显著性来检验。检验结果可分两类: 一是各回归系数都具显著性, 但显著程度, 即显著性水平a 可能不尽相同; 二是有的回归系数不具显著性。根据数理统计的概念, 对于不具显著性, 相应的自变量在回归中的作用很小, 可忽略不计而删除之, 用剩下的自变量重新回归

进行回归分析的步骤:
1、确定回归方程中的解释变量和被解释变量(即谁是X谁是Y)
2、确定回归模型:根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。
3、建立回归方程:根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。
4、对回归方程进行各种检验:由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。
5、利用回归方程进行预测

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询