
【连载5】如何用spss做加权最小二乘回归及岭回归
上一节我们讲到一般多元线性回归的操作方法。本节要介绍的是多元线性回归的其他几种情况。包括适用于含有加权变量的加权最小二乘回归方程等。然后继续讨论上一节中没有讨论完毕的如何解决多重共线性这个问题。
讲加权最小二乘回归之前,我们首先还是举个例子。假设我们想考察全国三十一个省的某种疾病的发病率和每个省的面积,平均气温等的关系,那么我们知道,这三十一个省的人口肯定是不同的。而且差距还蛮大。并且最重要的,我们知道,发病率的高低很可能和人口的多少有关系(考虑传染性,人口密度什么的),那么这个时候我们直接用最小二乘回归就不是那么合适了,我们更好的选择是加权最小二乘回归法。也就是说,当样本和某一个权数存在某种关系的时候,我们就用加权最小二乘回归。
在上一节中我们提到过在线性回归主面板最下边有一个WLS权重框框。在加权最小二乘回归方法里边,我们就要用到这个框框了。我们在设置变量的时候除了自变量和因变量,还要设置一个权数变量(在上述的医学例子里,这个变量可以是每个省的人口。在其他一些金融案例里边,比方研究高价股票和低价股票的波动时,由于这两种股票在其他因素相同时的波动幅度不同,因此需要设一个权数,这个权数可能就是自己设定的了。)然后我们把这个权数变量选入到WLS权重框里边。其他过程和一般线性回归一致。
解释结果的时候也和一般线性回归类似,只是有一个小小的地方需要大家注意一下。我们知道,模型汇总表里边的决定系数是一个比较重要的参考数据。它会告诉你你的方程能解释你的模型的百分之多少,从而从侧面考察了你的方程的合理性。但是不幸的是,这个决定系数在加权线性回归里边出现了比较严重的偏差。这个和决定系数的计算方法有关系。因此假如我们用同样的数据做一遍加权的回归,和一遍不加权的回归,往往会发现不加权的方程决定系数大于加权的。但是这个并不能代表不加权的方程就一定比加权后的准确。实际上加权以后的模型和不加权的模型到底孰优孰劣,好的那个方程又能好多少,这些问题spss都不能给出直接的数据。因此在使用加权最小二乘回归的时候应当格外谨慎。
此外,由于有时候权重并不特别明确,(比如上边那个金融的案例),这时候可以使用分析——回归——权重估计这个选项。这个选项的主面板和回归分析主面板类似,自变量,因变量,权重。变量选择的方法和上边的加权回归也类似。这个方法也需要你事先给出一个大概的权重变量,然后系统会做一定的调整来使方程达到最佳效果。结果解释等也类似,就不赘述了。
除了加权回归以外,还有一个比较特别的线性回归是曲线参数估计。
如果你的线性模型拟合的不是那么理想,那么你的模型很可能就是曲线型的(尤其是你有两个变量的时候,线性模型有时候会非常糟糕)。需要打开分析——回归——曲线估计,选择你的因变量,自变量。此外下边还有十一种模型供你选择。选好以后,结果会给出每种模型的决定系数,F值,P值,你可以从这些数据中判断哪个方程最适合你的模型。
当然,这个不会给出你非常详细的数据。如果你还想要看更详细的数据,比如方程中每个参数的P值什么的,你最好还是用线性回归做一下。啊,当然,当然,你的数据肯定是没办法直接做线性回归的,不然也就不用做曲线估计了。你需要首先转换你的数据。举个例子:Y=X1^2*a1+X2^2*a2……,假设你的模型做出来符合这种形式。那你首先要在数据——计算新变量里边,计算出新变量x1的方,x2的方,然后在做这两个新变量和因变量的一般线性回归。当然,如果你想要在方程的自变量里在加一个x1和x2的积,你也可以这么加上去。
那么除了logistic回归以外,线性回归的内容基本就完毕了。下边我们继续讨论一个问题:如何消除自变量间的共线性?
上一节里边提到,如果VIF(方差因子膨胀率)合格,而DW不合格的话,我们可以使用广义差分法来改善DW,得到好的模型。那这一节,我们就来讨论一下VIF不合格的情况。我们已经知道,如果VIF不合格的话,说明自变量存在严重的共线性。在回归的范畴里边,通常有三种方法可以解决这个问题。他们分别是偏最小平方回归,岭回归,路径分析。
偏最小平方回归对于初学者来讲,是一个并不常用的回归方法。如果想用这个分析的话,需要额外下载相关模块。下好相关模块以后,打开分析——回归——部分最小回归,(如果没有下载相关模块的话,他会提示你下载),打开主面板,这是一个相当简单的面板,选好自变量,因变量之后,点确定就可以。结果会呈现四个表,也并不难判断。就不赘述了。
岭回归可以下载相关模块,也可以自己编程来实现。大部分人都会选择后一种方法。这个主要是因为代码很简洁,很容易编写。代码如下:
INCLUDE’d:\spss20.0\Ridge Regression.sps’.
Ridgereg enter=X1 X2 X3
/dep=y
诺,就这么三行。第一行单引号里边填写你的spss安装目录。比如我的按在d盘下面,所以我就填d:\spss20.0,如果你的按在c盘,那就填C盘呗。然后目录后边那个ridge regression,是最小二乘平方的宏的调用。然后第二行X1,X2,X3的位置填写你的自变量的名字。有几个就填几个。中间用空格隔开。第三行y的位置填你的因变量。运行的时候,打开文件——新建——语法,进入语法编辑器窗口,输入上边的代码,然后点运行——全部就可以了。结果会有一个系数表,这个表的第一列是K值,第二列是决定系数,第三列往后是你的自变量。其中k值会从0开始增大,同时决定系数也会慢慢变小,最终趋于稳定。(岭回归舍弃了一定的信息,从而改善了多重共线性)要从这张表里边选取合适的k值,使决定系数尽量大,同时尽量稳定。选好k值就可以参照系数写出方程了。此外在岭回归里边是不会输出常数的。这也是和一般回归方法的一个不同之处。
岭回归和偏最小平方回归比较而言,岭回归的优势在于容易操作。偏最小平方回归的优势在于可以用于例数很少的情况。如果例数很少,自变量又很多,甚至例数都少于自变量的数目,那么就一定要用偏最小平方回归了。额,通常在金融领域不会发生这种情况,但是在一些特殊的领域,医学啊什么的,则是有可能发生的。因此在某种程度上来讲,偏最小平方回归是给特殊需要的人使用的。
最后补充介绍一下路径分析。如果说前边两种方法都是从过程中实现的话,那么路径分析就是从专业角度来刻画方程了。举个例子,比如你想看看一朵鲜花的开放时间和阳光强度,空气湿度,空气温度,日照时间等等的关系,做出分析来一看,存在共线性。如果你是专业人员,那么很可能你就知道,由于空气温度受到阳光强度,和日照时间的影响,所以你的方程就存在了共线性。所以呢,你就能写出一个空气温度,阳光强度,日照时间之间的一个回归方程。然后你就能画出一个路径图,代表阳光强度的圈圈不仅直接影响了花朵开放时间,而且还影响了空气温度,从而间接影响了花朵开放时间,并且你还能写出彼此之间的影响系数。这就是路径分析的主要内容。
当然路径分析需要有专业知识的人来做。并且呢,通常需要经过许多尝试,才能正确的写出因变量和自变量之间的方程。而且,最重要的是,路径分析只能帮助我们搞清楚自变量之间到底存在怎么样的共线性,对于矫正方程没有什么作用。也就是说,方程的决定系数可能依然很糟糕。所以它更多的是用来做演示图或者什么的,对于改善多重共线性真的没什么用。
解决多重共线性的常见方法可以告一段落了。在非线性回归,分类回归之后我们介绍因子分析时将会旧话重提,再次讨论多重共线性的问题。CDA数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08