如何使用SPSS进行一元回归分析
在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系,则称其为一元回归分析。
其回归模型为
y 称为因变量,x称为自变量,称为随机误差,a,b 称为待估计的回归参数,下标i表示第i个观测值。
如果给出a和b的估计量分别为,,则经验回归方程:
一般把称为残差, 残差可视为扰动的“估计量”。
例子:
湖北省汉阳县历年越冬代二化螟发蛾盛期与当年三月上旬平均气温的数据如表1-1,分析三月上旬平均温度与越冬代二化螟发蛾盛期的关系。
表1-1 三月上旬平均温度与越冬代二化螟发蛾盛期的情况表
年份
|
1961 |
1962 |
1963 |
1964 |
1965 |
1966 |
1967 |
1968 |
1969 |
1970 |
三月上旬平均温度 |
8.6 |
8.3 |
9.7 |
8.5 |
7.5 |
8.4 |
7.3 |
9.7 |
5.4 |
5.5 |
越冬代二化螟发蛾盛期(6月30日为0) |
3 |
5 |
3 |
1 |
4 |
4 |
5 |
2 |
7 |
5 |
数据保存在“DATA6-1.SAV”文件中。
1)准备分析数据
在数据编辑窗口中输入数据。建立因变量历期“历期”
在SPSS数据编辑窗口中,创建“年份”、“温度”和“发蛾盛期”变量,并把数据输入相应的变量中。或者打开已存在的数据文件“DATA6-1.SAV”。
2)启动线性回归过程
单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图1-1所示的线性回归过程窗口。
图1-1 线性回归对话窗口
3) 设置分析变量
设置因变量:本例为“发蛾盛期”变量,用鼠标选中左边变量列表中的“发蛾盛期”变量,然后点击“Dependent”栏左边的向右拉按钮,该变量就自动调入“Dependent”显示栏里。
设置自变量:选择一个变量作为自变量进入“Independent(S)”框中。用鼠标选中左边变量列表中的“温度”变量,然后点击“Independent(S)”栏左边的向右拉按钮,该变量就自动调入“Independent(S)”显示栏里。
注:SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程,所以该栏可以输入多个自变量。
设置控制变量
“Selection Variable”为控制变量输入栏。控制变量相当于过滤变量,即必须当该变量的值满足设置的条件时,观测量才能参加回归分析。当你输入控制变量后,单击“Rule”按钮,将打开如图1-2所示的对话。
图1-2“Rule”对话框
在“Rule”对话框中,右边的“Value”框用于输入数值,左边的下拉列表中列出了观测量的选择关系,其中各项的意义分别为:
本例的控制变量是“计算”,将它选入“Selection Variable”变量栏里,在“Rule”对话框中选择“equal to”=1。
选择标签变量
“Case Labels”框用于选择观测量的标签变量。在输出结果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。
本例子选择“年份”为标签变量。
选择加权变量
在主对话框中单击“WLS”按钮,将在主对话框下方展开一个输入框,该框用于输入加权变量。本例子没有加权变量,因此不作任何设置。
4)回归方式
在“Method”框中选择一种回归分析方式。其中,各项的意义为:
本例子是一元回归,只能选第一项。
5)设置输出统计量
单击“Statistics”按钮,将打开如图1-3所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:
图1-3 “Statistics”对话框
①“Regression Coefficients”回归系数选项:
“Estimates”输出回归系数和相关统计量。
“Confidence interval”回归系数的95%置信区间。
“Covariance matrix”回归系数的方差-协方差矩阵。
本例子选择“Estimates”输出回归系数和相关统计量。
②“Residuals”残差选项:
“Durbin-Watson”Durbin-Watson检验。
“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:
“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;
“All cases”选择所有观测量。
本例子都不选。
③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。
“R squared change”输出由于加入和剔除变量而引起的复相关系数平方的变化。
“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。
“Part and partial correlation”相关系数和偏相关系数。
“Collinearity diagnostics”显示单个变量和共线性分析的公差。
本例子选择“Model fit”项。
6)绘图选项
在主对话框单击“Plots”按钮,将打开如图1-4所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。
图1-4“Plots”绘图对话框窗口
左上框中各项的意义分别为:
“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:
“Histogram”用直方图显示标准化残差。
“Normal probability plots”比较标准化残差与正态残差的分布示意图。
“Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。
本例子不作绘图,不选择。
7) 保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图1-5所示的对话框。
图1-5 “Save”对话框
①“Predicted Values”预测值栏选项:
Unstandardized 非标准化预测值。就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回
归模型拟合的预测值。
Standardized 标准化预测值。
Adjusted 调整后预测值。
S.E. of mean predictions 预测值的标准误。
本例选中“Unstandardized”非标准化预测值。
②“Distances”距离栏选项:
Mahalanobis: 距离。
Cook’s”: Cook距离。
Leverage values: 杠杆值。
③“Prediction Intervals”预测区间选项:
Mean: 区间的中心位置。
Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放
预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。
Confidence Interval:置信度。
本例选中“Individual” 观测量上限和下限的预测区间。
④“Save to New File”保存为新文件:
选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。
⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。
⑥“Residuals” 保存残差选项:
“Unstandardized”非标准化残差。
“Standardized”标准化残差。
“Studentized”学生氏化残差。
“Deleted”删除残差。
“Studentized deleted”学生氏化删除残差。
本例不选。
⑦“Influence Statistics” 统计量的影响。
“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。
“Standardized DfBeta(s)”标准化的DfBeta值。
“DiFit” 删除一个特定的观测值所引起的预测值的变化。
“Standardized DiFit”标准化的DiFit值。
“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。
8)其它选项
在主对话框里单击“Options”按钮,将打开如图1-6所示的对话框。
图1-6 “Options”设置对话框
①“Stepping Method Criteria”框用于进行逐步回归时内部数值的设定。其中各项为:
“Use probability of F”如果一个变量的F值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值的概率大于设置的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设置 “Use probability of F”时,应使进入值小于剔除值。
“Ues F value”如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置“Use F value”时,应使进入值大于剔除值。
②“Include constant in equation”选择此项表示在回归方程中有常数项。
本例选中“Include constant in equation”选项在回归方程中保留常数项。
③“Missing Values”框用于设置对缺失值的处理方法。其中各项为:
“Exclude cases listwise”剔除所有含有缺失值的观测值。
“Exchude cases pairwise”仅剔除参与统计分析计算的变量中含有缺失值的观测量。
“Replace with mean”用变量的均值取代缺失值。
本例选中“Exclude cases listwise”。
9)提交执行
在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。见表1-2至表1-5。
10) 结果分析
结果:
表1-2 给出了回归的方法是全回归模式,模型编号为1,自变量是“温度”,因变量是“发蛾盛期”。
表1-2
表1-3 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。
表1-3
表1-4 回归模型的方差分析表,F值为11.748,显著性概率是0.009,表明回归极显著。
表1-4
表1-5 回归模型系数表,以及t检验结果。
表1-5
分析:
从上面的回归分析结果表明:三月上旬平均温度与越冬代二化螟发蛾盛期的关系极为密切,相关系数0.7713;同时方差分析表明,其显著性水平为0.009。
根据回归系数表6-5,可写出回归方程如下:
其中x代表三月上旬平均温度; 代表越冬代二化螟发蛾盛期(其值加上7月0日为实际日期)。
预测值的回归误差可用剩余均方估计:
|
|
预测
由于在分析时使用了控制变量“计算”,数据中第11个记录的数据在建立回归方程时,并没有使用它,是留作用于预测的。所以,在选择了保存预测值选项,用模型预测的结果可以在数据窗口中看到(图1-7)。
图6-7 分析过程执行后的数据窗口
在图6-7中得知,用1971年三月上旬平均温度4.3,预测值为7.1天,95%的置信区间是3.5~10.6天,预测值的有关统计量见表1-6。
表1-6
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19