SPSS大战多元回归分析-CDA数据分析师官网

热线电话：13121318867

SPSS大战多元回归分析

2017-07-12

SPSS大战多元回归分析

使用多元回归进行数据分析，分析软件供选择的比较多，主要有Eviews、Spss、Stata、Sas、Gretel等。多元回归分析应用于各个领域，主要有经济、医学、农学等。今天小编为大家分享一篇SPSS大战多元回归的数据分析实例。线性回归数据来自于国泰安数据服务中心的经济研究数据库。数据名称为：全国各地区能源消耗量与产量，该数据的年度标识为2006年，地区包括我国30个省，直辖市，自治区（西藏地区无数据）。

1.1数据预处理

数据预处理包括的内容非常广泛，包括数据清理和描述性数据汇总，数据集成和变换，数据归约，数据离散化等。本文主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充，但是依然将其统称数据清理。

1.1.1 数据导入与定义

单击“打开数据文档”，将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中，如图1-1所示。

（图1-1 导入数据）

导入过程中，各个字段的值都被转化为字符串型（String），我们需要手动将相应的字段转回数值型。单击菜单栏的“”-->“”将所选的变量改为数值型。如图1-2所示：

（图1-2 定义变量数据类型）

1.1.2 数据清理

数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“”-->“”，将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示：

（图1-3缺失值分析）

能源数据缺失值分析结果如表1-1所示：

SPSS提供了填充缺失值的工具，点击菜单栏“”-->“”，即可以使用软件提供的几种填充缺失值工具，包括序列均值，临近点中值，临近点中位数等。结合本次实习数据的具体情况，我们不使用SPSS软件提供的替换缺失值工具，主要是手动将缺失值用零值来代替。

1.1.3 描述性数据汇总

描述性数据汇总技术用来获得数据的典型性质，我们关心数据的中心趋势和离中趋势，根据这些统计值，可以初步得到数据的噪声和离群点。中心趋势的量度值包括：均值（mean），中位数（median），众数（mode）等。离中趋势量度包括四分位数（quartiles），方差（variance）等。

SPSS提供了详尽的数据描述工具，单击菜单栏的“”-->“”-->“”，将弹出如图2-4所示的对话框，我们将所有变量都选取到，然后在选项中勾选上所希望描述的数据特征，包括均值，标准差，方差，最大最小值等。由于本次数据的单位不尽相同，我们需要将数据标准化，同时勾选上“将标准化得分另存为变量”。

（图1-4 描述性数据汇总）

得到如表1-2所示的描述性数据汇总。

（表1-2 描述性数据汇总）

标准化后得到的数据值，以下的回归分析将使用标准化数据。如图1-5所示：

（图1-5 数据标准化）

我们还可以通过描述性分析中的“”来得到各个变量的众数，均值等，还可以根据这些量绘制直方图。我们选取个别变量（能源消费总量）的直方图，可以看到我们因变量基本符合正态分布。如图1-6所示：

（图1-6能源消费总量）

1.2 回归分析

我们本次实验主要考察地区能源消费总额（因变量）与煤炭消费量、焦炭消费量、原油消费量、原煤产量、焦炭产量、原油产量之间的关系。以下的回归分析所涉及只包括以上几个变量，并使用标准化之后的数据。

1.2.1 参数设置

单击菜单栏“”-->“”-->“”，将弹出如图1-7所示的对话框，将通过选择因变量和自变量来构建线性回归模型。因变量：标准化能源消费总额；自变量：标准化煤炭消费量、标准化焦炭消费量、标准化原油消费量、标准化原煤产量、标准化焦炭产量、标准化原油产量。自变量方法选择：进入，个案标签使用地名，不使用权重最小二乘法回归分析—即WLS权重为空。