SPSS数据分析实例_数据分析师培训-CDA数据分析师官网

SPSS数据分析实例_数据分析师培训

2015-06-12

SPSS数据分析实例_数据分析师培训

先从一个数据分析实例入手：当你将这个例题做完，SPSS的基本使用方法也就已经被你掌握了。具体的统计分析功能则按10.0版本讲述

就让我们开始吧！

例1.1 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同（卫统第三版例4.8）？

患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

让我们把要做的事情理理顺：首先要做的肯定是打开计算机（废话），然后进入瘟98或瘟2000（还是废话，以下省去废话2万字），在进入SPSS后，具体工作流程如下：

将数据输入SPSS，并存盘以防断电。
进行必要的预分析（分布图、均数标准差的描述等），以确定应采用的检验方法。
按题目要求进行统计分析。
保存和导出分析结果。

下面就按这几步依次讲解。

§1.1 数据的输入和保存

1.1.1 SPSS的界面

当打开SPSS后，展现在我们面前的界面如下：

请将鼠标在上图中的各处停留，很快就会弹出相应部位的名称。

请注意窗口顶部显示为“SPSS for Windows Data Editor”，表明现在所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面，有菜单栏、工具栏。特别的，工具栏下方的是数据栏，数据栏下方则是数据管理窗口的主界面。该界面和EXCEL极为相似，由若干行和列组成，每行对应了一条记录，每列则对应了一个变量。由于现在我们没有输入任何数据，所以行、列的标号都是灰色的。请注意第一行第一列的单元格边框为深色，表明该数据单元格为当前单元格。

对Windows操作界面不熟悉的朋友可参见SAS入门第一课中的相关内容。对数据表界面操作不熟悉的朋友可先学习一下EXCEL的操作（因为它的帮助是中文的）。

有的SPSS系统打开时会出现一个导航对话框，请单击右下方的Cancer按钮，即可进入上面的主界面。

1.1.2 定义变量

该资料是定量资料，设计为成组设计，因此我们需要建立两个变量，一个变量代表血磷值，习惯上取名为X，另一个变量代表观察对象是健康人还是克山病人，习惯上取名为GROUP。

对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。

选择菜单Data==>Define Variable。系统弹出定义变量对话框如下：

该变量定义对话框在SPSS 10.0版中已被取消，这里的操作只适合9.0～7.0版的用户。

对话框最上方为变量名，现在显示为“VAR00001”，这是系统的默认变量名；往下是变量情况描述，可以看到系统默认该变量为数值型，长度为8，有两位小数位，尚无缺失值，显示对齐方式为右对齐；第三部分为四个设置更改按钮，分别可以设定变量类型、标签、缺失值和列显示格式；第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量，现在系统默认新变量为数值变量；最下方则依次是确定、取消和帮助按钮。

好，先来建立分组变量GROUP。请将变量名改为GROUP，然后单击OK按钮。

有没有搞错？！折腾了半天就改个名字！难道连变量格式、标签等都不改？是这样的，在SPSS中所有的数据均以最大位数保存（好象是双精度），也就是说，上面虽然默认只有两位小数，但那指的是计算精度，实际保存的数据位数是非常长的（可以输入Pi值试一下）。在绝大多数情况下，SPSS给出的默认数据类型和数据精度完全可以满足需要，只是不太好看而已。至于标签等比较花哨的选项，反正我也很少用。现在我们才刚刚入门，一切从简。以后我会详细介绍各种设置的用法。

在第一列灰色的“var”上双击，同样会弹出定义变量对话框。

现在SPSS的数据管理窗口如下所示：

第一列的名称已经改为了“group”，这就是我们所定义的新变量“group”。

现在我们来建立变量X。单击第一行第二列的单元格，然后选择菜单Data==>Define Variable，同样，将变量名改为X，然后确认。此时SPSS的数据管理窗口如下所示：

现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“var”，表示尚未使用。同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。

1.1.3 输入数据

我们先来输入变量X的值，请确认一行二列单元格为当前单元格，弃鼠标而用键盘，输入第一个数据0.84，此时界面显示如图A所示：


图A	图B

请注意：在回车之前，你输入的数据在数据栏内显示，而不是在单元格内显示，现在回车，界面如图B所示：

首先，当前单元格下移，变成了二行二列单元格，而一行二列单元格的内容则被替换成了0.84；其次，第一行的标号变黑，表明该行已输入了数据；第三，一行一列单元格因为没有输入过数据，显示为“.”，这代表该数据为缺失值。用类似的输入方式，我们将患者的血磷值输入完毕，并将相应的变量GROUP均取值为1，此时数据管理窗口如下所示：

从第12行开始输入健康人的数据，并将相应的GROUP变量取值为2。最终该数据集应该有24条记录。

1.1.4 保存数据

选择菜单File==>Save，由于该数据从来没有被保存过，所以弹出Save as对话框如下：

单击保存类型列表框，可以看到SPSS所支持的各种数据类型，有DBF、FoxPro、EXCEL、ACCESS等，这里我们仍然将其存为SPSS自己的数据格式（*.sav文件）。在文件名框内键入Li1_1并回车，可以看到数据管理窗口左上角由Untitled变为了现在的变量名Li1_1。

为什么这里的对话框会出现汉字？是这样的，需要从编程的角度来解释：SPSS在弹出该对话框时会调用Windows系统的公用函数，由于我们用的是中文Windows系统，所以调用出来的就是中文。

§1.2 数据的预分析

1.2.1 数据的简单描述

首先我们需要知道数据的基本情况，如均数、标准差等。选择Analyze==>Descriptive Statistics==>Descriptives菜单，系统弹出描述对话框如下：

如果按SPSS标准的叫法，这里应该是调用了Descriptives过程，为了避免太生硬，我们称为调用对话框，等大家熟悉SPSS了以后，在统计分析各章中可能两种称呼会混用。

该对话框可分为左右两大部分，左侧为所有可用的侯选变量列表，右侧为选入变量列表。我们只需要描述X，用鼠标选中X，单击中间的，变量X的标签就会移入右侧，注意这时OK按钮变黑，表明已经可以进行分析了，单击它，系统会弹出一个新的界面如下所示：

该窗口上方的名称为SPSS for Windows Viewer，即（结果）浏览窗口，整个的结构和资源管理器类似，左侧为导航栏，右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到，24个数据总的均数为1.2846，标准差为0.4687。

我们以上的做法对吗？当然有问题！光看总的描述是不够的，还应当看看分组的描述情况。这里要用到文件分割功能，请切换回数据管理窗口，选择Data==>Split File菜单，系统弹出文件分割对话框如下：

选择单选按钮Organize output by groups，将变量GROUP选入右侧的选入变量框，单击OK钮，此时界面不会有任何改变，但请再做一次数据描述，你就可以看到现在数据是分Group=1和Group=2两种情况在描述了！从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。如果定义了文件分割，则它会在以后的所有统计分析中起作用，直到你重新定义文件分割方式为止。

1.2.2 绘制直方图

统计指标只能给出数据的大致情况，没有直方图那样直观，我们就来画个直方图瞧瞧！选择Graphs==>Histogram，系统会弹出绘制直方图对话框如下：

将变量X选入Variable选择框内，单击OK按钮。此时结果浏览窗口内会绘制出如下两个直方图：

两组的数据没有特别偏的分布，也没有十分突出的离群值，因此无须变换，可以直接采用参数分析方法来分析。综合设计类型，最终确定采用成组设计两样本均数比较的t检验来分析。

最后，我们还要取消变量分割，免得它影响以后的统计分析，再次调出变量分割对话框，选择单选按钮中的“Analyze all cases, do not creat group”，单击OK按钮就可以了。

§1.3 按题目要求进行统计分析

下面我们要用SPSS来做成组设计两样本均数比较的t检验，选择Analyze==>Compare Means==>Independent-Samples T test，系统弹出两样本t检验对话框如下：

　　将变量X选入test框内，变量group选入grouping框内，注意这时下面的Define Groups按钮变黑，表示该按钮可用，单击它，系统弹出比较组定义对话框如右图所示：

该对话框用于定义是哪两组相比，在两个group框内分别输入1和2，表明是变量group取值为1和2的两组相比。然后单击Continue按钮，再单击OK按钮，系统经过计算后会弹出结果浏览窗口，首先给出的是两组的基本情况描述，如样本量、均数等（糟糕，刚才的半天工夫白费了），然后是t检验的结果如下：

Independent Samples Test

		Levene's Test for Equality of Variances		t-test for Equality of Means
		F	Sig.	t	df	Sig. (2-tailed)	Mean Difference	Std. Error Difference	95% Confidence Interval of the Difference
									Lower	Upper
X	Equal variances assumed	.032	.860	2.524	22	.019	.4363	.1729	7.777E-02	.7948
	Equal variances not assumed			2.524	21.353	.020	.4363	.1729	7.716E-02	.7954

可见该结果分为两大部分：第一部分为Levene's方差齐性检验，用于判断两总体方差是否齐，这里的戒严结果为F = 0.032，p = 0.860，可见在本例中方差是齐的；第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果，由于前面的方差齐性检验结果为方差齐，第二部分就应选用方差齐时的t检验结果，即上面一行列出的t= 2.524，ν=22，p=0.019。从而最终的统计结论为按α=0.05水准，拒绝H₀，认为克山病患者与健康人的血磷值不同，从样本均数来看，可认为克山病患者的血磷值较高。

§1.4 保存和导出分析结果

1.4.1 保存结果文件

前面我们已经做出了分析结果，但是，可是，可但是，但可是呢？再好的结果只要一断电就会全部消失（废话），对于这一问题人们早已想出了三种解决办法，他们分别是：

需要结果的时候再运行一次分析程序。
用笔将结果抄在纸上。
直接保存结果文件。

显然，最方便快捷、最符合信息时代特征的就是第三种方法，在结果浏览窗口中（注意：一定要在结果浏览窗口中）选择菜单File==>Save，由于该结果也从来没有被保存过，所以弹出和前面保存数据时极为相似的一个Save as对话框，和前面相比，他唯一的区别就是文件的保存类型只有View Files(*.spo)一种。好，闲言少叙，在文件名框中键入“Li1_1”并回车，该结果文件就会按文件名Li1_1.spo被存储。

不是文件保存类型还有一种“ALL Files(*.*)”吗？别费劲了，这种类型是SPSS公司放在那里哄人的，在该对话框里无论怎么折腾，都只能按SPO文件的格式来保存。

1.4.2 导出分析结果

文件倒是保存了，但问题还没有完全解决：我们从来写文章什么的都用的是文字处理软件，尤其是WORD，可WORD不能直接读取SPO格式的文件，怎么办呢？没关系，SPSS提供了将结果导出为纯文本格式或网页格式的功能，在结果浏览窗口中选择菜单File==>Export，系统会弹出Exprot Output对话框如下：

最上方的Export下拉式列表可以选择输出的内容，可以为含图表的输出文档、无图表的输出文档和只有统计图表三种；中部的Exprot File对话框则填入输出的目标文件名；左下方的Export What单选框可以选择输出结果的哪些部分，可以是所有结果、所有可见结果或只输出选择的结果，一般选输出所有可见结果；右下方的输出文件类型下拉式列表已被我打开，可见里面有网页格式和纯文本格式两种，在一切按所需选择完毕后按OK钮，则结果文件就会输出为你想要的类型。

好，到这里，就象我们刚开始所说的一样，你实际上已经完全掌握了SPSS的基本使用方法。我们以后将要做的工作就是“百尺竿头，更进一步”，将从下一章开始详细介绍SPSS各个模块的精确用法，使大家能尽快的从SPSS新手向SPSS高手过度。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

统计分析直方图数据分析特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

SPSS数据分析实例_数据分析师培训

§1.1 数据的输入和保存

1.1.1 SPSS的界面

1.1.2 定义变量

1.1.3 输入数据

1.1.4 保存数据

§1.2 数据的预分析

1.2.1 数据的简单描述

1.2.2 绘制直方图

§1.3 按题目要求进行统计分析

§1.4 保存和导出分析结果

1.4.1 保存结果文件

1.4.2 导出分析结果

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...