SPSS数据分析实例_数据分析师培训
先从一个数据分析实例入手:当你将这个例题做完,SPSS的基本使用方法也就已经被你掌握了。具体的统计分析功能则按10.0版本讲述
就让我们开始吧!
例1.1 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同(卫统第三版例4.8)?
患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11
健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
让我们把要做的事情理理顺:首先要做的肯定是打开计算机(废话),然后进入瘟98或瘟2000(还是废话,以下省去废话2万字),在进入SPSS后,具体工作流程如下:
将数据输入SPSS,并存盘以防断电。
进行必要的预分析(分布图、均数标准差的描述等),以确定应采用的检验方法。
按题目要求进行统计分析。
保存和导出分析结果。
下面就按这几步依次讲解。
当打开SPSS后,展现在我们面前的界面如下:
请将鼠标在上图中的各处停留,很快就会弹出相应部位的名称。
请注意窗口顶部显示为“SPSS for Windows Data Editor”,表明现在所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面,有菜单栏、工具栏。特别的,工具栏下方的是数据栏,数据栏下方则是数据管理窗口的主界面。该界面和EXCEL极为相似,由若干行和列组成,每行对应了一条记录,每列则对应了一个变量。由于现在我们没有输入任何数据,所以行、列的标号都是灰色的。请注意第一行第一列的单元格边框为深色,表明该数据单元格为当前单元格。
对Windows操作界面不熟悉的朋友可参见SAS入门第一课中的相关内容。对数据表界面操作不熟悉的朋友可先学习一下EXCEL的操作(因为它的帮助是中文的)。
有的SPSS系统打开时会出现一个导航对话框,请单击右下方的Cancer按钮,即可进入上面的主界面。
该资料是定量资料,设计为成组设计,因此我们需要建立两个变量,一个变量代表血磷值,习惯上取名为X,另一个变量代表观察对象是健康人还是克山病人,习惯上取名为GROUP。
对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。
选择菜单Data==>Define Variable。系统弹出定义变量对话框如下:
该变量定义对话框在SPSS 10.0版中已被取消,这里的操作只适合9.0~7.0版的用户。
对话框最上方为变量名,现在显示为“VAR00001”,这是系统的默认变量名;往下是变量情况描述,可以看到系统默认该变量为数值型,长度为8,有两位小数位,尚无缺失值,显示对齐方式为右对齐;第三部分为四个设置更改按钮,分别可以设定变量类型、标签、缺失值和列显示格式;第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量,现在系统默认新变量为数值变量;最下方则依次是确定、取消和帮助按钮。
好,先来建立分组变量GROUP。请将变量名改为GROUP,然后单击OK按钮。
有没有搞错?!折腾了半天就改个名字!难道连变量格式、标签等都不改?是这样的,在SPSS中所有的数据均以最大位数保存(好象是双精度),也就是说,上面虽然默认只有两位小数,但那指的是计算精度,实际保存的数据位数是非常长的(可以输入Pi值试一下)。在绝大多数情况下,SPSS给出的默认数据类型和数据精度完全可以满足需要,只是不太好看而已。至于标签等比较花哨的选项,反正我也很少用。现在我们才刚刚入门,一切从简。以后我会详细介绍各种设置的用法。
在第一列灰色的“var”上双击,同样会弹出定义变量对话框。
现在SPSS的数据管理窗口如下所示:
第一列的名称已经改为了“group”,这就是我们所定义的新变量“group”。
现在我们来建立变量X。单击第一行第二列的单元格,然后选择菜单Data==>Define Variable,同样,将变量名改为X,然后确认。此时SPSS的数据管理窗口如下所示:
现在,第一、第二列的名称均为深色显示,表明这两列已经被定义为变量,其余各列的名称仍为灰色的“var”,表示尚未使用。同样地,各行的标号也为灰色,表明现在还未输入过数据,即该数据集内没有记录。
我们先来输入变量X的值,请确认一行二列单元格为当前单元格,弃鼠标而用键盘,输入第一个数据0.84,此时界面显示如图A所示:
|
|
图A |
图B |
请注意:在回车之前,你输入的数据在数据栏内显示,而不是在单元格内显示,现在回车,界面如图B所示:
首先,当前单元格下移,变成了二行二列单元格,而一行二列单元格的内容则被替换成了0.84;其次,第一行的标号变黑,表明该行已输入了数据;第三,一行一列单元格因为没有输入过数据,显示为“.”,这代表该数据为缺失值。用类似的输入方式,我们将患者的血磷值输入完毕,并将相应的变量GROUP均取值为1,此时数据管理窗口如下所示:
从第12行开始输入健康人的数据,并将相应的GROUP变量取值为2。最终该数据集应该有24条记录。
选择菜单File==>Save,由于该数据从来没有被保存过,所以弹出Save as对话框如下:
单击保存类型列表框,可以看到SPSS所支持的各种数据类型,有DBF、FoxPro、EXCEL、ACCESS等,这里我们仍然将其存为SPSS自己的数据格式(*.sav文件)。在文件名框内键入Li1_1并回车,可以看到数据管理窗口左上角由Untitled变为了现在的变量名Li1_1。
为什么这里的对话框会出现汉字?是这样的,需要从编程的角度来解释:SPSS在弹出该对话框时会调用Windows系统的公用函数,由于我们用的是中文Windows系统,所以调用出来的就是中文。
首先我们需要知道数据的基本情况,如均数、标准差等。选择Analyze==>Descriptive Statistics==>Descriptives菜单,系统弹出描述对话框如下:
如果按SPSS标准的叫法,这里应该是调用了Descriptives过程,为了避免太生硬,我们称为调用对话框,等大家熟悉SPSS了以后,在统计分析各章中可能两种称呼会混用。
该对话框可分为左右两大部分,左侧为所有可用的侯选变量列表,右侧为选入变量列表。我们只需要描述X,用鼠标选中X,单击中间的,变量X的标签就会移入右侧,注意这时OK按钮变黑,表明已经可以进行分析了,单击它,系统会弹出一个新的界面如下所示:
该窗口上方的名称为SPSS for Windows Viewer,即(结果)浏览窗口,整个的结构和资源管理器类似,左侧为导航栏,右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到,24个数据总的均数为1.2846,标准差为0.4687。
我们以上的做法对吗?当然有问题!光看总的描述是不够的,还应当看看分组的描述情况。这里要用到文件分割功能,请切换回数据管理窗口,选择Data==>Split File菜单,系统弹出文件分割对话框如下:
选择单选按钮Organize output by groups,将变量GROUP选入右侧的选入变量框,单击OK钮,此时界面不会有任何改变,但请再做一次数据描述,你就可以看到现在数据是分Group=1和Group=2两种情况在描述了!从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。 如果定义了文件分割,则它会在以后的所有统计分析中起作用,直到你重新定义文件分割方式为止。
统计指标只能给出数据的大致情况,没有直方图那样直观,我们就来画个直方图瞧瞧!选择Graphs==>Histogram,系统会弹出绘制直方图对话框如下:
将变量X选入Variable选择框内,单击OK按钮。此时结果浏览窗口内会绘制出如下两个直方图:
|
|
两组的数据没有特别偏的分布,也没有十分突出的离群值,因此无须变换,可以直接采用参数分析方法来分析。综合设计类型,最终确定采用成组设计两样本均数比较的t检验来分析。
最后,我们还要取消变量分割,免得它影响以后的统计分析,再次调出变量分割对话框,选择单选按钮中的“Analyze all cases, do not creat group”,单击OK按钮就可以了。
下面我们要用SPSS来做成组设计两样本均数比较的t检验,选择Analyze==>Compare Means==>Independent-Samples T test,系统弹出两样本t检验对话框如下:
将变量X选入test框内,变量group选入grouping框内,注意这时下面的Define Groups按钮变黑,表示该按钮可用,单击它,系统弹出比较组定义对话框如右图所示: 该对话框用于定义是哪两组相比,在两个group框内分别输入1和2,表明是变量group取值为1和2的两组相比。然后单击Continue按钮,再单击OK按钮,系统经过计算后会弹出结果浏览窗口,首先给出的是两组的基本情况描述,如样本量、均数等(糟糕,刚才的半天工夫白费了),然后是t检验的结果如下: |
|
Independent Samples Test
|
Levene's Test for Equality of Variances |
t-test for Equality of Means |
||||||||
F |
Sig. |
t |
df |
Sig. (2-tailed) |
Mean Difference |
Std. Error Difference |
95% Confidence Interval of the Difference |
|||
Lower |
Upper |
|||||||||
X |
Equal variances assumed |
.032 |
.860 |
2.524 |
22 |
.019 |
.4363 |
.1729 |
7.777E-02 |
.7948 |
Equal variances not assumed |
|
|
2.524 |
21.353 |
.020 |
.4363 |
.1729 |
7.716E-02 |
.7954 |
可见该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的戒严结果为F = 0.032,p = 0.860,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t= 2.524,ν=22,p=0.019。从而最终的统计结论为按α=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。
前面我们已经做出了分析结果,但是,可是,可但是,但可是呢?再好的结果只要一断电就会全部消失(废话),对于这一问题人们早已想出了三种解决办法,他们分别是:
需要结果的时候再运行一次分析程序。
用笔将结果抄在纸上。
直接保存结果文件。
显然,最方便快捷、最符合信息时代特征的就是第三种方法,在结果浏览窗口中(注意:一定要在结果浏览窗口中)选择菜单File==>Save,由于该结果也从来没有被保存过,所以弹出和前面保存数据时极为相似的一个Save as对话框,和前面相比,他唯一的区别就是文件的保存类型只有View Files(*.spo)一种。好,闲言少叙,在文件名框中键入“Li1_1”并回车,该结果文件就会按文件名Li1_1.spo被存储。
不是文件保存类型还有一种“ALL Files(*.*)”吗?别费劲了,这种类型是SPSS公司放在那里哄人的,在该对话框里无论怎么折腾,都只能按SPO文件的格式来保存。
文件倒是保存了,但问题还没有完全解决:我们从来写文章什么的都用的是文字处理软件,尤其是WORD,可WORD不能直接读取SPO格式的文件,怎么办呢?没关系,SPSS提供了将结果导出为纯文本格式或网页格式的功能,在结果浏览窗口中选择菜单File==>Export,系统会弹出Exprot Output对话框如下:
最上方的Export下拉式列表可以选择输出的内容,可以为含图表的输出文档、无图表的输出文档和只有统计图表三种;中部的Exprot File对话框则填入输出的目标文件名;左下方的Export What单选框可以选择输出结果的哪些部分,可以是所有结果、所有可见结果或只输出选择的结果,一般选输出所有可见结果;右下方的输出文件类型下拉式列表已被我打开,可见里面有网页格式和纯文本格式两种,在一切按所需选择完毕后按OK钮,则结果文件就会输出为你想要的类型。
好,到这里,就象我们刚开始所说的一样,你实际上已经完全掌握了SPSS的基本使用方法。我们以后将要做的工作就是“百尺竿头,更进一步”,将从下一章开始详细介绍SPSS各个模块的精确用法,使大家能尽快的从SPSS新手向SPSS高手过度。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19