图解spss探索分析实例-CDA数据分析师官网

图解spss探索分析实例

2016-10-31

图解spss探索分析实例

探索分析是在对数据的基本特征统计量有初步了解的基础上，对数据进行的更为深入详细的描述性观察分析。它在一般描述性统计指标的基础上，增加了有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。主要的分析如下：

（1）观察数据的分布特征：通过绘制箱锁图和茎叶图等图形，直观地反映数据的分布形式和数据的一些规律，包括考察数据中是否存在异常值等。过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值，并分析原因，然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大，不能真实地反映数据的总体特征。

（2）正态分布检验：检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此，检验数据是否符合正态分布，就决定了它们是否能用只对正态分布数据适用的分析方法。

（3）方差齐性检验：用Levene检验比较各组数据的方差是否相等，以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前，就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时，不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平（Significance）小于0.05，那么就可以拒绝方差相同的假设。

探索分析的具体操作步骤如下：

打开数据文件，选择【分析】（Analyze）菜单，单击【描述统计】（Descriptive Statistics）命令下的【探索】（Explore）命令，SPSS将弹出"探索"（Explore）对话框，如图3-9所示。

在"探索"（Explore）对话框中，左边的变量列表为原变量列表，通过单击按钮可选择一个或者几个变量进入右边的"因变量列表"（Dependent List）框、"因子列表"（Factor List）框和"标注个案"（Label Cases by）列表框。因变量是用户所研究的目标变量。因子变量是影响因变量的因素，例如分组变量。标注个案是区分每个观测量的变量，如雇员的ID等。例如，研究同一班级男生和女生的身高差距时，就可将"身高"变量列入"因变量列表"（Dependent List）框中，将"性别"列入"因子列表"（Factor List）框中，同时将学生的"学号"变量列入"标注个案"（Label Cases by）列表框中。

如果有多个分组变量进入"因子列表"列表框中，那么会以分组变量的各种取值进行组合分组。如两个分组变量各有2种取值，那么输出的结果就会有4种组合分组。

在对话框下端的"输出"（Display）框中有三个选项：

两者都（Both）：默认选项，表示同时输出描述统计量的统计表格和图形。选择此项将激活右边的【统计量】（Statistics）和【绘制】（Plots）按钮。

统计量（Statistics）：表示只输出统计表格，不输出图表。选择此项将激活右边的【统计量】（Statistics）按钮，【绘制】（Plots）按钮不被激活。

图（Plots）：表示只输出图表，不输出统计表格。选择此项将激活右边的【绘制】（Plots）按钮，【统计量】（Statistics）按钮不被激活。

单击【统计量】（Statistics）按钮，打开"探索：统计量（Explore：Statistics）"对话框，如图3-10所示。

在该对话框中，4个选择项分别如下：

描述性（Descriptives）：选择此项，将生成描述性统计表格。表中显示样本数据的描述统计量，包括平均值、中位数、5%调整平均数、标准误、方差、标准差、最大值、最小值、组距、四分位数、峰度、偏度及峰度和偏度的标准误。此项为默认选项，在下面的"均值的置信区间"（Confidence Interval for Mean）文本框中，用户还可输入数值指定均值的置信区间的置信度，系统默认的置信度为95%。

M-估计量（M-estimators）：选择此项，将计算并生成稳健估计量。M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化，通过给远离中心值的数据赋予较小的权重来减小异常值的影响。

界外值（Outliers）：选择此项，将输出分析数据中的5个最大值和5个最小值作为异常嫌疑值。

百分位数（Percentiles）：选择此项，将计算并显示指定的百分位数，包括5%、10%、25%、50%、75%、90%和95%等。

"探索：统计量"对话框中的4个选项为复选框，用户可进行多项选择，单击【继续】（Continue）按钮，即可返回"探索"主对话框。

单击【绘制】（Plots）按钮，打开"探索：图"（Explore：Plots）对话框，如图3-11所示。

"探索：图"对话框中有如下4个选择组：

（1）箱图（Boxplots）栏（单选项组）：箱图，又称箱锁图。如果用户在"探索"主对话框的"因变量列表"（Dependent List）框中输入了多个变量名，则在此选择组中进行选择，可确定箱锁图的生成方式。箱锁图中，底部的水平线段是数据的最小值（异常点除外），顶部的水平线段是数据的最大值（异常点除外），中间矩形箱子的底所在的位置是数据的第一个四分位数（即25%分位数），箱子顶部所在位置是数据的第三个四分位数据（即75%分位数）。箱子中间的水平线段刻画的是数据的中位数（即50%分位数）。

按因子水平分组（Factor levels together，系统默认）：选择此项，将为每个因变量创建一个箱锁图，在每个箱锁图内根据分组变量的不同水平的取值创建箱形单元。

不分组（Dependents together）：选择此项，将为每个分组变量的水平创建一个箱锁图，在每个箱锁图内用不同的颜色区分不同因变量所对应的箱形单元，方便用户进行比较。

无（None）：选择此项，不创建箱图。

（2）描述性（Descriptive）栏（复选项）：选择该组内的选项，可以生成茎叶图和（或）直方图。在箱图（Boxplots）组内选择的选项不同，则生成的茎叶图和直方图也不相同。选择"按因子水平分组"单选按钮时，在创建茎叶图和（或）直方图时，首先会根据因变量的不同进行分类，为每一个因变量对应的不同分组变量的不同水平创建一个茎叶图和（或）直方图；选择"不分组"单选按钮时，在创建茎叶图和（或）直方图时，则首先根据不同分组变量水平的不同，为每一个因变量创建一个茎叶图和（或）直方图。

茎叶图（Stem-and-leaf，系统默认）：茎叶图主要由3个部分组成，即频率（Frequency）、茎（Stem）和叶（Leaf），在图中按从左到右的顺序依次排列，在图的底端，注明了茎的宽度（Stem Width）和每一叶所代表的观测量数（Each Leaf）。茎叶图中，茎表示数据的整数部分，叶表示数据的小数部分（小数位数只有一位，频数的数值有多大，则对应的小数就有多少个），将茎和叶的数值组合起来再乘以茎宽，便是该数据的值。由于茎叶图不仅仅能表示数据的频数分布，还能近似地表示数据的大小，因此它比直方图表达的信息更全面。

直方图（Histogram）：直接绘制直方图的步骤详见第10章。

（3）带检验的正态图（Normality plots with test，复选框）：选择此项，将进行正态性检验，并生成正态Q-Q概率图和无趋势正态Q-Q概率图。

（4）伸展与级别Levene检验（Spread vs level with Levene Test）栏（单选项组）：对所有的展布-水平图进行方差齐性检验和数据转换，同时输出回归直线的斜率及方差齐性的Levene检验，但如果没有指定分组变量，则此选项无效。

无（None）：不进行Levene检验，系统默认。选择此项，SPSS将不产生回归直线的斜率和方差齐性检验。

幂估计（Power Estimation）：对每组数据产生一个中位数的自然对数及四个分位数的自然对数的散点图。

已转换（Transformed）：变换原始数据，用户可在后面的参数框中选择数据变换类型。

未转换（Untransformed）：不变换原始数据时选择此项。

用户在"探索：图"对话框中进行选择后，单击【继续】（Continue）按钮，即可返回"探索"主对话框。

单击【选项】（Options）按钮，打开"探索：选项"（Explore：Options）对话框，如图3-12所示。

在该对话框中，可选择缺失值的处理方式，SPSS提供了3种处理方式：

按列表排除个案（Exclude cases listwise，系统默认）：选择此项，对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据；

按对排除个案（Exclude cases pairwise）：同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据，在其他分析过程中可能包含缺失值；

报告值（Report values）：选择此项，将分组变量的缺失值单独分为一组，在输出频数表的同时输出缺失值。

用户在"探索：选项"对话框中进行选择后，单击【继续】（Continue）按钮，即可返回"探索"主对话框。

单击【确定】（OK）按钮，即可在结果输出窗口中得到探索分析过程的数据概述、基本统计描述表、极端值列表、正态分布检验、方差齐性检验、茎叶图、直方图、箱锁图、正态分布Q-Q图、离散正态分布Q-Q图等图表。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

直方图正态分布特征方差分析散点图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

图解spss探索分析实例

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...