数值变量正态性检验常用方法的对比及SPSS&R实现-CDA数据分析师官网

热线电话：13121318867

数值变量正态性检验常用方法的对比及SPSS&R实现

2016-12-08

数值变量正态性检验常用方法的对比及SPSS&R实现

一、方法概述

正态分布又叫高斯分布，“正态”即“正常的状态”，本意是说如果在观察或试验中不出现重大的失误，则结果应遵循这种模式的分布——尽管随着人们实践经验的积累发现事实并非如此。正态分布之所以得到普遍重视，除了它可以用来刻画数值变量的分布特征外，另一个重要原因要归功于Fisher及其同时代的若干杰出学者。他们对正态总体下一系列重要的统计量建立了形式简约且在计算上可行的小样本理论，为统计推断提供了极大的方便，而在非正态的情况下则没有可比拟的结果[1,2]。基于此，人们在实际统计分析时，总是乐于采用正态假定。人们在对一个数值变量进行分析之前，可以参照既往基于大样本所推测的变量分布形式，确定正态性假定的合理性。然而，有时既往文献中没有基于大样本的变量分布形式定论，致使研究者对正态性假定是否合理无充分的把握。这时就需要使用实际的观测数据，实施正态性检验。

二、软件实现

统计分析包括统计描述和统计推断[1]，正态性的分析主要包括统计图绘制，及统计指标的计算与检验两种方法。利用统计图可以直观地呈现变量的分布，同时还可以呈现出经验分布和理论分布的差距。峰度、偏度就是两个常用的正态性描述统计指标，通过构建检验统计量还能实现正态性检验，Shapiro-Wilk检验、Kolmogorov-Smirnov、偏度峰度联合检验（Jarque–Bera检验）、GramerVon-Mises检验等均是通过构建检验统计量对样本进行正态性检验。具体见表1。

如表1所示，直方图、茎叶图和箱式图为主观的基于统计图的正态性描述方法，而统计描述指标峰度检验和偏度检验可以被认为是一种客观的数值计算的正态性检验方法。基于统计推断的概率图、P-P图、Q-Q图为客观的图表判断的正态性检验方法，而基于数值计算的常用的统计软件，如SAS，SPSS,R,STATA均有相关命令或者过程步基于样本数据对总体的正态性进行检验，表2给出了常见的四种统计软件实现上述正态性检验方法的命令语句，以及各种方法使用过程中对样本量的要求。

三、方法选择流程图

下图是正态性检验的方法选择的流程图，大家可根据样本数据情况选择不同的方法。

四、SPSS中正态性检验操作演示

下面我们来看一组数据，并检验“期初平均分” 数据是否呈正态分布（此数据已在SPSS里输入好）：

在SPSS里执行“分析—>描述统计—>频数统计表”(菜单见下图，英文版的可以找到相应位置)，然后弹出左边的对话框，变量选择左边的“期初平均分”，再点下面的“图表”按钮，弹出图中右边的对话框，选择“直方图”，并选中“包括正态曲线”。

设置完后点“确定”，就后会出来一系列结果，包括2个表格和一个图，我们先来看看最下面的图，见下图，

上图中横坐标为期初平均分，纵坐标为分数出现的频数。从图中可以看出根据直方图绘出的曲线是很像正态分布曲线。如何证明这些数据符合正态分布呢，光看曲线还不够，还需要检验：

检验方法一：看偏度系数和峰度系数

我们把SPSS结果最上面的一个表格拿出来看看(见下图)：

偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886；两个系数都小于1，可认为近似于正态分布。

检验方法二：单个样本K-S检验

在SPSS里执行“分析—>非参数检验—>单个样本K-S检验，弹出对话框，检验变量选择“期初平均分”，检验分布选择“正态分布”，然后点“确定”。

检验结果为：

从结果可以看出，K-S检验中,Z值为0.493，P值(sig 2-tailed)=0.968>0.05，因此数据呈近似正态分布

检验方法三：Q-Q图检验

在SPSS里执行“图表—>Q-Q图”，弹出对话框，见下图：

变量选择“期初平均分”，检验分布选择“正态”，其他选择默认，然后点“确定”，最后可以得到Q-Q图检验结果，结果很多，我们只需要看最后一个图，见下图。

QQ Plot中，各点近似围绕着直线，说明数据呈近似正态分布。

五、R：正态性检验

（1）QQ概率图

功能和原理：检验样本的概率分布是否服从某种理论分布。PP概率图的原理是检验实际累积概率分布与理论累积概率分布是否吻合，若吻合，则散点应围绕在一条直线周围，或者实际概率与理论概率之差分布在对称于以0为水平轴的带内。QQ概率图的原理是检验实际分位数与理论分位数之差分布是否吻合，若吻合，则散点应围绕在一条直线周围，或者实际分位数与理论分位数之差分布在对称于以0为水平轴的带内。QQ概率图以样本的分位数为横轴，以指定理论分布的分位数为纵轴绘制散点图。

> library(DAAG)
> data(possum)
> attach(possum)
The following object(s) are masked from 'possum (position 12)':

age, belly, case, chest, earconch, eye, footlgth, hdlngth, Pop,
sex, site, skullw, taill, totlngth
> fpossum <- possum[possum$sex=="f",]
> mean = mean(totlngth)
> sd = sd(totlngth)
> x <- sort(totlngth)
> n <- length(x)
> y <- (1:n)/n
>
> plot(x,y,
+ type = 's',
+ main = "Empirical CDF of ")
> curve(pnorm(x, mean, sd),
+ col = 'red',
+ lwd = 2,
+ add = T）

图形表示，数据与正态性略有差异，特别是中部区域。

（2）与正态密度函数直接比较

> library(DAAG)
> data(possum)
> attach(possum)
The following object(s) are masked from 'possum (position 13)':

age, belly, case, chest, earconch, eye, footlgth, hdlngth, Pop,
sex, site, skullw, taill, totlngth
> fpossum <- possum[possum$sex=="f",]
> dens <- density(totlngth)
> xlim <- range(dens$x)
> ylim <- range(dens$y)
> mean = mean(totlngth)
> sd = sd(totlngth)
> par(mfrow=c(1,2))
>
> hist(totlngth,
+ breaks=72.5+(0:5)*5,
+ xlim = xlim ,
+ ylim = ylim ,
+ probability = T ,
+ xlab = "total length",
+ main = "A:Breaks at 72.5...")
> lines(dens,
+ col = par('fg'),
+ lty = 2)
> curve( dnorm(x, mean, sd),
+ col = 'red',
+ add = T)
>
> hist(totlngth,
+ breaks = 75 + (0:5) * 5 ,
+ xlim = xlim,
+ ylim = ylim,
+ probability = T,
+ xlab="total length",
+ main = "B:Breaks at 75")
> lines(dens,
+ col = par('fg'),
+ lty = 2)
> curve(dnorm(x,mean,sd),
+ col = 'red',
+ add = T)

看图直接看和正态密度函数的差异度。

（3）使用经验分布函数，直接比较数据的经验分布函数和正态分布的分布函数对比。

> library(DAAG)
> data(possum)
> attach(possum)
The following object(s) are masked from 'possum (position 14)':

age, belly, case, chest, earconch, eye, footlgth, hdlngth, Pop,
sex, site, skullw, taill, totlngth
> fpossum <- possum[possum$sex=="f",]
> mean = mean(totlngth)
> sd = sd(totlngth)
> x <- sort(totlngth)
> n <- length(x)
> y <- (1:n)/n
>
> plot(x,y,
+ type = 's',
+ main = "Empirical CDF of ")
> curve(pnorm(x, mean, sd),
+ col = 'red',
+ lwd = 2,
+ add = T)