热线电话：13121318867

统计之 - 方差分析(ANOVA)_数据分析师

2014-12-24

统计之 - 方差分析(ANOVA)_数据分析师

方差分析(Analysisof Variance，简称ANOVA)，又称“变异数分析”或“F检验”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

简介

方差分析是用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状，造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

原理

方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个：

随机误差，如测量误差造成的差异或个体间的差异，称为组内差异，用变量在各组的均值与该组内变量值之偏差平方和的总和表示，记作SSw。组内自由度记为dfw，其概念稍后会说到。

实验条件，即不同的处理造成的差异，称为组间差异。用变量在各组的均值与总均值之偏差平方和表示，记作SSb。组间自由度记做dfb，其概念稍后会说到。

总偏差平方和SSt = SSb + SSw。

组内SSw、组间SSb除以各自的自由度(组内dfw=n-m，组间dfb=m-1，其中n为样本总数，m为组数)，得到其均方MSw和MSb，一种情况是处理没有作用，即各组样本均来自同一总体，MSb/MSw≈1。另一种情况是处理确实有作用，组间均方是由于误差与不同处理共同导致的结果，即各样本来自不同总体。那么，MSb>>MSw(远远大于)。

MSb/MSw比值构成F分布。用F值与其临界值比较，推断各样本是否来自相同的总体。

基本思想

方差分析的基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

举例分析：

下面我们用一个简单的例子来说明方差分析的基本思想：

如某克山病区测得11例克山病患者和13名健康人的血磷值（mmol/L）如下：

患者：0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人：0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

问该地克山病患者与健康人的血磷值是否不同？从以上资料可以看出，24个个体中患者与健康人的血磷值各不相同，如果用离均差平方和（SS）描述其围绕总均值的变异情况，则总变异有以下两个来源：

组内变异，即该24个个体来自同一总体，但由于随机误差的原因使得各组内部的血磷值各不相等；

组间变异，即该24个个体来自两个不同的总体-即健康人跟患者的血磷脂从本质上是有差别的，它们是两个不同的总体。

而且：SS总=SS组间+SS组内 v总=v组间+v组内

如果用均方（离差平方和除以自由度）代替离差平方和以消除各组样本数不同的影响，则方差分析就是用组间均方去除组内均方的商（即F值）与1相比较，若F值接近1，则说明各组均值间的差异没有统计学意义，若F值远大于1，则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表（方差分析用）获得。

利用统计软件分析结果如下：

data a;

input type num@@;

cards;

1 0.84 1 1.05 11.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11

2 0.54 2 0.64 20.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.56 2 1.87

;

run;

proc anova;

class type;

model num=type;

means type;

run;

应用

方差分析主要用途：①均数差别的显著性检验，②分离各有关因素并估计其对总变异的作用，③分析因素间的交互作用，④方差齐性检验。

在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异。例如医学界研究几种药物对某种疾病的疗效；农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响；不同化学药剂对作物害虫的杀虫效果等，都可以使用方差分析方法去解决。

一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交互作用，以及显著影响因素的最佳水平等。方差分析是在可比较的数组中，把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和，这是一个很重要的思想。

经过方差分析若拒绝了检验假设，只能说明多个样本总体均值不相等或不全相等。若要得到各组均值间更详细的信息，应在方差分析的基础上进行多个样本均值的两两比较。

多个样本均值间两两比较

多个样本均值间两两比较常用q检验的方法，即Newman-keuls法，其基本步骤为：建立检验假设-->样本均值排序-->计算q值-->查q界值表判断结果。

多个实验组与一个对照组均值间两两比较

多个实验组与一个对照组均值间两两比较，若目的是减小第II类错误，最好选用最小显著差法（LSD法）；若目的是减小第I类错误，最好选用新复极差法，前者查t界值表，后者查q'界值表。

CDA学员免费下载查看报告全文：2026全球数智化人才指数报告【CDA数据科学研究院】.pdf

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；