SPSS分析技术：典型判别分析；由鸢(yuan)尾花分类发展而来的分析方法-CDA数据分析师官网

SPSS分析技术：典型判别分析；由鸢(yuan)尾花分类发展而来的分析方法

2017-07-11

SPSS分析技术：典型判别分析；由鸢(yuan)尾花分类发展而来的分析方法

前面介绍的因子分析和聚类分析都是围绕变量进行的分析，这里的变量不分因变量和自变量。因子分析通过变量结构的研究，达到降低维度的目的，使数量很多的变量浓缩成少量的互相独立的公因子，简化了后续的分析；聚类分析通过研究个案（记录）共有的属性变量，依据它们之间距离的远近，将数量众多的个案（记录）分成几个类型。

判别分析有很多类型，今天介绍的是典型判别分析，从分析原理来看，其与因子分析类似；从模型结构来看，则与前面介绍的逻辑回归相似。

典型判别分析原理

判别分析与因子分析和聚类分析不同，判别分析需要区分因变量和自变量，其中因变量是分类型数据（定类或定序），而自变量可以是任何尺度的数据，只是分类型自变量需要以虚拟变量的形式进入判别模型。以上这些和逻辑回归模型是一致的，不同之处在于判别分析的目的是建立原始变量的线性组合，使得根据因变量划分的不同类别之间差异最大，而逻辑回归模型的拟合方法是极大似然法，它们在模型拟合方法上是完全不同的。如果自变量中连续型变量较多，那么判别分析更为准确，如果分类型变量较多，则逻辑回归分析较为好用，大家可以根据实际分析结果来选择。

判别分析的能够用于很多领域，它可以根据已知样本的分类情况来判断未知待判样本的类别归属。例如，客户信用风险判别、客户分类、地层判断、模式识别等，是应用相当广泛的多元统计技术。

典型判别分析是基于方差分析的思想创造出来的，它试图找到一个由原始自变量组成的线性函数，使得不同总体的组间差异与组内差异的比值最大。如下方左图所示，在原始变量X1和X2组成的坐标系中，两个总体在两个坐标轴上都有部分重合；可喜的是，通过将原始变量X1和X2线性组合，可以得到一个新变量（判别函数），它可以把两个总体区分开。因此只需使用新判别函数代替两个原始变量对两个总体进行区别，就能得到更好的结果，这就是典型判别分析的基本思想。

判别分析与因子分析

从上面介绍的典型判别分析原理来看，其与因子分析的原理有类似的地方，它们都是通过原始变量的线性组合得到新的变量，从而实现分析目的。它们的区别主要可以概括成以下两个方面：

判别分析是因果模型，研究自变量如何影响因变量，而因子分析是相依模型，没有因变量和自变量之分。

判别分析的原始变量线性组合的目的是找到新的维度（变量），使得因变量的不同类别之间的差异最大。因子分析的原始变量线性组合的目的是找到新的维度，减少原始变量的个数，避免原始变量的共线性关系影响后续分析。

案例分析

判别分析最初是由费舍尔(Fisher)在植物分类研究中提出的，英文简写为LDF/DF，也就是线性判别分析(Linear DiscriminantAnalysis)。今天案例所使用的数据就是费舍尔当初提出判别分析所用的鸢(yuan)尾花的植株尺寸数据。

该数据包含刚毛鸢尾花、变色鸢尾花、佛吉尼亚鸢尾花的花萼长、花萼宽、花瓣长和花瓣宽数据，希望能够使用这四个变量建立判别不同类型鸢尾花的模型。数据如下图所示：

分析步骤

1、选择菜单【分析】-【分类】-【判别式】。将品种选入分组变量；将鸢尾花的四个尺寸变量选为自变量。自变量进入方式选择一起进入。如果需要对自变量进行筛选，也可以选择步进法，选中步进法后【方法】按钮将亮起，可以选择距离计算方式。点击【定义范围】，因为本案例鸢尾花的三个品种代码分别为1,2,3，所以最小值填写1，最大值填写3。

2、点击【分类】按钮，按照如下方式选择。显示框中的内容是判别分析得结果表格。重点强调留一分类，表示按照数据的顺序，间隔一个记录选择进入判别分析模型，最终一半记录用于模型分析，另一半记录用于模型效果验证。图框内可供选择的图形有三种，合并图和分组图区别在于因变量的三个类型是放入一张图还是分成三张图显示。