在R中使用支持向量机（SVM）进行数据挖掘（上）-CDA数据分析师官网

在R中使用支持向量机（SVM）进行数据挖掘（上）

2017-03-18

在R中，可以使用e1071软件包所提供的各种函数来完成基于支持向量机的数据分析与挖掘任务。请在使用相关函数之前，安装并正确引用e1071包。该包中最重要的一个函数就是用来建立支持向量机模型的svm()函数。我们将结合后面的例子来演示它的用法。
下面这个例子中的数据源于1936年费希尔发表的一篇重要论文。彼时他收集了三种鸢尾花（分别标记为setosa、versicolor和virginica）的花萼和花瓣数据。包括花萼的长度和宽度，以及花瓣的长度和宽度。我们将根据这四个特征来建立支持向量机模型从而实现对三种鸢尾花的分类判别任务。
有关数据可以从datasets软件包中的iris数据集里获取，下面我们演示性地列出了前5行数据。成功载入数据后，易见其中共包含了150个样本（被标记为setosa、versicolor和virginica的样本各50个），以及四个样本特征，分别是Sepal.Length、Sepal.Width、Petal.Length和Petal.Width。

在正式建模之前，我们也可以通过一个图型来初步判定一下数据的分布情况，为此在R中使用如下代码来绘制（仅选择Petal.Length和Petal.Width这两个特征时）数据的划分情况。
[plain] view plain copy
> library(lattice)
> xyplot(Petal.Length ~ Petal.Width, data = iris, groups = Species,
+ auto.key=list(corner=c(1,0)))
上述代码的执行结果如图14-13所示，从中不难发现，标记为setosa的鸢尾花可以很容易地被划分出来。但仅使用Petal.Length和Petal.Width这两个特征时，versicolor和virginica之间尚不是线性可分的。

函数svm()在建立支持向量机分类模型时有两种方式。第一种是根据既定公式建立模型，此时的函数使用格式为
[plain] view plain copy
svm(formula, data= NULL, subset, na.action = na.omit , scale= TRUE)
其中，formula代表的是函数模型的形式，data代表的是在模型中包含的有变量的一组可选格式数据。参数na.action用于指定当样本数据中存在无效的空数据时系统应该进行的处理。默认值na.omit表明程序会忽略那些数据缺失的样本。另外一个可选的赋值是na.fail，它指示系统在遇到空数据时给出一条错误信息。参数scale为一个逻辑向量，指定特征数据是否需要标准化（默认标准化为均值0，方差1）。索引向量subset用于指定那些将被来训练模型的采样数据。
例如，我们已经知道，仅使用Petal.Length和Petal.Width这两个特征时标记为setosa和的鸢尾花versicolor是线性可分的，所以可以用下面的代码来构建SVM模型。

然后我们可以使用下面的代码来对模型进行图形化展示，其执行结果如图14-14所示。
[plain] view plain copy
> plot(model1, subdata, Petal.Length ~ Petal.Width)

在使用第一种格式建立模型时，若使用数据中的全部特征变量作为模型特征变量时，可以简要地使用“Species~．”中的“．”代替全部的特征变量。例如下面的代码就利用了全部四种特征来对三种鸢尾花进行分类。
[plain] view plain copy
> model2 <- svm(Species ~ ., data = iris)
若要显示模型的构建情况，使用summary()函数是一个不错的选择。来看下面这段示例代码及其输出结果。

通过summary函数可以得到关于模型的相关信息。其中，SVM-Type项目说明本模型的类别为C分类器模型；SVM-Kernel项目说明本模型所使用的核函数为高斯内积函数且核函数中参数gamma的取值为0.25；cost项目说明本模型确定的约束违反成本为l。而且我们还可以看到，模型找到了51个支持向量：第一类包含有8个支持向量，第二类包含有22个支持向量，第三类包含21个支持向量。最后一行说明模型中的三个类别分别为setosa、versicolor和virginica。数据分析师培训