分类算法的R语言实现案例-CDA数据分析师官网

分类算法的R语言实现案例

2018-05-20

分类算法的R语言实现案例

最近在读《R语言与网站分析》，书中对分类、聚类算法的讲解通俗易懂，和数据挖掘理论一起看的话，有很好的参照效果。
然而，这么好的讲解，作者居然没提供对应的数据集。手痒之余，我自己动手整理了一个可用于分类算法的数据集（下载链接：csdn下载频道搜索“R语言与网站分析：数据集样例及分类算法实现”），并用 R语言实现了朴素贝叶斯、SVM和人工神经网络分类。

数据集记录的是泰坦尼克号乘客的存活情况。数据集包括乘客的等级（class）、年龄（age）、性别（sex）和存活情况（survive），最终希望通过分析乘客的等级、年龄和性别建立模型，对乘客是否能够存活进行分类。
以下是使用read.table()函数读取的数据集情况，可以看到class的3/4分位数和最大值、age的最小值和1/4分位数以及sex的1/4分位数和中位值分别相等，判断数据集可能已经离散化。
[plain] view plain copy
    > data <- read.table("./titanic_s.txt", header = TRUE, sep = ",")
    > summary(data)
         class                 age                 sex                survive
     Min.   :-1.8700000   Min.   :-0.228000   Min.   :-1.9200000   Min.   :-1.0000
     1st Qu.:-0.9230000   1st Qu.:-0.228000   1st Qu.: 0.5210000   1st Qu.:-1.0000
     Median : 0.0214000   Median :-0.228000   Median : 0.5210000   Median :-1.0000
     Mean   :-0.0007595   Mean   : 0.000202   Mean   :-0.0002494   Mean   :-0.3539
     3rd Qu.: 0.9650000   3rd Qu.:-0.228000   3rd Qu.: 0.5210000   3rd Qu.: 1.0000
     Max.   : 0.9650000   Max.   : 4.380000   Max.   : 0.5210000   Max.   : 1.0000
将数据全部转换为因子类型。可以看到经过转换后，class有四类（贵族、高、中、低）、age有两类（孩子和成人）、sex有两类（男和女）、survive有两类（存活和未存活）。
[plain] view plain copy
    > data$class <- as.factor(data$class)
    > data$age <- as.factor(data$age)
    > data$sex <- as.factor(data$sex)
    > data$survive <- as.factor(data$survive)
    > summary(data)
        class         age          sex       survive
     -1.87 :325   -0.228:2092   -1.92: 470   -1:1490
     -0.923:285   4.38 : 109   0.521:1731   1 : 711
     0.0214:706
     0.965 :885

使用table()函数可查看未存活和存活人数分别为1490人、711人，二者数据量相差较大；如果用这样的数据集建模，可能影响分类结果。
[plain] view plain copy
    > table(data$survive)

      -1    1
    1490 711
为此，对数据量较少的存活人员样本进行重抽样，使得二者的样本数量一致。
[plain] view plain copy

    > balance <- function(data,yval) {
    +   y.vector <- with(data,get(yval))
    +   index.0 <- which(y.vector==-1)
    +   index.1 <- which(y.vector==1)
    +   index.1 <- sample(index.1, length(index.0), replace = TRUE)
    +   result <- data[sample(c(index.0,index.1)),]
    +   result
    + }
    >
    > sdata <- balance(data, "survive")
    > table(sdata$survive)

      -1    1
    1490 1490
将重抽样后的数据分为训练数据集和样本数据集，比例默认按7:3分配。
[plain] view plain copy
    > apart.data <- function(data, percent = 0.7) {
    +   train.index <- sample(c(1:nrow(data)),round(percent*nrow(data)))
    +   data.train <- data[train.index,]
    +   data.test <- data[-c(train.index),]
    +   result <- list(train = data.train, test = data.test)
    +   result
    + }
    > p.data <- apart.data(sdata)
    > data.train <- p.data$train
    > data.test <- p.data$test
数据准备妥当后，可以开始采用不同的分类算法构建模型，并使用测试数据集对模型的分类效果进行评估。要构建的模型是关于存活情况survive与class、age以及sex之间的关系，可用如下公式表示。
[plain] view plain copy
    > mod.formula <- as.formula("survive~class+age+sex")</span>
分类算法1：朴素贝叶斯分类，注意要加载e1071库。应用测试数据集对效果进行评估，结果真正率tpr（也就是“预测活着也真活着的人数”/“实际活着的人数”）为57%，真负率tnr（也就是“预测没活也真没活的人数”/“实际没活的人数”）84%。看来预测“没活”的情况比较准。
[plain] view plain copy
    > install.packages("e1071")
    > library(e1071)
    > nb.sol <- naiveBayes(mod.formula, data.train);nb.sol
    > nb.predict <- predict(nb.sol, newdata = data.test)
    > tb <- table(nb.predict, data.test$survive)
    > tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
    [1] 0.5735608
    > tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
    [1] 0.8447059
分类算法2：支持向量机（SVM）分类。应用测试数据集对效果进行评估，结果也是真正率tpr较低，真负率tnr较高。
[plain] view plain copy
    > svm.sol <- svm(mod.formula, data.train);svm.sol
    > svm.predict <- predict(svm.sol, data.test)
    > tb <- table(svm.predict, data.test$survive)
    > tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
    [1] 0.5095949
    > tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
    [1] 0.9152941
分类算法3：人工神经网络（ANN）分类，注意加载nnet包。应用测试数据集对效果进行评估，结果也是真正率tpr较低，真负率tnr较高。
[plain] view plain copy
    > library(nnet)
    > nnet.sol <- nnet(mod.formula, data.train, size =7, maxit = 1000);nnet.sol
    > pred.prob <- predict(nnet.sol, data.test)
    > pred.class <- ifelse(pred.prob>0.5, 1,0)
    > table(pred.class, data.test$survive)
    > tb <- table(pred.class, data.test$survive)
    > tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
    [1] 0.5095949
    > tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
    [1] 0.9152941
通过对具体的数据集进行数据的重抽样、划分训练数据集和测试数据集，以及最终实施相应的分类算法，可以加深对于R语言分类分析过程和方法的理解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言朴素贝叶斯神经网络 SVM 支持向量机数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇跨平台python异步回调机制实现和使用方法

下一篇scikit-learn 逻辑回归类库使用小结

分类算法的R语言实现案例

CDA考试动态

CDA报考指南

热门栏目

最新资讯

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...