r语言做决策树代码实现-CDA数据分析师官网

r语言做决策树代码实现

2018-01-21

r语言做决策树代码实现

0.节点和结点的区别：节点为两线相交，不为终点；而结点为两线相交为终点，没有延伸；
1.分支节点：它指向其他的节点，所以是度不为0的节点。 vs 叶子结点：度为0的结点
2.度：结点拥有的子树数；就是说这个结点下面有几条分支
3.树的深度：树有几层
4.10折交叉验证：常用的测试算法准确性的方法。
将数据集分成10份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验
每次试验都会得出相应的正确率，10次结果的正确率取平均值就作为算法精度的估计，一般还需进行多次10折交叉验证，再求均值
为什么取10折？因为很多理论证明了10折是获得最好误差估计的恰当选择。

#第1步：工作目录和数据集的准备
setwd("C:/Users/IBM/Desktop/170222分类树建模/2.23建模")#设定当前的工作目录，重要！
audit2<-read.csv("model2.csv",header=T)
str(audit2) #转成字符串类型的

#第2步：做训练集和测试集
set.seed(1)
sub<-sample(1:nrow(audit2),round(nrow(audit2)*2/3))
length(sub)
data_train<-audit2[sub,]#取2/3的数据做训练集
data_test<-audit2[-sub,]#取1/3的数据做测试集
dim(data_train)#训练集行数和列数13542 23
dim(data_test) #测试集的行数和列数6771 23
table(data_train$是否转化) #看该列分布的
table(data_test$是否转化)

#做决策树模型。首先对树参数进行设置，再建模
## rpart.control对树进行一些设置
## xval是10折交叉验证
## minsplit是最小分支节点数，这里指大于等于20，那么该节点会继续分划下去，否则停止
## minbucket：叶子节点最小样本数,这里设置100，可以调参
## maxdepth：树的深度

## cp全称为complexity parameter，指某个点的复杂度，对每一步拆分,模型的拟合优度必须提高的程度

#加载程序包和一些参数设定
library(rpart)
ct<-rpart.control(xval=10,minsplit=20,minbucket=150,cp=0.00017)

#rapart包中的raprt函数来做决策树
#na.action:缺失数据的处理，默认为删因变量缺失保留自变量缺失
#method：树的末端数据类型选择相应的变量分割方法：
# 连续性method=“anova”,离散型method=“class”,计数型method=“poisson”,生存分析型method=“exp”
#parms：用来设置三个参数:先验概率、损失矩阵、分类纯度的度量方法（gini和information）

#第3步：建模，观察模型结果

library(rpart)

tree.both<-rpart(as.factor(是否转化)~ .,data=data_train,method='class',minsplit=20,minbucket=150,cp=0.00017)
summary(tree.both)
tree.both$variable.importance
printcp(tree.both)
plotcp(tree.both,lwd=2)
#第4步：画决策树
#画决策树第1种方法，画出来的树比较简单
par(mfrow=c(1,3))
plot(tree.both)
text(tree.both,use.n=T,all=T,cex=0.9)

#画决策树第2种方法，画出来的树稍微好看些
library(rpart.plot)
rpart.plot(tree.both,branch=1,shadow.col="gray",box.col="green",border.col="blue",split.col="red",split.cex=1.2,main="决策树")
#第5步：剪枝
#rpart包提供了一种剪枝方法--复杂度损失修剪的修剪方法
#printcp这个函数会告诉你分裂到的每一层，对应的cp是多少，平均相对误差是多少
#xerror：交叉验证的估计误差；xstd：标准误差；xerror±xstd平均相对误差
printcp(tree.both)

#我们使用具有最小交叉验证误差的cp
cp=tree.both$cptable[which.min(tree.both$cptable[,"xerror"]),"CP"]

cp #cp=0.00049

#第6步：剪枝之后的树再画图
tree.both2<-prune(tree.both,cp=tree.both$cptable[which.min(tree.both$cptable[,"xerror"]),"CP"])
summary(tree.both2)
tree.both2$variable.importance
printcp(tree.both2)
plotcp(tree.both2,lwd=2)

library(rpart.plot)
rpart.plot(tree.both2,branch=1,shadow.col="gray",box.col="green",border.col="blue",split.col="red",split.cex=1.2,main="决策树")
#第7步：输出规则。剪枝后的决策树规则，从规则中再发现规律
library(rattle)
asRules(tree.both2)
#第8步：在测试集上做预测
library(pROC)

pred.tree.both<-predict(tree.both,newdata=data_test)

#第9步，看测试的效果，预测正确的有多少，预测错误的有多少

predictScore<-data.frame(pred.tree.both)
rownames(predictScore) #看这个矩阵行的名字
colnames(predictScore)#看这个矩阵列的名字
predictScore$是否转化<-'ok' #在预测的矩阵后面多加一列‘是否转化’2，全部都是2
predictScore[predictScore$FALSE.>predictScore$TRUE.,][,"是否转化"]=FALSE #如果false的概率大于true的概率，那么判断为false
predictScore[predictScore$FALSE.<=predictScore$TRUE.,][,"是否转化"]=TRUE
n<-table(data_test$是否转化,predictScore$是否转化)
n #看分布情况
percantage<-c(n[1,1]/sum(n[1,]),n[2,2]/sum(n[2,]))
percantage

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

决策树先验概率

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇机器学习与R之决策树C50算法

下一篇利用R语言如何判别和分类

r语言做决策树代码实现

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...