使用R完成决策树分类-CDA数据分析师官网

使用R完成决策树分类

2018-06-13

使用R完成决策树分类

传统的ID3和C4.5一般用于分类问题，其中ID3使用信息增益进行特征选择，即递归的选择分类能力最强的特征对数据进行分割，C4.5唯一不同的是使用信息增益比进行特征选择。
特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)
特征A对训练数据D的信息增益比r(D, A) = g(D, A) / H(D)
而CART（分类与回归）模型既可以用于分类、也可以用于回归，对于回归树（最小二乘回归树生成算法），需要寻找最优切分变量和最优切分点，对于分类树（CART生成算法），使用基尼指数选择最优特征。
一个使用rpart完成决策树分类的例子如下：
[plain] view plain copy
    library(rpart);

    ## rpart.control对树进行一些设置
    ## xval是10折交叉验证
    ## minsplit是最小分支节点数，这里指大于等于20，那么该节点会继续分划下去，否则停止
    ## minbucket：叶子节点最小样本数
    ## maxdepth：树的深度
    ## cp全称为complexity parameter，指某个点的复杂度，对每一步拆分,模型的拟合优度必须提高的程度
    ct <- rpart.control(xval=10, minsplit=20, cp=0.1)

    ## kyphosis是rpart这个包自带的数据集
    ## na.action：缺失数据的处理办法，默认为删除因变量缺失的观测而保留自变量缺失的观测。
    ## method：树的末端数据类型选择相应的变量分割方法:
    ## 连续性method=“anova”,离散型method=“class”,计数型method=“poisson”,生存分析型method=“exp”
    ## parms用来设置三个参数:先验概率、损失矩阵、分类纯度的度量方法（gini和information）
    ## cost我觉得是损失矩阵，在剪枝的时候，叶子节点的加权误差与父节点的误差进行比较，考虑损失矩阵的时候，从将“减少-误差”调整为“减少-损失”
    fit <- rpart(Kyphosis~Age + Number + Start,
        data=kyphosis, method="class",control=ct,
        parms = list(prior = c(0.65,0.35), split = "information"));

    ## 第一种
    par(mfrow=c(1,3));
    plot(fit);
    text(fit,use.n=T,all=T,cex=0.9)；

    ## 第二种，这种会更漂亮一些
    library(rpart.plot);
    rpart.plot(fit, branch=1, branch.type=2, type=1, extra=102,
               shadow.col="gray", box.col="green",
               border.col="blue", split.col="red",
               split.cex=1.2, main="Kyphosis决策树");

    ## rpart包提供了复杂度损失修剪的修剪方法，printcp会告诉分裂到每一层，cp是多少，平均相对误差是多少
    ## 交叉验证的估计误差（“xerror”列），以及标准误差(“xstd”列)，平均相对误差=xerror±xstd
    printcp(fit);

    ## 通过上面的分析来确定cp的值
    ## 我们可以用下面的办法选择具有最小xerror的cp的办法：
    ## prune(fit, cp= fit$cptable[which.min(fit$cptable[,"xerror"]),"CP"])

    fit2 <- prune(fit, cp=0.01);
    rpart.plot(fit2, branch=1, branch.type=2, type=1, extra=102,
               shadow.col="gray", box.col="green",
               border.col="blue", split.col="red",
               split.cex=1.2, main="Kyphosis决策树");

效果图如下：

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征决策树 D3 先验概率最小二乘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇你想知道的大数据知识都在这

下一篇R语言实现决策树分析

使用R完成决策树分类

CDA考试动态

CDA报考指南

热门栏目

最新资讯

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介

【干货】SQL取数学会这些，搞定90%数据分析工作 ...

【干货】常用的数据分析方法你会几种？大部分人只会 ...