热线电话:13121318867

登录
首页精彩阅读CART算法
CART算法
2014-11-19
收藏

CART算法


一、介绍
       CART算法又称为分类回归树算法,采用二分递归分割技术,将当前的样本集分为两个子样本集,使得生成的每一个非叶子节点都有两个分支,因此CART算法生成的二叉树是结构最简洁的二叉树。
      CART决策树包含的基本国策主要有分裂、剪枝和树选择。
二、重要思想
       第一个:递归地划分自变量空间的想法;
       第二个:用验证数据进行剪枝的想法。
三、划分步骤:
        首先:一个自变量被选择,将空间氛围两部分;
        其次:再把上步中得到的两部分的一个部分,通过选择一个部分,通过选择一个变量和该变量的划分值以相似的方式再划分;
        重复上述步骤,直至把整个空间划分成的每个小矩形都尽可能的是同构的。
四、用验证数据进行剪枝
1. 用独立的验证集对根据训练集生成的树进行剪枝;
2. 目的:生成一个具有最小错误的树;
3. 为什么要剪枝呢?
   3.1 在树生成过程中可能存在不能提高分类纯度的划分节点;
   3.2 存在过拟合训练数据。
4. CART剪枝方法
   4.1 CART用“成本复杂性”标准来剪枝;
   4.2 成本复杂性标准是分类树的a简单误分加上一个对树的大小的惩罚因素。即=Err(T)+α|L(T)|,其中Err(T)是验证数据被树误分部分;L(T)是树T的叶节点数;α是每个节点惩罚成本,α是一个从0向上变动的数字。
   4.3 最小误差树:从这个序列的树中选择一个在验证数据集上具有最小误分的树称为最小误差树。
   4.4 最佳剪枝树:它是在剪枝序列中含有误差在最小误差树的一个标准误差之内最小的树。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询