数据挖掘---分类:基本概念、决策树、与模型评估-CDA数据分析师官网

数据挖掘---分类:基本概念、决策树、与模型评估

2018-06-13

分类：基本概念、决策树与模型评估分类任务就是确定对象属于那个预定义的目标类。就是通过学习得到一个目标函数f,把每个属性集映射到一个预先定义的类标号y. 一、预备知识分类任务的输入数据是记录的集合，每条记录称为实例，用元组（x,y)表示，其中x是属性的集合，y是一个特殊的集合。描述性建模：分类模型可以作为解释性工具,用于区分不同类中的对象. 预测性建模:分类模型还可以用于预测未知记录的类标号. 二.解决分类问题的一般方法分类法的例子包括决策树法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。分类模型的性能根据模型正确和错误预测的检验记录计数进行评估，这些计数存放在称作混淆矩阵的表格中。准确性=正确预测数/预测总数。差错率：错误预测数/预测总数。三。决策树归纳 1。决策树工作原理树中包换三种结点：根结点：它没有入边，但有零条或多条出边。内部结点：恰有一条入边和两条或多条出边。叶结点：恰有一条入边，但没有出边。其中，每个叶结点都赋予一个类标号，非终结点（包括根结点和内部结点）包含属性测试条件，用以分开具有不同特性的记录。一旦构造了决

策树，对检验记录进行分类就是直截了当的，从树的根结点出发，将测试条件用于检验记录，根据测试结果选择适当的分支，沿着该分支或者

达到另一个内部结点，使用新的测试条件或者达到一个叶结点，叶结点的类称号就被赋值给该检验记录。 2。如何建立决策树对于给定的属性集，可以构造的决策树数目达指数级，找出最佳的决策树在计算上是不可行的，所以通常采用贪心算法，采取一系列局部最优

决策来构造决策树。Hunt算法就是其中一种。 *Hunt算法 Hunt算法通过将训练记录相继划分成较纯的子集，以递归方式建立决策树。决策树归纳设计问题必须解决以下两个问题：如何分裂训练记录和如何停止分裂过程。 3。表示属性测试条件的方法二元属性：二元属性的测试条件产生两个可能的输出。标称属性：由于标称有多个属性值，它的测试条件可以用两种方法表示，多路划分和二元划分（如：CART方法）充数属性：也可以产生二元或多路划分。连续属性：测试条件可以具有二元输出的比较测试（A<v)或(A>=v)，也可以是具有形如：vi<=A<vi+1来划分输出的范围查询。 4。选择最佳划分的度量为了确定测试条件的效果，需要比较父结点（划分前）的不纯程度和子女结点（划分后）的不纯程度，它们的差越大，测试条件的效果就越好

。 5。决策树归纳的特点： *决策树归纳是一种构建分类模型的非参数方法。 *找到最佳的决策树是NP完全问题。 *已开发的构建决策树技术不需要昂贵的计算代价。 *决策树相对容易解释，特别是小型的决策树。 *决策树是学习离散值函数的典型代表。 *决策树对于噪声有良好的鲁棒性。 *冗余属性不会对决策的准确率造成不利的影响。 *存在着数据碎片的问题。 *子树可能在决策树中重复多次。四。模型的过分拟合分类模型的误差大致分为两种：训练误差和泛化误差。一个好的分类模型不仅要能够很好地拟合训练数据，而且对未知样本也要能准确地分类

。然而，对训练集数据拟合太好的模型，其泛化误差可能比具有较高训练误差的模型高，这就是所谓的模型过分拟合。 1。噪声导致的过分拟合也就是训练集中有被错误分类的记录。 2。缺乏代表性样本导致的过分拟合 3。过分拟合与多重比较过程要增加一个属性测试条件，是从候选的属性集中挑一个使得增益大于某个阈值的一个属性，这样算法就会在模型上增加一些欺骗性的结点，导

致过分拟合。 4。泛化误差估计 *使用再代入估计：假设训练数据集可以很好的代表整体数据，因而可以使用训练误差提供对泛化误差的乐观估计。 *结合模型复杂度：如前所述，模型越是复杂，出现过分拟合的几率就越高，因此我们更喜欢较为简单的模型。这种策略与Occam剃刀或节俭原

则一致，Occam剃刀：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取。五。评估分类器的性能 1。保持方法：将被标记的原始数据划分成两个不相交的集合，分别称为训练集和检验集，在训练集上归纳分类模型，在检验集上评估模型的性

能。 2。随机二次抽样：可以多次重复保持方法来改进对分类器性能的估计。 3。交叉验证：每个记录用于训练的次数相同，并且用于检验恰好一次。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

决策树模型评估模型比较支持向量机多重比较准确率神经网络朴素贝叶斯

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据挖掘---分类:基本概念、决策树、与模型评估

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...