前面我们了解了决策树的概念,现在来了解一下决策树剪枝。可能会有人问:为什么要剪枝?答案是:如果一棵决策树完全生长,那么这棵决策树所对应的每一个叶节点中只会包含一个样本,就很有可能面临过拟合问题,因此就需要我们对这棵决策树进行剪枝,以此来提高此决策树模型的泛化能力。
一般情况下,可以使用以下两类方法对决策树进行剪枝,缩小决策树的规模:
一、预剪枝:
预剪枝的核心思想是在树中节点进行扩展之前,先计算当前的划分是否能提升模型泛化能力,如果不能,则不再继续生长子树。此时可能出现不同类别的样本同时存于节点中的情况,可以通过使用多数投票的原则对该节点所属类别进行判断。关于预剪枝何时停止决策树的生长,可以采用以下几种方法:
(1) 当树达到一定深度的时候,停止树的生长;
(2) 当到达当前节点的样本数量比某个阈值小的时候,停止树的生长;
(3) 计算决策树的每一次分裂能否提升测试集的准确度,当提升程度小于某个阈值的时候,不再继续生树的长。
预剪枝具有思想直接、算法简单、效率高等一系列特点,适合解决大规模数据的问题。但是,对于上述阈值,需要一定的经验来进行判断。另外,预剪枝存在欠拟合风险。这是因为,虽然当前的划分会导致测试集准确率降低或提升不高,但在之后的划分中,准确率会有显著提升也不无可能。
二、后剪枝:
后剪枝的核心思想是先让算法生成一颗完全生长的决策树,然后自底层向上计算是否进行剪枝操作。后剪枝也需要通过在测试集上的准确率来进行判断,如果剪枝之后,能够提升准确率,则进行剪枝。
具体操作:
1.如果存在任一子集是一棵树,则在该子集递归剪枝过程
2.计算不合并的误差
3.如果合并会降低误差的话,就将叶节点合并
在回归树一般用总方差计算误差(即用叶子节点的值减去所有叶子节点的均值)。
相比于预剪枝,后剪枝的泛化能力更强,但是计算开销会更大。
后剪枝方法: 错误率降低剪枝(Reduced Error Pruning,REP)、悲观剪枝(Pessimistic Error Pruning,PEP)、代价复杂度剪枝(Cost Complexity Pruning,CCP)、最小误差剪枝(Minimum Error Pruning,MEP)、CVP(Critical Value Pruning)、OPP(Optimal Pruning)等。
数据分析咨询请扫描二维码
大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28银行业正处于一个前所未有的数字化转型时期。在数字经济的驱动下,金融科技如大数据、人工智能、生物识别、物联网和云计算等技术 ...
2024-10-28数据分析可视化是一门艺术与科学相结合的技术,其主要目标是将复杂的数据变得更易于理解和分析。通过将数据以图表的形式呈现,我 ...
2024-10-28数据分析师在现代信息密集型的商业世界中扮演着至关重要的角色。他们通过专业的技能和敏锐的商业洞察力,帮助企业从大量数据中提 ...
2024-10-28在当今快速发展的数据驱动世界中,数据专员的角色变得愈发重要。无论是在企业决策、市场分析还是产品开发中,数据专员都扮演着不 ...
2024-10-27在当今迅速发展的科技时代,数字化对企业的意义无比深远。它不仅提升了企业的竞争力和运营效率,还显著改善了客户体验,推动了企 ...
2024-10-27企业数字化转型是一个全方位的变革过程,旨在通过应用新兴数字技术,重新设计企业的业务流程、组织结构、产品和服务,以在竞争激 ...
2024-10-27数据挖掘是一种集成了统计学、人工智能和机器学习等多种技术的过程,其主要目标是从大量数据中提取有价值的信息和知识。通过分析 ...
2024-10-27数字经济是一种新型的经济形态,以数字技术为基础,通过数据的获取、存储、加工、传输和应用进行经济发展。其核心在于利用数字化 ...
2024-10-27数据科学无疑是现代数字化社会的中流砥柱。随着大数据和人工智能技术的持续飞跃,各行各业对具备数据分析和管理能力的人才需求呈 ...
2024-10-25在当今快速发展的商业环境中,数字化转型已经成为企业保持竞争力和促进业务增长的必然选择。数字化转型不仅意味着技术的变革,更 ...
2024-10-25在当今数据驱动的商业环境中,数据分析已经成为企业决策过程中的核心要素。企业需要处理海量数据,从中提炼出有价值的见解,以支 ...
2024-10-25