如何为分类问题选择合适的机器学习算法-CDA数据分析师官网

如何为分类问题选择合适的机器学习算法

2018-01-12

如何为分类问题选择合适的机器学习算法

若要达到一定的准确率，需要尝试各种各样的分类器，并通过交叉验证选择最好的一个。但是，如果你只是为你的问题寻找一个“足够好”的算法或者一个起点，以下准则有利于选择合适的分类器：

你的训练集有多大？

如果训练集很小，那么高偏差/低方差分类器（如朴素贝叶斯分类器）要优于低偏差/高方差分类器（如k近邻分类器），因为后者容易过拟合。

然而，随着训练集的增大，低偏差/高方差分类器将开始胜出（它们具有较低的渐近误差），因为高偏差分类器不足以提供准确的模型。这可以认为这是生成模型与判别模型的区别。

一些特定算法比较

朴素贝叶斯

优点：简单；如果朴素贝叶斯（NB）条件独立性假设成立，相比于逻辑回归这类的判别模型，朴素贝叶斯分类器将收敛得更快，所以你只需要较小的训练集。而且，即使NB假设不成立，朴素贝叶斯分类器在实践方面仍然表现很好。如果想得到简单快捷的执行效果，这将是个好的选择。

缺点：不能学习特征之间的相互作用（比如，它不能学习出：虽然你喜欢布拉德·皮特和汤姆·克鲁斯的电影，但却不喜欢他们一起合作的电影）。

逻辑回归

优点：有许多正则化模型的方法，不需要像在朴素贝叶斯分类器中那样担心特征间的相互关联性。与决策树和支持向量机不同，有一个很好的概率解释，并能容易地更新模型来吸收新数据（使用一个在线梯度下降方法）。如果你想要一个概率框架（比如，简单地调整分类阈值，说出什么时候是不太确定的，或者获得置信区间），或你期望未来接收更多想要快速并入模型中的训练数据，就选择逻辑回归。

决策树

优点：易于说明和解释，很容易地处理特征间的相互作用，并且是非参数化的，不用担心异常值或者数据是否线性可分（比如，决策树可以很容易地某特征x的低端是类A，中间是类B，然后高端又是类A的情况）。

缺点：1）不支持在线学习，当有新样本时需要重建决策树。2）容易过拟合，但这也正是诸如随机森林（或提高树）之类的集成方法的切入点。另外，随机森林适用于很多分类问题（通常略优于支持向量机）---快速并且可扩展，不像支持向量机那样调一堆参数。随机森林正渐渐开始偷走它的“王冠”。

SVMs

优点：高准确率，为过拟合提供了好的理论保证；即使数据在基础特征空间线性不可分，只要选定一个恰当的核函数，仍然能够取得很好的分类效果。它们在超高维空间是常态的文本分类问题中尤其受欢迎。然而，它们内存消耗大，难于解释，运行和调参复杂，

尽管如此，更好的数据往往胜过更好的算法，设计好的特征非常重要。如果有一个庞大数据集，这时使用哪种分类算法在分类性能方面可能并不要紧；因此，要基于速度和易用性选择算法。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征朴素贝叶斯决策树偏差过拟合支持向量机逻辑回归随机森林

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇主成分分析、因子分析、聚类的概览与比较

下一篇大数据定义、思维方式及架构模式

如何为分类问题选择合适的机器学习算法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...