决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略-CDA数据分析师官网

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

2018-01-17

决策树缺点和注意事项：
    决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。
    若目标变量是连续变量，那么决策树就不使用了，改用回归模型
    若某些自变量的类别种类较多，或者自变量是区间型时，决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证，确保其具有稳定性。

对区间型变量进行分箱操作时，无论是否考虑了顺序因素，都有可能因为分箱丧失了某些重要信息，尤其是当分箱前的区间型便变量与目标变量有明显的线性关系时，这种分箱造成的损失更为明显。

逻辑回归（目标变量是二元变量）
    建模数据量不能太少，目标变量中每个类别所对应的样本数量要足够充分，才能支持建模
    排除共线性问题（自变量间相关性很大）
    异常值会给模型带来很大干扰，要剔除。
    逻辑回归不能处理缺失值，所以之前应对缺失值进行适当处理。

线性回归缺点和注意事项
    对异常值敏感，应剔除。
    只适合处理线性关系，若自变量和因变量间有比较强的非线性关系，应该对自变量进行一定的转换，比如取对数、开方、取平方根等。
    多元线性回归应用有一定的前提假设，自变量是确定的变量，而不是随机变量，自变量间没有线性相关，随机误差呈正太分布，随机误差项具有均值为0以及等方差性。

线性回归和逻辑回归的区别
    线性回归针对的目标变量是区间型的，逻辑回归针对的目标变量是类别型的
    线性回归模型的目标变量和自变量之间的关系假设是线性相关的，逻辑回归模型中的目标变量和自变量是非线性的
    线性回归中通常会用假设，对应于自变量x的某个值，目标变量y的观察值是服从正太分布的。逻辑回归中目标变量y是服从二项分布0和1或者多项分布的
    逻辑回归中不存在线性回归中常见的残差
    参数估值上，线性回归采用最小平方法，逻辑回归采用最大似染法。

过拟合产生原因：
    样本里噪声数据干扰过大。样本噪声大到模型过分记住了噪声特征，反而忽略了真实的输入输出间的关系。
    建模时的逻辑假设应用到模型时不成立了。任何预测模型都是在假设的基础上才可以使用的，比如业务环节没有发生显著变化，数据符合某种分布等，如果上述假设违反了业务场景，那么该模型就不能用了。
    建模时使用了太多输入变量。同噪声数据相似，不分析数据特征，把所有的变量交给机器去处理，撞大运，一个稳定优良的模型一定要遵循输入变量的少而精的原则。
    若用决策树，没有对决策树的生长进行合理的限制和剪枝，由着决策树自己生长，可能会过分拟合原始数据，对新数据一塌糊涂。
    建模样本抽取错误。包括但不限于样本数量少，抽样方法错误，抽样时没有足够正确的考虑业务场景和特点，以致于抽出的样本数据不能足够有效的代表业务逻辑和业务场景。

放置过拟合的手段：
    合理有效抽样，包括分层抽样，过抽样等，从而用不同的样本去检验模型。
    交叉检验，这是目前业界防止过拟合常用手段。
    数据若太少，不要用神经网络模型（深度学习），否则是浅度学习，而且一定要实现筛选输入变量，不要把所有变量一股脑放进去。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

线性回归逻辑回归决策树过拟合特征神经网络深度学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇R语言获取优化的k均值聚类

下一篇成为数据科学家的7本入门推荐书籍

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...