机器学习中容易犯的错误——不注重样本精细化处理-CDA数据分析师官网

机器学习中容易犯的错误——不注重样本精细化处理

2019-04-02

接触过机器学习的朋友应该知道，样本是机器学习模型的核心，这是因为样本直接关系到模型效果的好坏，不过在大多数情况下，很多人对待样本的态度根本不够，这就导致的机器学习中的错误。很多人关注样本不像在乎特征那样在乎样本的质量一样，其实这样就容易出现两种情况，那么到底是什么呢？下面我们就给大家介绍一下。

首先我们给大家讲解一下第一种情况，其实第一种情况就是对负样本的界定不够细致。那么什么是负样本呢？其实负样本的含义一般来说是曝光但是未点击的样本，但是曝光是一件需要仔细琢磨的事情。最直接的方式是用服务器后台日志中的数据作为曝光，但是这样做会带来一个显然的问题，就是日志中的item不一定全部真正曝光，也就是不一定真的被用户看到了。更好的方式是通过页面埋点来记录真正曝光的东西，不过这种方法也会存在问题，那就是即使页面上曝光了，用户也不一定真正看到了，或者说用户的眼睛不一定扫到了曝光的区域，毕竟页面那么大，用户的关注点我们根本不知道。有人提出了一种解决方法是把最后一个被点击的商品以上的作为真正曝光的，因为用户既然点击了这一个，那么可以认为这个以上的用户都是看到了的。

而第二种情况就是对样本这个概念的理解不到位。统计机器学习的根本思路是根据历史行为学习模式，从而预测未来。所以样本代表历史是很容易被接受的，但是在实际工作中，更好的样本代表的应该是我们希望的结果，而不是那种真实的历史。我们需要考虑一个问题，那就是我们训练模型出来，真正希望服务的用户是哪种用户？所以说，我们需要注意的是除了特征工程，样本工程也同样重要，在某些情况下甚至会更重要。所以在进行训练之前，以及模型调优的过程中，都要仔细思考样本是否真正反映了我们的需求，有必要时要对样本做针对性选择。

在这篇文章中我们给大家介绍了在机器学习中容易出现的问题，那就是不注重样本精细化处理，现在很多人不怎么关注样本，其实这样的做法是错误的，我们只有关注样本才能够更好的利用机器学习为我们解决更多的事情。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习特征特征工程

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇机器学习常见算法优缺点之逻辑回归

下一篇机器学习中常见的算法的优缺点之决策树

机器学习中容易犯的错误——不注重样本精细化处理

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析