机器学习常见的错误——核心数据缺乏控制-CDA数据分析师官网

机器学习常见的错误——核心数据缺乏控制

2019-04-04

我们在前面的文章中给大家介绍了很多关于机器学习中常见的错误，当然，这些错误都是需要我们去避免的。在这篇文章中我们继续为大家介绍机器学习中常见的错误，希望大家能够引以为，从而更好地学习机器学习知识。

一般来说，从数据流的角度来看的话，机器学习系统中的数据要经过样本收集、特征生成、模型训练、数据评测等等这样一个流程，在这样一个比较长的流程中，不一定每个环节都是自己可控的，那么在那些不可控的环节，就有可能出现风险，而更可怕的是，由于数据控制在别人手里，如果数据控制出现了问题，那么我们很难清楚实际情况。如果我们以样本收集为例，在大型公司里，这样的工作很可能是由统一负责日志收集的平台部门来做的，而算法团队只要拿来用就可以了。这种做法有好处，也有坏处。好处很明显，就是减轻了算法团队的负担，但是也会带来隐患，就是我们拿到的数据不一定真的是我们要的数据。

大家都知道，正确的数据往往只有一种，但是错误的数据却有很多种错误方法。在样本收集方面，前台发送过来的曝光数据也存在着多种可能性，例如可能是缓存起来的数据，也有可能是用来做SEO的数据等等。这些数据在发送方来看，都是合理的数据，但对于算法模型来看，都不是用户真正看到的数据，而用户真正看到的数据才是我们真正想要的数据。那么作为这份数据的使用方，算法模型很有可能就会受到这种错误数据的影响。而且，最可怕的是，这种错误并不是那种能让程序崩溃的错误能够让我们能在第一时间发现，而是完全隐藏在正常数据中，只有我们犯了错误以后返回来找问题时或许才能发现。

那么大家是否知道这种错误数据出现的原因是什么呢？其实这种错误并不是一定日志收集团队不负责任，关键在于收集日志的团队不使用日志，或者说出数据的人不用数据，那么就很难要求他们来保证数据的质量。这种分离的状态对于模型算法这种高度依赖数据的应用是有风险的，所以最好能够加强这部分数据的控制能力，如果自己不能完全独立来做，那么就要有对应的监控机制，这就需要我们做到有问题能及时发现、及时处理，而不是“拿来主义”。

在这篇文章中我们给大家介绍了机器学习中常见的错误，具体就是对核心数据缺乏控制，相信大家阅读了这篇文章以后已经知道了这种错误导致的后果，希望这篇文章能够更好地帮助大家理解机器学习。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习特征

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇存在偏差的机器学习模型会有什么影响？

下一篇机器学习的常见错误——只有模型没有系统

机器学习常见的错误——核心数据缺乏控制

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...