你能正确评估数据吗？-CDA数据分析师官网

你能正确评估数据吗？

2016-03-15

你能正确评估数据吗？

在数据界，数据分析、机器学习或是数据科学的主要目的，就是建立一个能预测未来数据的系统。在普通情况中，你很难发现监督学习（例如分类）和无监督学习（例如聚类）之前的区别，你通常会使用你构建和设计的方法去搜集一些数据，但最终你希望你设计的模型可以应用到未来的数据，并且确保该模型行之有效，可以同你对原始数据的测验结果相同。

初学者经常会犯的一个错误就是，只看到了已有数据的表现，就认为这对未来数据是适用的。很不幸的是事实通常不是这样。例如在一个监督学习的案例中，任务是根据你的输入输出的行为来预测，例如把电子邮件分为垃圾邮件和非垃圾邮件。

如果你只考虑训练数据，那么对机器来说很容易返回完美的预测结果，只是通过死记硬背就可以。机器因为其容量大，可以存储和检索大量的数据，但这导致过度拟合，缺乏概括。

所以适当的评估方式是通过分割数据，分析一个部分，然后预测其他部分来模拟未来的结果。通常，训练部分是庞大的，过程也要重复数次，以获得几个数字来看看什么才是合适的方法，这个过程称为交叉验证。

尽管方法看起来如此可靠，还是经常会发生错误，特别是当数据是不稳定时，例如数据的基础分布会随时间变化，在现实中这是经常发生的，6月的销售数字和12月的就会有很大不同。或者数据点之间具有大量相关性，也就是说，如果你知道一个数据点意味着你已经知道了很多关于另一个数据点的信息。例如，股票价格通常在一天之内会从一个价格跳到另一个价格，如果你搜集这些数据，并做了测试，很可能会推导出和它有相关性的数据。

每当出现这种情况，你就会得到过于乐观的数字，你的方法将无法在未来真正的数据中很好地工作。在最坏的情况下，当你终于说服别人来使用你的方法时这个方法并不能达到预期效果。所以学习如何正确评估是关键！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

无监督无监督学习机器学习数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

你能正确评估数据吗？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...