数据挖掘中易犯的11大错误(2)-CDA数据分析师官网

数据挖掘中易犯的11大错误(2)

2015-11-30

数据挖掘中易犯的11大错误(2)

4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。

4b.经过设计的实验：某些实验设计中掺杂了人为的成分，这样的实验结果也常常不可信。

5. 使用了未来的信息（Accept Leaks from the Future）

IDMer：看似不可能，却是实际中很容易犯的错误，特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。

预报（Forecast）示例：预报芝加哥银行在某天的利率，使用神经网络建模，模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。

金融业中的预报示例：使用3日的移动平均来预报，但却把移动平均的中点设在今天。

解决方法：

要仔细查看那些让结果表现得异常好的变量，这些变量有可能是不应该使用，或者不应该直接使用的。

给数据加上时间戳，避免被误用。

6. 抛弃了不该忽略的案例（Discount Pesky Cases）

IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？不同的人生态度可以有同样精彩的人生，不同的数据也可能蕴含同样重要的价值。

异常值可能会导致错误的结果（比如价格中的小数点标错了），但也可能是问题的答案（比如臭氧洞）。所以需要仔细检查这些异常。

研究中最让激动的话语不是“啊哈！”，而是“这就有点奇怪了……”

数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。

例如：

在直邮营销中，在对家庭地址的合并和清洗过程中发现的数据不一致，反而可能是新的营销机会。

解决方法：

可视化可以帮助你分析大量的假设是否成立。

7. 轻信预测（Extrapolate）

IDMer：依然是辩证法中的观点，事物都是不断发展变化的。

人们常常在经验不多的时候轻易得出一些结论。

即便发现了一些反例，人们也不太愿意放弃原先的想法。

维度咒语：在低维度上的直觉，放在高维度空间中，常常是毫无意义的。

解决方法：

进化论。没有正确的结论，只有越来越准确的结论。

8. 试图回答所有问题（Answer Every Inquiry）

IDMer：有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰，但我知道爬一步就离终点近一步。”

“不知道”是一种有意义的模型结果。

模型也许无法100%准确回答问题，但至少可以帮我们估计出现某种结果的可能性。

9. 随便地进行抽样（Sample Casually）

9a 降低抽样水平。例如，MD直邮公司进行响应预测分析，但发现数据集中的不响应客户占比太高（总共一百万直邮客户，其中超过99%的人未对营销做出响应）。于是建模人员做了如下抽样：把所有响应者放入样本集，然后在所有不响应者中进行系统抽样，即每隔10人抽一个放入样本集，直到样本集达到10万人。但模型居然得出如下规则：凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都会响应营销。这显然是有问题的结论。（问题就出在这种抽样方法上，因为原始数据集已经按照邮政编码排序，上面这三个地区中不响应者未能被抽取到样本集中，故此得出了这种结论）。

解决方法：“喝前摇一摇！”先打乱原始数据集中的顺序，从而保证抽样的随机性。

9b 提高抽样水平。例如，在信用评分中，因为违约客户的占比一般都非常低，所以在建模时常常会人为调高违约客户的占比（比如把这些违约客户的权重提高5倍）。建模中发现，随着模型越来越复杂，判别违约客户的准确率也越来越高，但对正常客户的误判率也随之升高。（问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了）

解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。

10. 太相信最佳模型（Believe the Best Model）

IDMer：还是那句老话－“没有最好，只有更好！”

可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型，有时也会有用。

“最佳”模型中使用的一些变量，会分散人们太多的注意力。（不可解释性有时也是一个优点）

一般来说，很多变量看起来彼此都很相似，而最佳模型的结构看上去也千差万别，无迹可循。但需注意的是，结构上相似并不意味着功能上也相似。

解决方法：把多个模型集装起来可能会带来更好更稳定的结果。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据挖掘神经网络

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据挖掘中易犯的11大错误(2)

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

数据挖掘中易犯的11大错误(2)​

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

数据挖掘中易犯的11大错误(2)