进行数据挖掘工作的时候需要注意什么（二）-CDA数据分析师官网

进行数据挖掘工作的时候需要注意什么（二）

2019-01-22

在上一篇文章中我们给大家介绍了数据挖掘工作中的选择数据需要注意的内容，选择数据中需要注意八点，只有做到了这八点我们才能够做好数据挖掘工作，我们在这篇文章中接着给大家说一下数据挖掘工作需要注意的其他内容。

在数据挖掘的关联模型中，需要的数据通常多得多，如果分析很多属性，千行数据都可能不够。如果数据集太大或太小，通过将行合为类别有时可以获得更好的结果。当然，如果数据集大小合理，应更注重数据质量而不是添加越来越多的数据。达到一定数据量后，会发现统计上有效的所有模式，添加更多数据不会提高其有效性。相反，添加更多数据，有时可能引入意外关联。

在离散数值与连续数值中，由于离散列包含数目有限的值。通常来说，文本通常被视为离散值。离散值有一些重要属性。如果将数字视为离散值，则它们之间不隐含任何顺序，这就无法对数字计算平均值或总和。电话区号就是离散数值数据，不会用来执行数学运算。离散值有时候称作类别值，因为您可以按离散值对一组数据进行分组，而对于按无限序列排列的数值，则不能按其对数据进行分组。如果值是明确分开并且不可能有小数值或小数值没有用时，您也可以确定将数字视为离散值。

而连续数值数据可包含无限个小数值。收入列即为连续属性列的示例。如果您指定某一列为数值，则该列中的每个值都必须是数值，只有 null 除外。请注意，在 Excel 中，可以考虑时间戳以及可转换为 SQL Server 数据类型的任何其他日期时间表示形式。如果将数字转换为分类变量的话，离散化对分析提供许多好处。好处之一是缩小了问题空间。另一好处是数字有时不适合表示结果。这就是数据离散化的原因。

而如果创建一个包含连续数据的挖掘模型，之后又希望将列视为离散的，则是不可能的。两个数据集必须以不同的方式处理，作为单独的挖掘结构在后端进行处理。如果不确定数据的正确处理方式，应创建单独的模型以不同方式处理数据。

这篇文章中我们给大家介绍了数据挖掘需要注意到地方，尤其是在离散数值以及连续数值中的选择，我们只有知道了这些数据的优点才能够更好地利用好这些数据。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据挖掘 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇进行数据挖掘工作的时候需要注意什么（一）

下一篇大数据发展的挑战都有哪些（一）

进行数据挖掘工作的时候需要注意什么（二）

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...