大话机器学习之数据预处理与数据筛选-CDA数据分析师官网

大话机器学习之数据预处理与数据筛选

2017-12-12

大话机器学习之数据预处理与数据筛选

数据挖掘和机器学习这事，其实大部分时间不是在做算法，而是在弄数据，毕竟算法往往是现成的，改变的余地很小。

数据预处理的目的就是把数据组织成一个标准的形式。

1.归一化

归一化通常采用两种方法。

a.最简单的归一化，最大最小值映射法

P_New=(P-MI)/（MA-MI）

P是原始数据，MI是这一属性中的最小值，MA是这一属性中的最大值。这样处理之后，所有的值都会限定在0-1之间。

b.标准差标准化

P_New=（P-AVG(P)）/SD(P)
其中AVG（P）为变量均值，SD(P)为标准差.

这个方法还有一个好处，就是当你发现如此处理之后，有的数字很离奇，就可以认为是异常值，直接剔除。

2、离散化

如果你的数值是连续的，有时候不是那么好处理，比如年龄。往往把数字离散成小孩，少年，青年等等更加有意义。

3、缺失值问题

这个首先要考虑缺失值的多少，如果过多，不如直接删除属性；如果在可接受范围内，则利用平均值、最大值或者别的适合的方案来补充。

当然还有一种方法，先用方法1对不缺失的记录建模，然后用该方法预测缺失值；然后用方法2最终建模。当然，这里存在许多问题，比如方法一的准确度、方法1和方法2使用同一种方法的时候产生的信息冗余。

4、异常数据点

实际的数据集有很多是异常数据，可能是由于录入错误或者采集中受到干扰等因素产生的错误数据。通常剔除异常数据的方法最常用的有如下两种。

寻找附近的点，当最近的点的距离大于某一个阈值的时候，就认为是异常点。当然也可以在限定距离内，包含的数据点少于某个数目的时候认为是异常点。

前者是基于距离，后者是基于密度。当然，还可以把两者结合，指定距离的同时也指定数目，这叫做COF。

5、数据的筛选

我们在预处理好数据之后，有时候数据的维度是很大的，出于经济性考虑，当然，需要降维或者特征选择。有时候降为和特征选择也会增加准确度。

降维通常使用PCA，主成分分析。直观上，就是把几个变量做线性组合，变成一个变量；特征选择则比较简单，就是选择相关性强的特征。

当然，PCA其实设计到矩阵的奇异值分解，具体的数学原理就不展开了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

特征 PCA 降维机器学习数据挖掘

数据分析咨询请扫描二维码

上一篇《2017中国大数据及AI人才发展报告》均薪38万，招聘猛增6倍（附PPT下载）

下一篇原来，你是这样的R语言

大话机器学习之数据预处理与数据筛选

CDA考试动态

CDA报考指南

热门栏目

最新资讯

还在被数据分析师面试问题难倒？这10个高频考题+答 ...

互联网数据分析师到底是干啥的？看完这篇你就懂了！ ...

数据分析师技能要求详解

【干货】HR数据分析师薪资那么高，具体干啥活？你的 ...

数据分析能力的5大“隐形天花板”，不突破就只能做 ...

数据分析工作为啥这么难？没人告诉你的5个“真相” ...

数据分析入门到底难在哪？新手最常踩的3大“坑”曝 ...

数据分析师：行业动荡背后的5个机会，你抓住了吗？ ...

数据分析师职业发展必备能力

大数据专业主要学什么？

一个失业的阿里P9，对未来很迷茫…… ...

没学历没经验，如何入职大厂？5年字节数据分析经验 ...

【热议话题】一个人为何会陷入社会底层 ...

数据分析师应该会哪些编程语言

学好数据分析需要掌握哪些技能

数据分析需要做什么步骤

制作简洁而美观的数据分析图表

当前发展最快的行业及趋势

数据分析师需要掌握哪些专业技能

大数据分析常用的技术和方法