用降维方法解读数据分析-CDA数据分析师官网

热线电话：13121318867

用降维方法解读数据分析

2016-07-26

用降维方法解读数据分析

随着互联网技术的不断发展，数据呈现出规模大、维度高、结构复杂等特性，人们收集和获得数据的能力也逐渐增强。如何充分利用海量数据、挖掘其中有价值的知识和内容以指导实际生产是科研人员、工程技术人员及各管理层领导所研究及关注的焦点。数据降维能够加快算法执行的速度，同时也能提高分析模型的性能，降低数据的复杂度，缓解“信息丰富、知识贫乏”的现状。

1. 主成分分析

主成分分析(PCA：Principal Component Analysis)是最常用的线性降维方法，它是通过正交变换将高维的数据映射到低维的空间中，并期望在所投影的维度上达到数据方差最大的效果。主成分分析在降维时只需要保留前m(m

2. 反向特征消除

在这个方法中，每进行一次降维操作，都采用n-1个特征对分类器训练n次，得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。并且不断地对该过程进行迭代，最终便可得到降维后的结果。

3.前向特征构造

前向特征构建与反向特征消除是互逆过程。前向特征从1个特征开始构造，每次进行训练时，都会添加一个让分类器性能幅度提升最大的特征。由于前向特征构造和反向特征消除操作起来较为耗时，因此它们通常用于输入维数相对较低的数据集。

4. 缺失值比率

当一组数据存在太多缺失值导致有用的信息较少时，可以用到缺失值比率这一方法来进行降维，可以把数据列中缺失值大于某个阈值(可自行设定)的列去掉。阈值越高，降维方法则会更便捷，降维越少。

5. 高相关滤波

高相关滤波的原理是：当两列数据的变化趋势相近时，它们所包含的信息也相似。这样一来，相似列中的其中一列便可满足机器学习模型。数值列之间的相似性可以通过计算相关系数来表示，名词列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。由于其相关系数对范围敏感，所以同主成分分析类似，在计算之前也需要对数据进行归一化处理。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；