数据分布变换为近似正态分布，如何处理？

shauna570392

2020-08-03 阅读量: 2531

数据分布变换为近似正态分布，如何处理？

1、对数变换即将原始数据X的对数值作为新的分布数据：
X’=lgX
当原始数据中有小值及零时，亦可取X’=lg（X+1）
还可根据需要选用X’=lg（X+k）或X’=lg（k-X）
对数变换常用于（1）使服从对数正态分布的数据正态化。如环境中某些污染物的分布，人体中某些微量元素的分布等，可用对数正态分布改善其正态性。（2）使数据达到方差齐性，特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。
2、平方根变换即将原始数据X的平方根作为新的分布数据。
X’=sqrt（X）
平方根变换常用于：1）使服从Poission分布的计数资料或轻度偏态资料正态化，可用平方根变换使其正态化。2）当各样本的方差与均数呈正相关时，可使资料达到方差齐性。
3、倒数变换即将原始数据X的倒数作为新的分析数据。
X’=1/X
常用于资料两端波动较大的资料，可使极端值的影响减小。
4、平方根反正旋变换即将原始数据X的平方根反正玄值做为新的分析数据。
X’=sin-1sqrt（X）
常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如＜30%时或较大（如＞70%时），偏离正态较为明显，通过样本率的平方根反正玄变换，可使资料接近正态分布，达到方差齐性的要求。
5. 计量经济学中常用的BOX-COX变换

6、等频归一化
通过对训练数据的分析，我们发现不同维度特征的取值分布、相同维度下特征值的差异都很大。例如距离、价格等特征的数据服从长尾分布，体现为大部分样本的特征值都比较小，存在少量样本的特征值非常大。常规的归一化方法（例如 min-max， z-score）都只是对数据的分布进行平移和拉伸，最后特征的分布仍然是长尾分布，这就导致大部分样本的特征值都集中在非常小的取值范围内，使得样本特征的区分度减小；与此同时，少量的大值特征可能造成训练时的波动，减缓收敛速度。此外也可以对特征值做对数转化，但由于不同维度间特征的分布不同，这种特征值处理的方式并不一定适用于其他维度的特征。在实践中，我们参考了Google的Wide & Deep Model[^6]中对于连续特征的处理方式，根据特征值在累计分布函数中的位置进行归一化。即将特征进行等频分桶，保证每个桶里的样本量基本相等，假设总共分了n个桶，而特征x 属于其中的第b (b ∈ {0, …, n - 1})个桶，则特征x 最终会归一化成 b /n。这种方法保证对于不同分布的特征都可以映射到近似均匀分布，从而保证样本间特征的区分度和数值的稳定性。

35.9553

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子