如何用SPSS做数据正态化转换？-CDA数据分析师官网

如何用SPSS做数据正态化转换？

2016-01-31

如何用SPSS做数据正态化转换？

数据分析师在用spss做数据不完全符合正态分布，接下来的问题是，很多学科都在讲大样本不用太考虑正态分布问题，但事实上由此造成的误差确实存在，有时还会比较大。那么数据分析师如何用SPSS做数据正态化转换呢？

严格说来，解决这个问题需要讲四个方面：

什么是正态转换？

为什么做正态转换？

何时做正态转化？

如何做正态转化？

我担心如果只讲How（如何做），也许有些初学者不分场合，误用滥用。但是，我同样担心如果从ABC讲起，难免过分啰嗦，甚至有藐视大家的智商之嫌。所幸现在是互联网时代，有关上述What, Why, When问题的答案网上唾手可得。如果对这些问题不甚了了的读者，强烈建议先到google上用“How to transform data to normal distribution"搜一下（或点击下面的“前10条”），前10条几乎每篇都是必读的经典。

有了上述交代，我们"数据分析师"可以比较放心地来讨论如何做正态转换的问题了。具体来说，涉及以下几步：

第一步

查看原始变量的分布形状及其描述参数（Skewness和Kurtosis）。这可以用频率或者描述性统计或者BoxPlot；

第二步

根据变量的分布形状，决定是否做转换。这里，主要是看一下两个问题：

1、左右是否对称

也就是看Skewness（偏差度）的取值。如果Skewness为0，则是完全对称（但罕见）；如果Skewness为正值，则说明该变量的分布为positively skewed（正偏态，见下图1b）；如果Skewness为负值，则说明该变量的分布为negatively skewed（负偏态，见图 1a）。然而，肉眼直观检查，往往无法判断偏态的分布是否与对称的正态分布有“显著”差别，所以需要做显著性检验。如同其它统计显著性检验一样，Skewness的绝对值如大于其标准误差的1.96倍，就被认为是与正态分布有显著差别。如果检验结果显著，我们也许（注意这里我用的是“也许”一词）可以通过转换来达到或接近对称。见注解1的说明。

2、峰态是否陡缓适度

也就是看Kurtosis（峰态）是否过分peaked（陡峭）或过分flat（平坦）。如果Kurtosis为0，则说明该变量分布的峰态正合适，不胖也不瘦（但罕见）；如果Kurtosis为正值，则说明该变量的分布峰态太陡峭（瘦高个，见图2b）；反之，如果Kurtosis为负值，该变量的分布峰态太平缓（矮胖子，见图2a）。峰态是否适度，更难直观看出，也需要通过显著检验。如同Skewness一样，Kurtosis的绝对值如果大于其标准误差的1.96倍，就被认为与正态分布有显著差别。这时，我们也许可以通过转换来达到或接近正态分布（峰态）。

第三步

如果"数据分析师"需要做正态化转换，还是根据变量的分布形状，确定相应的转换公式。最常见的情况是正偏态加上陡峰态。

1、如果是中度偏态

如Skewness为其标准误差的2-3倍，可以考虑取根号值来转换，以下是SPSS的指令（其中"nx"是原始变量x的转换值，参见注2）：

COMPUTE nx=SQRT（x）

2、如果高度偏态

如Skewness为其标准误差的3倍以上，则可以取对数，其中又可分为自然对数和以10为基数的对数。以下是转换自然对数的指令（注2）：

COMPUTE nx=LN（x）

以下是转换成以10为基数的对数（其纠偏力度最强，有时会矫枉过正，将正偏态转换成负偏态，注2）：

COMPUTE nx=LG10（x）

上述公式只能减轻或消除变量的正偏态(positive skewed)，但如果不分青红皂白（即不仔细操作第一和第二步）地用于负偏态（negative skewed）的变量，则会使负偏态变得更加严重。如果第一步显示了负偏态的分布，则需要先对原始变量做reflection（反向转换），即将所有的值反过来，如将最大值变成最小值、最小值变成最大值、等等。如果一个变量的取值不多，可用如下指令来反转：

RECODE x（1=7）（2=6）（3=5）（5=3）（6=2）（7=1）

如果变量的取值很多或有小数、分数，上述方法几乎不可能，则需要写如下的指令（不知大家现在是否信服了为什么要学syntax吗？）：

COMPUTE nx=max-x+1，其中max是x的最大值。

第四步

回到第一步，再次检验转换后变量的分布形状。如果"数据分析师"没有解决问题，或者甚至恶化（如上述的从正偏态转成负偏态），需要再从第二或第三步重新做起，然后再回到第一步的检验，等等，直至达到比较令人满意的结果（见注3）。

数据正态化的特别注解

1、如同其它统计检验量一样，Skewness和Kurtosis的的标准误差也与样本量直接有关。具体说来，Skewness的标准误差约等于6除以n后的开方（根号喜下6/n），而Kurtosis的标准误差约等于24除以n后的开方（根号下24/n），其中n均为样本量。由此可见，样本量越大，标准误差越小，因此同样大小的Skewness和Kurtosis在大样本中越可能与正态分布有显著差别。这也许就是SW在问题中提到的“很多学科都在讲大样本不用太考虑正态分布问题”的由来。我的看法是，如果小样本的Skewness和Kurtosis是显著的话，一定要转换；在大样本的条件下，如果Skewness和Kurtosis是轻度偏差，也许不需要转换，但如果严重偏差，也是要转换。

2、大家知道，根号里的x不能为负数，对数或倒数里的x不能为非正数（即等于或小于0）。如果你的x中有是负数或非正数，需要将其做线性转换成非负数（即等于或大于0）或正数（大于0），如 COMPUTE nx = SQRT (x - min) 或 COMPUTE nx = LN (x - min + 1)，其中的min是x的最小值（为一个非正数）。

https://www.cda.cn/3、不是任何分布形态的变量都可以转换的。例外之一是“双峰”或“多峰”分布（distribution with dual or multiple modality），没有任何公式可以将之转换成单峰的正态分布。数据分析师培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

正态分布数据分析偏差

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

如何用SPSS做数据正态化转换？

第一步

第二步

1、左右是否对称

2、峰态是否陡缓适度

第三步

1、如果是中度偏态

2、如果高度偏态

第四步

数据正态化的特别注解

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...