关于SPSS数据预处理-CDA数据分析师官网

关于SPSS数据预处理

2015-09-12

关于SPSS数据预处理

拿到一份数据，或者在看到国内外某个学者的文章有想法而自己手里的数据刚好符合这个想法可以做时，在整理好数据后不要急于建模。一定要对数据做缺失值处理、异常值处理。在数据预处理的基础上再进一步建模，否则可能得到错误的结果。

心得1：数据预处理怎么做。

一是缺失值的处理。我个人有几个看法：

数据样本量足够大，在删除缺失值样本的情况下不影响估计总体情况，可考虑删除缺失值；

二是数据样本量本身不大的情况下，可从以下两点考虑：1是采用缺失值替换，SPSS中具体操作为“转换”菜单下的“替换缺失值”功能，里面有5种替换的方法。若数据样本量不大，同质性比较强，可考虑总体均值替换方法，如数据来自不同的总体（如我做农户调研不同村的数据），可考虑以一个小总体的均值作为替换（如我以一个村的均值替换缺失值）。2是根据原始问卷结合客观实际自行推断估计一个缺失值的样本值，或者以一个类似家庭的值补充缺失值。

心得2：数据预处理第二点异常值的处理。

我大概学了两门统计软件SPSS和Stata，SPSS用的时间久些，熟悉一下，Stata最近才学，不是太熟。关于这点我结合着来说。关于异常值的处理可分为两点，一是怎么判定一个值是异常值，二是怎么去处理。

判定异常值的方法我个人认为常用的有两点：1是描述性统计分析，看均值、标准差和最大最小值。一般情况下，若标准差远远大于均值，可粗略判定数据存在异常值。2是通过做指标的箱图判定，箱图上加“*”的个案即为异常个案。

发现了异常值，接下来说怎么处理的问题。大概有三种方法：

1是正偏态分布数据取对数处理。我做农户微观实证研究，很多时候得到的数据（如收入）都有很大的异常值，数据呈正偏态分布，这种我一般是取对数处理数据。若原始数据中还有0，取对数ln(0)没意义，我就取ln(x+1)处理；

2是样本量足够大删除异常值样本；

3是从stata里学到的，对数据做结尾或者缩尾处理。这里的结尾处理其实就是同第二个方法，在样本量足够大的情况下删除首尾1%-5%的样本。缩尾指的是人为改变异常值大小。如有一组数据，均值为50，存在几个异常值，都是500多（我这么说有点夸张，大概是这个意思），缩尾处理就是将这几个500多的数据人为改为均值+3标准差左右数据大小，如改为100。

总结而言，我个人认为做数据变换的方式比较好，数据变换后再做图或描述性统计看数据分布情况，再剔除个别极端异常值。CDA数据分析师培训官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

缺失值处理异常值处理统计分析数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

关于SPSS数据预处理

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...