2018-11-21
阅读量:
953
异常值分析
异常值分析是检验数据是否有录入错误以及含有不合常理的数据。 忽视
异常值的存在是十分危险的, 不加剔除地把异常值包括进数据的计算分析过
程中, 会给结果带来不良影响; 重视异常值的出现, 分析其产生的原因, 常
常成为发现问题进而改进决策的契机。
异常值是指样本中的个别值, 其数值明显偏离其余的观测值。 异常值也
称为离群点, 异常值的分析也称为离群点分析。
(1) 简单统计量分析
可以先对变量做一个描述性统计, 进而查看哪些数据是不合理的。 最常
用的统计量是最大值和最小值, 用来判断这个变量的取值是否超出了合理的
范围。 例如, 客户年龄的最大值为199岁, 则该变量的取值存在异常。
(2) 3σ原则
如果数据服从正态分布, 在3σ原则下, 异常值被定义为一组测定值中
与平均值的偏差超过三倍标准差的值。 在正态分布的假设下, 距离平均值
3σ之外的值出现的概率为P(|x-μ|>3σ) ≤0.003, 属于极个别的小概率事件。
如果数据不服从正态分布, 也可以用远离平均值的多少倍标准差来描
述。
(3) 箱形图分析
箱形图提供了识别异常值的一个标准: 异常值通常被定义为小于QL-
1.5IQR或大于QU+1.5IQR的值。 QL称为下四分位数, 表示全部观察值中有四
分之一的数据取值比它小; QU称为上四分位数, 表示全部观察值中有四分
之一的数据取值比它大; IQR称为四分位数间距, 是上四分位数QU与下四分
位数QL之差, 其间包含了全部观察值的一半。
0.0000
0
1
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论