2018-11-26
阅读量:
820
异常值处理
在异常值处理之前需要对异常值进行识别, 一般多采用单变量散点图或
是箱形图来达到目的。 在R中, 使用函数dotchart() 、 boxplot() 实现绘制
单变量散点图与箱形图。
异常值产生最常见的原因是人为输入的错误, 如小数
点输入错误, 会把123.00g变成12300g。
在数据预处理时, 异常值是否剔除, 需视具体情况而定, 因为有些异常
值可能蕴含着有用的信息。
将含有异常值的记录直接删除这种方法简单易行, 但缺点也很明显, 在
观测值很少的情况下, 这种删除会造成样本量不足, 可能会改变变量的原有
分布, 从而造成分析结果的不准确。 视为缺失值处理的好处是可以利用现有
变量的信息, 对异常值(缺失值) 进行填补。
很多情况下, 要先分析异常值出现的可能原因, 再判断异常值是否应该
舍弃, 如果是正确的数据, 可以直接在具有异常值的数据集上进行挖掘建
模。
0.0000
0
4
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论