热线电话:13121318867

登录
2018-11-26 阅读量: 820
异常值处理

在异常值处理之前需要对异常值进行识别, 一般多采用单变量散点图或

是箱形图来达到目的。 在R中, 使用函数dotchart() 、 boxplot() 实现绘制

单变量散点图与箱形图。

异常值产生最常见的原因是人为输入的错误, 如小数

点输入错误, 会把123.00g变成12300g。

在数据预处理时, 异常值是否剔除, 需视具体情况而定, 因为有些异常

值可能蕴含着有用的信息。

将含有异常值的记录直接删除这种方法简单易行, 但缺点也很明显, 在

观测值很少的情况下, 这种删除会造成样本量不足, 可能会改变变量的原有

分布, 从而造成分析结果的不准确。 视为缺失值处理的好处是可以利用现有

变量的信息, 对异常值(缺失值) 进行填补。

很多情况下, 要先分析异常值出现的可能原因, 再判断异常值是否应该

舍弃, 如果是正确的数据, 可以直接在具有异常值的数据集上进行挖掘建

模。

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子