热线电话:13121318867

登录
2019-01-18 阅读量: 887
R语言怎么做数据清洗1?

R语言对重复值的清洗:

重复值清洗会使用duplicated函数

使用duplicated函数查看数据表中的用户ID列是否存在重复值,duplicated函数返回该字段每一行的检查结果,重复的标记为TURE,不重复的值标记为FALSE。在下面的结果中可以看到数据表的用户ID列最后四个值为重复值。

首先:查看列是否有重复

#查看特定列是否有重复
duplicated(loan$member_id)

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE

对于包含重复值的数据表,可以使用unique函数提取数据表中的唯一值,并用唯一值覆盖原有数据,达到去除重复值的目的。下面的代码提取了loan数据表中的唯一值,并重新赋给loan数据表。此时loan数据表中就不包含重复值了。

其次:删除重复值:

#删除重复值,返回唯一值列表
loan=unique(loan)

去除完重复值后,再次使用duplicated函数查看,返回的结果中都为FALSE,已经没有重复值了。

1
2#查看重复值
duplicated(loan$member_id)

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

以上是对重复值处理的方法!

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子