R语言怎么做数据清洗1？

dreamhappy2012

2019-01-18 阅读量: 887

R语言怎么做数据清洗1？

R语言对重复值的清洗：

重复值清洗会使用duplicated函数

使用duplicated函数查看数据表中的用户ID列是否存在重复值，duplicated函数返回该字段每一行的检查结果，重复的标记为TURE，不重复的值标记为FALSE。在下面的结果中可以看到数据表的用户ID列最后四个值为重复值。

首先：查看列是否有重复

#查看特定列是否有重复
duplicated(loan$member_id)

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE

对于包含重复值的数据表，可以使用unique函数提取数据表中的唯一值，并用唯一值覆盖原有数据，达到去除重复值的目的。下面的代码提取了loan数据表中的唯一值，并重新赋给loan数据表。此时loan数据表中就不包含重复值了。

其次：删除重复值：

#删除重复值，返回唯一值列表
loan=unique(loan)

去除完重复值后，再次使用duplicated函数查看，返回的结果中都为FALSE，已经没有重复值了。

1
2#查看重复值
duplicated(loan$member_id)

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

以上是对重复值处理的方法！