R语言怎么做数据清洗3？--填充空值

dreamhappy2012

2019-01-18 阅读量: 4530

R语言怎么做数据清洗3？--填充空值

R语言对重复值的清洗： 填充空值

我们爬取的数据会出现很多空值，怎么进行空值的填充呢？

对于数据表中的空值，有两种处理方法，第一种是用0进行填充，第二种是删除包含空值的行。

下面是第一种方法，将loan表中的空值填充为0.

#将空值填充为0

loan[is.na(loan)] <- 0

[/code]

第二种方法使用删除loan表中包含有空值的行。

[code lang="r"]

#删除空值所在行

loan<-na.omit(loan)

[/code]

<h2>大小写转换</h2>

英文字母的大小写和字符间的空格是影响数据统计的一个常见原因。

例如下面我们使用table函数对数据表按贷款状态进行汇总时，相同的贷款状态由于大小写和空格被分割成多种状态。造成统计数据不可用。下面我们对这个字段进行大小写转换和去除空格的清洗。

#按贷款状态进行汇总

table(loan$loan_status)

执行结果：

Fully Paid charged off Charged Off Charged Off Current fully paid fully Paid Fully paid Fully Paid
1 1 8 1 1 2 1 1 15

将英文字母转换为小写的函数是tolower，下面的代码中我们将贷款状态列统一转化为小写字母，然后重复赋给数据表中的贷款状态列。

#将贷款状态转换为小写
loan$loan_status=tolower(loan$loan_status)

转化完成后，再次使用table函数按贷款状态进行汇总，下面下面的结果中可以看到分类从之前的8个减少到了4个，并且的分类都为小写字母。下面我们在继续进行空格清洗。

#按贷款状态进行汇总
table(loan$loan_status)

fully paid charged off charged off current fully paid
1 9 1 1 19

以上是对空值填充的所有方法，希望可以帮助大家！

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子