热线电话:13121318867

登录
2018-10-18 阅读量: 1063
干货!用R数据预处理dplyr包函数的整理

简介:dplyr是R语言中使用频次非常高的一个包,主要用来对数据进行预处理,灵活、强大,是Rer必须掌握的一个包。


常用函数

  • arrange
  • select
  • tbl_df
  • between
  • bind
  • case_when
  • count
  • desc
  • do
  • filter
  • first
  • groups
  • group_by
  • if_else
  • inner_join
  • join
  • left_join
  • last
  • matches
  • mutate
  • mutate_if
  • n
  • select
  • summarise
  • tbl
  • transmute


selectselect函数可以选取指定的对象中的列数据

#下面我们通过使用select函数来选取finance.data中的几列数据#选取一列finance.data.select <- head(select(finance.data,证券代码))#选取两列及以上finance.data.select <- head(select(finance.data,证券代码,roe_ma))当然,除此之外,还可以使用start_with,end_with,contains,matches函数来配合select函数一起使用


#配合start_with函数,可以选取任意字符开头的列finance.data.select <- head(select(finance.data, starts_with("o")))#配合end_with函数,可以选取任意字符结尾的列finance.data.select <- head(select(finance.data, starts_with("g")))#配合contains函数,可以选取包含任意字符的列finance.data.select <- head(select(finance.data, contains("o")))#配合matches函数,可以选取符合正则规则的列finance.data.select <- head(select(finance.data, matches("g")))


filterfilter是一个过滤函数,通过这个函数可以筛选出符合条件的数据。


#首先选取finance.data中的两列finance.data.select <- select(finance.data,证券代码,roe_ma)#使用filter函数保留roe_ma列中大于15以上的行finance.data.select <- filter(finance.data.select,                              finance.data.select

betweenbetween主要筛选介于两个值之间的数据。



#判断roe_ma的值介于17和18之间finance.data.select


case_whencase_when在对数据重编码情况下经常用到。


if_elseif_else类似excel中的if函数,类似R基础包中的ifelse函数,唯一不同的是,if_else中包含一个对缺失值处理的参数。

#首先选取finance.data中的两列finance.data.select <- select(finance.data,证券代码,roe_ma)finance.data.select <- tbl_df(finance.data.select)#使用if_elsefinance.data.select


arrangearrange函数使用desc函数来对数据排序。



0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子