R语言实用小技巧-CDA数据分析师官网

热线电话：13121318867

R语言实用小技巧

2018-03-09

R语言实用小技巧

这篇文章介绍的是我平时写程序遇到的各种小问题，以及解决他们的小技巧
1.R语言读取EXCEL
用 R语言读取EXCEL时，可以使用readxl包的read_excel函数，不要使用xlsx这个包，因为xlsx它要加载JAVA，很麻烦，而使用readxl不需要加载JAVA。

2.如何在R中构造一个hash函数
这在R中或许有许多包能够实现，但是，其实我们自己来实现也是很简单的，要知道environment的原理也是一个hash函数，我们只需要利用environment，来负责存储我们所需要的映射列表就可以了。接下来我们可以利用digest包的散列函数digest(),这个函数可以将任意的R对象映射为一个md5值，或者sha1等，他的md5值就是我们所需要的key，以下是使用例子：
有如下这样的数据
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假设我想将x,y映射到z，将y,z映射为k，先定义两个函数，一个是SetKeyValue，负责设置key,value对，第二个是GetValue，输入一个key，返回key对应的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}

hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}

这样我们就得到了一个由environment构造的hash函数了，我们可以这样去得到值：

> GetValue(hash,df[1,1:2]) #得到当x=1 y=2时的z值
[1] 3

当然，如果想要更快的速度，可以使用fastdigest这个包，里面的散列函数比digest包要快，只需将digest()替换成fastdigest()就可以了。
3.如何用最快最简单的方法加快R的执行速度？

答案是使用compiler包，这个包的作用就是将R代码编译成字节码，这在很多情况下都能加快运行的速度，当然也会有一些时候作用没有那么大，使用非常简单，以下是一个使用例子：

> library(microbenchmark)
> library(compiler)
> f1<-function(){
+   x=1:100
+   for(i in 1:100){
+     x[i]=x[i]+1
+   }
+ }
> f2<-function(){
+   x=1:100
+   x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+   f1(),
+   f2(),
+   f3(),
+   f4()
+ )
Unit: nanoseconds
expr    min     lq      mean median     uq    max neval cld
f1() 170077 175453 178277.64 177652 179363 227746   100   c
f2()    978   1467   2028.94   1956   2444   5865   100 a
f3() 11730 12219 12873.79 12708 13196 20039   100 b
f4()    978   1466   1564.65   1467   1955   2933   100 a

可以看到编译后的f3,f4跟编译前的f1,f2,快了将近2倍到10倍，这么简单就能提升运行速度，何乐而不为呢？
我写的一个小代码，可以批量地把环境变量中所有的函数都编译一次：

funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}

如何想要更快，可以参考Windows使用OpenBLAS加速R语言计算速度
4.如何读取一个文件夹所有的文件？

我们可以利用list.files进行匹配，通过其中参数pattern可以填写正则表达式，用来匹配文件夹下满足条件的文件名。然后再利用lapply来导入文件。

filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")

datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})

5.如何把data.frame按照行来对应生成列表

> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i         y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534

我想把这个data.frame变成一个list 并且i要与list中的序号对应。
解决方法如下：

> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534

[[2]]
[1] 0.3721239

[[3]]
[1] 0.2655087

6.如何标记每个组别中出现的次数，他们出现的顺序。

有这么个数据：

> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1     1
2     1
3     2
4     2
5     3
6     3
7     3
现在想添加一列，标记的id列，让它变成：
   group id
1:     1 1
2:     1 2
3:     2 1
4:     2 2
5:     3 1
6:     3 2
7:     3 3
可以利用data.table实现：
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
   group id
1:     1 1
2:     1 2
3:     2 1
4:     2 2
5:     3 1
6:     3 2
7:     3 3
7.R语言读取SPSS格式文件
可以使用library(memisc)这个包，虽然foreign也能做到，但是有的时候格式会很混乱，而memisc就可以完美读取。
8.R语言for循环的小贴士
看一个例子，这个例子是一个简单的for循环，它在大部分情况下是没有任何问题的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果当x是一个空值时，这就会出问题了，当x是空值时，我们并不希望这个for循环会执行，但是在这里n=0，那么i in 1:0 就会产生1和0，这就会导致出现各种各样的错误，而且这些错误并不固定，它会随着你的for循环里面的内容改变而改变，从而很难定位bug的所在。一个解决的方法是，我们可以使用seq.int(length.out = n)循环来代替1:n

n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}

这样当n=0的时候，这个循环就不会执行了。
9.使用foreach包并行计算时看到里面print的方法
在linux的时候，我们可以在makeCluster上加上outfile="" 使用""就会默认输出到控制台，不过这个功能在windows好像不能用，在windows的时候建议输出到文件里，outfile="d:/log.txt"，这样就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言正则表达式

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python新式类和经典类的区别

下一篇有一份让吴恩达称赞的深度学习的课程笔记，请注意查收

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言实用小技巧

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：开启数据职业发展新征程 ...

从招聘要求看数据分析师的能力素养与职业发展 ...

【CDA干货】Power BI 中如何控制过滤器选择项目数并 ...

把握 CDA 考试时间，开启数据分析职业之路 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

R语言实用小技巧

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 数据分析师：开启数据职业发展新征程 ...

从招聘要求看数据分析师的能力素养与职业发展 ...

【CDA干货】Power BI 中如何控制过滤器选择项目数并 ...

把握 CDA 考试时间，开启数据分析职业之路 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...