京公网安备 11010802034615号
经营许可证编号:京B2-20210330
R语言实用小技巧
这篇文章介绍的是我平时写程序遇到的各种小问题,以及解决他们的小技巧
1.R语言读取EXCEL
用R语言读取EXCEL时,可以使用readxl包的read_excel函数,不要使用xlsx这个包,因为xlsx它要加载JAVA,很麻烦,而使用readxl不需要加载JAVA。
2.如何在R中构造一个hash函数
这在R中或许有许多包能够实现,但是,其实我们自己来实现也是很简单的,要知道environment的原理也是一个hash函数,我们只需要利用environment,来负责存储我们所需要的映射列表就可以了。接下来我们可以利用digest包的散列函数digest(),这个函数可以将任意的R对象映射为一个md5值,或者sha1等,他的md5值就是我们所需要的key,以下是使用例子:
有如下这样的数据
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假设我想将x,y映射到z,将y,z映射为k,先定义两个函数,一个是SetKeyValue,负责设置key,value对,第二个是GetValue,输入一个key,返回key对应的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}
hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}
这样我们就得到了一个由environment构造的hash函数了,我们可以这样去得到值:
> GetValue(hash,df[1,1:2]) #得到当x=1 y=2时的z值
[1] 3
当然,如果想要更快的速度,可以使用fastdigest这个包,里面的散列函数比digest包要快,只需将digest()替换成fastdigest()就可以了。
3.如何用最快最简单的方法加快R的执行速度?
答案是使用compiler包,这个包的作用就是将R代码编译成字节码,这在很多情况下都能加快运行的速度,当然也会有一些时候作用没有那么大,使用非常简单,以下是一个使用例子:
> library(microbenchmark)
> library(compiler)
> f1<-function(){
+ x=1:100
+ for(i in 1:100){
+ x[i]=x[i]+1
+ }
+ }
> f2<-function(){
+ x=1:100
+ x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+ f1(),
+ f2(),
+ f3(),
+ f4()
+ )
Unit: nanoseconds
expr min lq mean median uq max neval cld
f1() 170077 175453 178277.64 177652 179363 227746 100 c
f2() 978 1467 2028.94 1956 2444 5865 100 a
f3() 11730 12219 12873.79 12708 13196 20039 100 b
f4() 978 1466 1564.65 1467 1955 2933 100 a
可以看到编译后的f3,f4跟编译前的f1,f2,快了将近2倍到10倍,这么简单就能提升运行速度,何乐而不为呢?
我写的一个小代码,可以批量地把环境变量中所有的函数都编译一次:
funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}
如何想要更快,可以参考Windows使用OpenBLAS加速R语言计算速度
4.如何读取一个文件夹所有的文件?
我们可以利用list.files进行匹配,通过其中参数pattern可以填写正则表达式,用来匹配文件夹下满足条件的文件名。然后再利用lapply来导入文件。
filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")
datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})
5.如何把data.frame按照行来对应生成列表
> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534
我想把这个data.frame变成一个list 并且i要与list中的序号对应。
解决方法如下:
> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534
[[2]]
[1] 0.3721239
[[3]]
[1] 0.2655087
6.如何标记每个组别中出现的次数,他们出现的顺序。
有这么个数据:
> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1 1
2 1
3 2
4 2
5 3
6 3
7 3
现在想添加一列,标记的id列,让它变成:
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
可以利用data.table实现:
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
7.R语言读取SPSS格式文件
可以使用library(memisc)这个包,虽然foreign也能做到,但是有的时候格式会很混乱,而memisc就可以完美读取。
8.R语言for循环的小贴士
看一个例子,这个例子是一个简单的for循环,它在大部分情况下是没有任何问题的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果当x是一个空值时,这就会出问题了,当x是空值时,我们并不希望这个for循环会执行,但是在这里n=0,那么i in 1:0 就会产生1和0,这就会导致出现各种各样的错误,而且这些错误并不固定,它会随着你的for循环里面的内容改变而改变,从而很难定位bug的所在。一个解决的方法是,我们可以使用seq.int(length.out = n)循环来代替1:n
n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}
这样当n=0的时候,这个循环就不会执行了。
9.使用foreach包并行计算时看到里面print的方法
在linux的时候,我们可以在makeCluster上加上outfile="" 使用""就会默认输出到控制台,不过这个功能在windows好像不能用,在windows的时候建议输出到文件里,outfile="d:/log.txt",这样就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16