R语言中的几类高效函数-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言中的几类高效函数

R语言中的几类高效函数

2017-02-21

R语言中的几类高效函数

在执行 R语言任务时，一个提高执行效率的思路就是尽量避免使用循环语句，否则你的工作将变的缓慢低效。事实上，我们是可以有办法使用一些较高级的函数来尽量避免使用循环工作的。下面本文将介绍常见的几种高效函数。

1.apply函数

2.lapply函数

3.sapply函数

4.tapply函数

5.sweep函数

6.column函数和row函数

1）apply函数

apply函数主要应用在一个数组或者矩阵上，通过给定的函数，并根据指定的计算方向(按行或按列)，以该方向的数组为输入对象，反回计算结果，并将结果存储于一个数组或向量中。

apply(array, margin, function, ...)

首先定义一个矩阵data

data <- matrix(rep(seq(4), 4), ncol = 4)

data

[,1] [,2] [,3] [,4]

[1,] 1 1 1 1

[2,] 2 2 2 2

[3,] 3 3 3 3

[4,] 4 4 4 4

#先根据行求和，其中1为指定按行计算(1为行，2为列)，sum为指定的function

apply(data, 1, sum)

[1] 4 8 12 16

#根据列求和，其中2为按列计算

apply(data, 2, sum)

[1] 10 10 10 10

#使用自定义函数，首先定义函数myfun

myfun <- function(x){

+ sum(x) + 2

+ }

#根据自定义函数，使用apply函数计算

apply(data, 1, myfun)

[1] 6 10 14 18

#自定义函数还可以写在apply函数内部，不过需要注意，没有大括号

apply(data, 1, function(x) sum(x) + 2)

[1] 6 10 14 18

#更通用的，可以将函数写出如下形势

apply(data, 1, function(x, y) sum(x) + y, y=2)

[1] 6 10 14 18

2）lapply函数

lapply用于对给定的数据，分别对其中的元素按指定的函数计算，并返回一个list。对于数据框来说，lapply函数显得极为友好，在data.frame中，每个变量可以看做是一个元素，因此lapply应用于data.frame时，可以同时对所有变量按指定函数进行计算。

#首先构造一个数据框

data.df<-data.frame(data)

> data.df

X1 X2 X3 X4

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

#对数据框所有变量进行求和，返回每个变量的结果，存储形式为list。

lapply(data.df, sum)

$X1

[1] 10

$X2

[1] 10

$X3

[1] 10

$X4

[1] 10

＃此外，还可以将传入的函数改成自定义的函数。要注意，函数形式没有大括号。

y1 <- lapply(data.df, function(x, y) sum(x) + y, y = 5)

$X1

[1] 15

$X2

[1] 15

$X3

[1] 15

$X4

[1] 15

#使用lappy代替循环函数

unlist(lapply(1:5, function(i) print(i) ))

[1] 1

[1] 2

[1] 3

[1] 4

[1] 5

[1] 1 2 3 4 5

#对比一下for循环结果就算结果，发现是一致的

for(i in 1:5) print(i)

[1] 1

[1] 2

[1] 3

[1] 4

[1] 5

3）sapply函数

sapply函数与lapply函数类似，主要输入的参数都是数据和函数，但sapply与lapply不同的是sapply返回的是向量，而lapply返回的是一个list。并且sapply还存在第三个参数simplify，当silmplify为FALSE时，那么sapply返回的结果和lapply一致；当silmplify为TRUE时，sapply返回的结果为一个向量或者矩阵；此外还可以设定其它格式。

sapply(list, function, ..., simplify)

y <- sapply(data.df, function(x, y) sum(x) + y, y = 5)

X1 X2 X3 X4

15 15 15 15

is.vector(y)

[1] TRUE #返回的结果是一个向量

＃定义simply＝F，此时返回的结果胃list，效果和apply一样。

y <- sapply(data.df, function(x, y) sum(x) + y, y = 5,simplify = F)

$X1

[1] 15

$X2

[1] 15

$X3

[1] 15

$X4

[1] 15

class(y)

[1] "list"

is.list(y)

[1] TRUE#返回结果为list

4）tapply函数

tapply用于对数据进行分组计算，类似于SQL中的group by。tapply需要传入三个参数，第一个是数据，第二个是数据的分组，第三个参数是指定的计算函数。

data.df<-data.frame(x=runif(10),group1=rep(1:5,2),group2=rep(1:2,5))

data.df

x group1 group2

1 0.68180046 1 1

2 0.72726914 2 2

3 0.33735976 3 1

4 0.48212394 4 2

5 0.04234556 5 1

6 0.88701919 1 2

7 0.53946995 2 1

8 0.01295496 3 2

9 0.47062069 4 1

10 0.87079649 5 2

tapply(data.df$x, data.df$group1, mean)

1 2 3 4 5

0.4926077 0.7726152 0.6058755 0.6110971 0.3074988

#此处还可以传入两个分组的计算结果

tapply(data.df$x, list(data.df$group1,data.df$group2), mean)

1 2

1 0.68180046 0.88701919

2 0.53946995 0.72726914

3 0.33735976 0.01295496

4 0.47062069 0.48212394

5 0.04234556 0.87079649

5）sweep函数

sweep函数用于对给定的输入数据做批量的计算，主要参数有数据、统计方向、计算参数、计算函数。其中统计方向可取1或2，取1表示在行的方向上计算，2表示在列的方向上计算。计算函数为加减乘除等算是，默认为减法'－'。

data<-matrix(runif(20),5)

data.df<-data.frame(data)

data.df

X1 X2 X3 X4

1 0.09248257 0.4358975 0.1884430 0.1212183

2 0.83091974 0.2388490 0.8377123 0.6140257

3 0.15849016 0.2286257 0.8577217 0.9877683

4 0.86437393 0.2771434 0.5302898 0.1608113

5 0.43098913 0.5906199 0.1117341 0.2846628

#将数据按行计算，每行分别减去各行的最大值

sweep(data.df,1,apply(data.df,1,max),'-')

X1 X2 X3 X4

1 -0.343414887 0.0000000 -0.2474544 -0.3146792

2 -0.006792557 -0.5988633 0.0000000 -0.2236865

3 -0.829278179 -0.7591426 -0.1300467 0.0000000

4 0.000000000 -0.5872305 -0.3340842 -0.7035627

5 -0.159630747 0.0000000 -0.4788858 -0.3059571

6）column函数和row函数

还有一些函数也是基于行和列进行统计计算的，如对列进行计算的有colMeans和colSums；对行计算的rowMeans和rowSums。

data.df

X1 X2 X3 X4

1 0.09248257 0.4358975 0.1884430 0.1212183

2 0.83091974 0.2388490 0.8377123 0.6140257

3 0.15849016 0.2286257 0.8577217 0.9877683

4 0.86437393 0.2771434 0.5302898 0.1608113

5 0.43098913 0.5906199 0.1117341 0.2846628

#对列求平均

colMeans(data.df)

X1 X2 X3 X4

0.4754511 0.3542271 0.5051802 0.4336973

#对列求和

X1 X2 X3 X4

2.377256 1.771135 2.525901 2.168486

#对行求和

rowSums(data.df)

[1] 0.8380414 2.5215068 2.2326058 1.8326183 1.4180059

#对行求平均

rowMeans(data.df)

[1] 0.2095103 0.6303767 0.5581515 0.4581546 0.3545015

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言统计计算 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言中的几类高效函数

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少涵谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载