R语言中apply家族中的系列循环函数总结-CDA数据分析师官网

R语言中apply家族中的系列循环函数总结

2017-04-08

R语言中apply家族中的系列循环函数总结

R语言中的以apply()函数为首的apply()家族，提供了强大而方便的循环功能，这些函数说起来简单，用起来可能就有点蒙圈儿了。这些函数确实简单，但是可能很多人搞不清这些函数究竟有什么用处与区别呢？R中不是已经有for循环了吗？其实作为一种与Matlab一样的向量化语言，用for循环会把本来速度就慢的R语言的速度拖的更慢，这就要用到apply()家族函数了，下面就对apply()家族中的函数分别做详细的介绍，以便于区别他们。

1、apply函数

apply()是用的最多，也是最好理解的函数了。比如

> x<-cbind(3,c(1:5,4:1))

x是一个9行2列的矩阵

> x

[,1] [,2]

[1,] 3 1

[2,] 3 2

[3,] 3 3

[4,] 3 4

[5,] 3 5

[6,] 3 4

[7,] 3 3

[8,] 3 2

[9,] 3 1

> apply(x,1,mean)

[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0

> apply(x,2,mean)

[1] 3.000000 2.777778

这里第一个参数表示应用的数据为x，第三个参数为应用的函数名（这里是平均值函数），第二个参数取1表示对9行数据求每行均值，取2表示对2列每列求均值。其实对于一个三维数组，第二个参数取3表示对第三维分别应用指定的函数。比如

> x<-array(c(1:24),dim = c(2,3,4))

> x

, , 1

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

, , 2

[,1] [,2] [,3]

[1,] 7 9 11

[2,] 8 10 12

, , 3

[,1] [,2] [,3]

[1,] 13 15 17

[2,] 14 16 18

, , 4

[,1] [,2] [,3]

[1,] 19 21 23

[2,] 20 22 24

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

这里，由于x的第三维有4个组，因此循环进行了4次，得出了4个值。当然了，这里的指定函数也可以是自定义函数。

2、lapply函数

apply()函数主要是对向量进行循环，而lapply()函数则在对列表元素进行循环时特别有用。

例一

> apply(x,3,mean)

[1] 3.5 9.5 15.5 21.5

> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))

> x

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

> lapply(x,mean)

$a1

[1] 4.5

$a2

[1] 0.6

这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值，这里列表的第二个元素为布尔型，显然将其0~1对待，求出了均值。

例二

> lapply(x,quantile)

$a1

0% 25% 50% 75% 100%

1.00 2.75 4.50 6.25 8.00

$a2

0% 25% 50% 75% 100%

0 0 1 1 1

这里用lapply()函数指定quantile给出了x的分位数。

3、sapply函数

看下面例子

> sapply(x,quantile)

a1 a2

0% 1.00 0

25% 2.75 0

50% 4.50 1

75% 6.25 1

100% 8.00 1

显然，我们发现这里用sapply()函数也指定quantile求出了x的分位数，与lapply()函数不同的是：sapply()函数默认返回的是一个矩阵，而lapply()函数返回的时一个列表。其实，在sapply()函数中如果返回的长度不一样不能生成矩阵时，才会生成一个列表。

> x1

$a1

[1] 1 2 3 4 5 6 7 8

$a2

[1] TRUE FALSE FALSE TRUE TRUE

这里自定义函数f()返回参数本身，x中两列不一样长，返回类型就为列表。

4、tapply函数

前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单，tapply()函数提供了更强大、更灵活的循环方式，可能也更难以理解。

例一

> a<-as.factor(c(1,1,2,3,3))

> a

[1] 1 1 2 3 3

Levels: 1 2 3

> tapply(a,a,length)

1 2 3

2 1 2

这里tapply()函数有三个参数，第一个参数指定因子类型a为被循环对象，第二个参数指定a为指针参数，第三个参数指定应用的函数为求长度函数length，这里由于a的因子水平为3，故tapply()函数循环了三次，分别求出三个水平的出现次数。

例二

这里以warpbreaks数据集为例

> head(warpbreaks)

breaks wool tension

1 26 A L

2 30 A L

3 54 A L

4 25 A L

5 70 A L

6 52 A L

> summary(warpbreaks[,c(2:3)])

wool tension

A:27 L:18

B:27 M:18

H:18

warpbreaks的wool变量有两个分类，tension有三个分类。

> tapply(warpbreaks$breaks,warpbreaks[-1],sum)

tension

wool L M H

A 401 216 221

B 254 259 169

这里以warpbreaks的breaks变量作为应用对象，除去第一列(warpbreaks[-1])作为指针参数，第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量，tension有三个变量，一共有2x3 = 6种组合。比如wool = A，tension = L时求和所有breaks就是401。我们可以检验一下如下：

> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])

[1] 401

显然，wool = A，tension = L时求和所有breaks就是401。

5、mapply函数

mapply()函数与tapply()函数还是比较相似的，不过与其它apply家族的函数相比，mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。

例一

> mapply(rep,1:4,4:1)

[[1]]

[1] 1 1 1 1

[[2]]

[1] 2 2 2

[[3]]

[1] 3 3

[[4]]

[1] 4

这里mapply()函数有三个参数，第一个指定应用的函数为rep，就是重复函数；第二个参数指定被应用的对象为序列4：1，第三个参数指定重复的次数分别为1：4，即4要重复一次，3要重复两次等。数据分析师培训

例二

mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))

[[1]]

[1] 11

[[2]]

[1] 21 22

[[3]]

[1] 31 32 33

这里自定义了一个函数seq_len(x)+y，其中seq_len(x)函数作用是生成一个1：X的序列，比如：

> seq_len(3)

[1] 1 2 3

那么对c(1,2,3)就会依次生成1，1：2，1：3的序列，再分别加上10，20，30，就会得到那样的结果了。

可以看出，mapply()函数主要是对中间对象元素与第三个对象元素一一对应，分别应用前面的指定函数。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

R语言中apply家族中的系列循环函数总结

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...