R语言中apply家族中的系列循环函数总结
R语言中的以apply()函数为首的apply()家族,提供了强大而方便的循环功能,这些函数说起来简单,用起来可能就有点蒙圈儿了。这些函数确实简单,但是可能很多人搞不清这些函数究竟有什么用处与区别呢?R中不是已经有for循环了吗?其实作为一种与Matlab一样的向量化语言,用for循环会把本来速度就慢的R语言的速度拖的更慢,这就要用到apply()家族函数了,下面就对apply()家族中的函数分别做详细的介绍,以便于区别他们。
1、apply函数
apply()是用的最多,也是最好理解的函数了。比如
> x<-cbind(3,c(1:5,4:1))
x是一个9行2列的矩阵
> x
[,1] [,2]
[1,] 3 1
[2,] 3 2
[3,] 3 3
[4,] 3 4
[5,] 3 5
[6,] 3 4
[7,] 3 3
[8,] 3 2
[9,] 3 1
> apply(x,1,mean)
[1] 2.0 2.5 3.0 3.5 4.0 3.5 3.0 2.5 2.0
> apply(x,2,mean)
[1] 3.000000 2.777778
这里第一个参数表示应用的数据为x,第三个参数为应用的函数名(这里是平均值函数),第二个参数取1表示对9行数据求每行均值,取2表示对2列每列求均值。其实对于一个三维数组,第二个参数取3表示对第三维分别应用指定的函数。比如
> x<-array(c(1:24),dim = c(2,3,4))
> x
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
, , 3
[,1] [,2] [,3]
[1,] 13 15 17
[2,] 14 16 18
, , 4
[,1] [,2] [,3]
[1,] 19 21 23
[2,] 20 22 24
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
这里,由于x的第三维有4个组,因此循环进行了4次,得出了4个值。当然了,这里的指定函数也可以是自定义函数。
2、lapply函数
apply()函数主要是对向量进行循环,而lapply()函数则在对列表元素进行循环时特别有用。
例一
> apply(x,3,mean)
[1] 3.5 9.5 15.5 21.5
> x<-list(a1 = c(1:8),a2 = c(TRUE,FALSE,FALSE,TRUE,TRUE))
> x
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
> lapply(x,mean)
$a1
[1] 4.5
$a2
[1] 0.6
这里用lapply()函数指定用mean对列表的2个元素进行遍历求均值,这里列表的第二个元素为布尔型,显然将其0~1对待,求出了均值。
例二
> lapply(x,quantile)
$a1
0% 25% 50% 75% 100%
1.00 2.75 4.50 6.25 8.00
$a2
0% 25% 50% 75% 100%
0 0 1 1 1
这里用lapply()函数指定quantile给出了x的分位数。
3、sapply函数
看下面例子
> sapply(x,quantile)
a1 a2
0% 1.00 0
25% 2.75 0
50% 4.50 1
75% 6.25 1
100% 8.00 1
显然,我们发现这里用sapply()函数也指定quantile求出了x的分位数,与lapply()函数不同的是:sapply()函数默认返回的是一个矩阵,而lapply()函数返回的时一个列表。其实,在sapply()函数中如果返回的长度不一样不能生成矩阵时,才会生成一个列表。
> x1
$a1
[1] 1 2 3 4 5 6 7 8
$a2
[1] TRUE FALSE FALSE TRUE TRUE
这里自定义函数f()返回参数本身,x中两列不一样长,返回类型就为列表。
4、tapply函数
前面介绍的apply()、lapply()、sapply()函数提供的分组循环方式都很简单,tapply()函数提供了更强大、更灵活的循环方式,可能也更难以理解。
例一
> a<-as.factor(c(1,1,2,3,3))
> a
[1] 1 1 2 3 3
Levels: 1 2 3
> tapply(a,a,length)
1 2 3
2 1 2
这里tapply()函数有三个参数,第一个参数指定因子类型a为被循环对象,第二个参数指定a为指针参数,第三个参数指定应用的函数为求长度函数length,这里由于a的因子水平为3,故tapply()函数循环了三次,分别求出三个水平的出现次数。
例二
这里以warpbreaks数据集为例
> head(warpbreaks)
breaks wool tension
1 26 A L
2 30 A L
3 54 A L
4 25 A L
5 70 A L
6 52 A L
> summary(warpbreaks[,c(2:3)])
wool tension
A:27 L:18
B:27 M:18
H:18
warpbreaks的wool变量有两个分类,tension有三个分类。
> tapply(warpbreaks$breaks,warpbreaks[-1],sum)
tension
wool L M H
A 401 216 221
B 254 259 169
这里以warpbreaks的breaks变量作为应用对象,除去第一列(warpbreaks[-1])作为指针参数,第三个参数是应用求和函数。这里函数作用相当于一个分类汇总的功能wool有两个变量,tension有三个变量,一共有2x3 = 6种组合。比如wool = A,tension = L时求和所有breaks就是401。我们可以检验一下如下:
> sum(warpbreaks[which((warpbreaks$wool=='A')&warpbreaks$tension == 'L'),1])
[1] 401
显然,wool = A,tension = L时求和所有breaks就是401。
5、mapply函数
mapply()函数与tapply()函数还是比较相似的,不过与其它apply家族的函数相比,mapply()函数的另一个特点是它的参数顺序与其它函数恰好相反。
例一
> mapply(rep,1:4,4:1)
[[1]]
[1] 1 1 1 1
[[2]]
[1] 2 2 2
[[3]]
[1] 3 3
[[4]]
[1] 4
这里mapply()函数有三个参数,第一个指定应用的 函数为rep,就是重复函数;第二个参数指定被应用的对象为序列4:1,第三个参数指定重复的次数分别为1:4,即4要重复一次,3要重复两次等。数据分析师培训
例二
mapply(function(x,y) seq_len(x)+y,c(1,2,3),c(10,20,30))
[[1]]
[1] 11
[[2]]
[1] 21 22
[[3]]
[1] 31 32 33
这里自定义了一个函数seq_len(x)+y,其中seq_len(x)函数作用是生成一个1:X的序列,比如:
> seq_len(3)
[1] 1 2 3
那么对c(1,2,3)就会依次生成1,1:2,1:3的序列,再分别加上10,20,30,就会得到那样的结果了。
可以看出,mapply()函数主要是对中间对象元素与第三个对象元素一一对应,分别应用前面的指定函数。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29