R语言数据分组统计函数族—apply族用法与心得-CDA数据分析师官网

R语言数据分组统计函数族—apply族用法与心得

2017-04-23

R语言数据分组统计函数族—apply族用法与心得

apply族功能强大，实用，可以代替很多循环语句，R语言中不要轻易使用循环语句。

apply

Apply Functions Over Array Margins

对阵列行或者列使用函数

apply(X, MARGIN, FUN, ...)

lapply

Apply a Function over a List or Vector

对列表或者向量使用函数

lapply(X, FUN, ...)

sapply

Apply a Function over a List or Vector

对列表或者向量使用函数

sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)

vapply

Apply a Function over a List or Vector

对列表或者向量使用函数

vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)

tapply

Apply a Function Over a Ragged Array

对不规则阵列使用函数

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

eapply

Apply a Function Over Values in an Environment

对环境中的值使用函数

eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)

mapply

Apply a Function to Multiple List or Vector Arguments

对多个列表或者向量参数使用函数

mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRUE)

rapply

Recursively Apply a Function to a List

运用函数递归产生列表

rapply(object, f, classes = "ANY", deflt = NULL,how = c("unlist", "replace", "list"), ...)

1、apply函数

对一个数组按行或者按列进行计算，矩阵纵、横运算（sum,average等）

其中apply中，1等于行，2等于列

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
    > ma
         [,1] [,2] [,3] [,4]
    [1,]    1    3    1    7
    [2,]    2    4    6    8
    > apply(ma, c(1,2), sum)
         [,1] [,2] [,3] [,4]
    [1,]    1    3    1    7
    [2,]    2    4    6    8
    > apply(ma, 1, sum)
    [1] 12 20
    > apply(ma, 2, sum)
    [1] 3 7 7 15

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > tapply(1:17, fac, sum, simplify = FALSE)
    $`1`
    [1] 51
    $`2`
    [1] 57
    $`3`
    [1] 45
    $`4`
    NULL
    $`5`
    NULL
    > tapply(1:17, fac, range)
    $`1`
    [1] 1 16
    $`2`
    [1] 2 17
    $`3`
    [1] 3 15
    $`4`
    NULL
    $`5`
    NULL
2、tapply

（进行分组统计）

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
    #把x在index分类下进行fun
    #例：把x在因子分类下，进行汇总操作
    fac <- factor(rep(1:3, length = 4), levels = 1:5)
    fac
    [1] 1 2 3 1
    Levels: 1 2 3 4 5
    tapply(1:4, fac, sum)
    1 2 3 4 5
    5 2 3   NA NA

#当index不是因子时，可以用as.factor()把参数强制转换成因子

额外案例，实现excel中数据透视表的功能
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    #利用tapply实现类似于excel里的数据透视表的功能：
    > da
       year province sale
    1 2007        A    1
    2 2007        B    2
    3 2007        C    3
    4 2007        D    4
    5 2008        A    5
    6 2008        C    6
    7 2008        D    7
    8 2009        B    8
    9 2009        C    9
    10 2009        D   10
    > attach(da)
    > tapply(sale,list(year,province))   #以sale为基，按照year,province的顺序，排列
     [1] 1 4 7 10 2 8 11 6 9 12
    > tapply(sale,list(year,province),mean)
          A B C D
    2007 1 2 3 4
    2008 5 NA 6 7
    2009 NA 8 9 10

3、函数table（求因子出现的频数）

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    使用格式为：
    table(..., exclude = if (useNA == "no") c(NA, NaN), useNA = c("no",
        "ifany", "always"), dnn = list.names(...), deparse.level = 1)
    其中参数exclude表示哪些因子不计算。
    示例代码：
    > d <- factor(rep(c("A","B","C"), 10), levels=c("A","B","C","D","E"))
    > d
     [1] A B C A B C A B C A B C A B C A B C A B C A B C A B C A B C
    Levels: A B C D E
    > table(d, exclude="B")
    d
     A C D E
    10 10 0 0

4、函数lapply与函数sapply

每一列数据采用同一种函数形式，比如求X变量得分位数，比如求X变量的循环函数。

lapply的使用格式为：

lapply(X, FUN, ...)

lapply的返回值是和一个和X有相同的长度的list对象，

这个list对象中的每个元素是将函数FUN应用到X的每一个元素。

其中X为List对象（该list的每个元素都是一个向量），

其他类型的对象会被R通过函数as.list()自动转换为list类型。

函数sapply是函数lapply的一个特殊情形，对一些参数的值进行了一些限定，其使用格式为：

sapply(X, FUN,..., simplify = TRUE, USE.NAMES = TRUE)

sapply(*, simplify = FALSE, USE.NAMES = FALSE) 和lapply(*)的返回值是相同的。

如果参数simplify=TRUE，则函数sapply的返回值不是一个list，而是一个矩阵；

若simplify=FALSE，则函数sapply的返回值仍然是一个list。
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

     x <- list(a = 1:10, beta = exp(-3:3), logic = c(TRUE,FALSE,FALSE,TRUE))
    > lapply(x, quantile)
    $a
       0%   25%   50%   75% 100%
     1.00 3.25 5.50 7.75 10.00

    $beta
             0%         25%         50%         75%        100%
     0.04978707 0.25160736 1.00000000 5.05366896 20.08553692

    $logic
      0% 25% 50% 75% 100%
     0.0 0.0 0.5 1.0 1.0

    > sapply(x, quantile,simplify=FALSE,use.names=FALSE)
    $a
       0%   25%   50%   75% 100%
     1.00 3.25 5.50 7.75 10.00

    $beta
             0%         25%         50%         75%        100%
     0.04978707 0.25160736 1.00000000 5.05366896 20.08553692

    $logic
      0% 25% 50% 75% 100%
     0.0 0.0 0.5 1.0 1.0

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    #参数simplify=TRUE的情况
    > sapply(x, quantile)
             a        beta logic
    0%    1.00 0.04978707   0.0
    25%   3.25 0.25160736   0.0
    50%   5.50 1.00000000   0.5
    75%   7.75 5.05366896   1.0
    100% 10.00 20.08553692   1.0

5、函数mapply
函数mapply是函数sapply的变形版，mapply 将函数 FUN 依次应用每一个参数的第一个元素、第二个元素、第三个元素上。函数mapply的使用格式如下：

mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)

其中参数MoreArgs表示函数FUN的参数列表。

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > mapply(rep, times=1:4, x=4:1)
    [[1]]
    [1] 4

    [[2]]
    [1] 3 3

    [[3]]
    [1] 2 2 2

    [[4]]
    [1] 1 1 1 1

    #直接使用函数rep的结果：
    > rep(1:4,1:4)
     [1] 1 2 2 3 3 3 4 4 4 4

6、vapply {base}——按变量进行函数操作

vapply类似于sapply函数，但是它的返回值有预定义类型，所以它使用起来会更加安全，有的时候会更快。

在vapply函数中总是会进行简化，vapply会检测FUN的所有值是否与FUN.VALUE兼容，

以使他们具有相同的长度和类型。类型顺序：逻辑、整型、实数、复数

vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)

X表示一个向量或者表达式对象，其余对象将被通过as.list强制转换为list

simplify 逻辑值或者字符串，如果可以，结果应该被简化为向量、矩阵或者高维数组。

必须是命名的，不能是简写。默认值是TRUE，若合适将会返回一个向量或者矩阵。如果simplify=”array”，结果将返回一个阵列。

USE.NAMES 逻辑值，如果为TRUE，且x没有被命名，则对x进行命名。

FUN.VALUE   一个通用型向量，FUN函数返回值得模板。

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > x<-data.frame(a=rnorm(4,4,4),b=rnorm(4,5,3),c=rnorm(4,5,3))
    > vapply(x,mean,c(c=0))
     a       b       c
     1.8329043 6.0442858 -0.1437202

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > k<-function(x)
    + {
    + list(mean(x),sd(x))
    + }
    > vapply(x,k,c(c=0))
    错误于vapply(x, k, c(c = 0)) : 值的长度必需为1，
     但FUN(X[[1]])结果的长度却是2

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > vapply(x,k,c(c=0,b=0))
    错误于vapply(x, k, c(c = 0, b = 0)) : 值的种类必需是'double'，
     但FUN(X[[1]])结果的种类却是'list'

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > vapply(x,k,c(list(c=0,b=0)))
     a     b     c
    c 1.832904 6.044286 -0.1437202
    b 1.257834 1.940433 3.649194

sapply与vapply函数之间的区别:

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > i39 <- sapply(3:9, seq)
    > i39
    [[1]]
    [1] 1 2 3

    [[2]]
    [1] 1 2 3 4

    [[3]]
    [1] 1 2 3 4 5

    [[4]]
    [1] 1 2 3 4 5 6

    [[5]]
    [1] 1 2 3 4 5 6 7

    [[6]]
    [1] 1 2 3 4 5 6 7 8

    [[7]]
    [1] 1 2 3 4 5 6 7 8 9

    > sapply(i39, fivenum)
         [,1] [,2] [,3] [,4] [,5] [,6] [,7]
    [1,] 1.0 1.0    1 1.0 1.0 1.0    1
    [2,] 1.5 1.5    2 2.0 2.5 2.5    3
    [3,] 2.0 2.5    3 3.5 4.0 4.5    5
    [4,] 2.5 3.5    4 5.0 5.5 6.5    7
    [5,] 3.0 4.0    5 6.0 7.0 8.0    9
    > vapply(i39, fivenum,
    +        c(Min. = 0, "1st Qu." = 0, Median = 0, "3rd Qu." = 0, Max. = 0))
            [,1] [,2] [,3] [,4] [,5] [,6] [,7]
    Min.     1.0 1.0    1 1.0 1.0 1.0    1
    1st Qu. 1.5 1.5    2 2.0 2.5 2.5    3
    Median   2.0 2.5    3 3.5 4.0 4.5    5
    3rd Qu. 2.5 3.5    4 5.0 5.5 6.5    7
    Max.     3.0 4.0    5 6.0 7.0 8.0    9

7、eapply {base}

eapply函数通过对environment中命名值进行FUN计算后返回一个列表值，用户可以请求所有使用过的命名对象。

eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)

env 将被使用的环境

all.names 逻辑值，指示是否对所有值使用该函数

USE.NAMES 逻辑值，指示返回的列表结果是否包含命名

[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片

    > require(stats)
    >
    > env <- new.env(hash = FALSE) # so the order is fixed
    > env$a <- 1:10
    > env$beta <- exp(-3:3)
    > env$logic <- c(TRUE, FALSE, FALSE, TRUE)
    > # what have we there?
    > utils::ls.str(env)
    a : int [1:10] 1 2 3 4 5 6 7 8 9 10
    beta : num [1:7] 0.0498 0.1353 0.3679 1 2.7183 ...
    logic : logi [1:4] TRUE FALSE FALSE TRUE
    >
    > # compute the mean for each list element
    >        eapply(env, mean)
    $logic
    [1] 0.5

    $beta
    [1] 4.535125

    $a
    [1] 5.5

    > unlist(eapply(env, mean, USE.NAMES = FALSE))
    [1] 0.500000 4.535125 5.500000
    >
    > # median and quartiles for each element (making use of "..." passing):
    > eapply(env, quantile, probs = 1:3/4)
    $logic
    25% 50% 75%
    0.0 0.5 1.0

    $beta
          25%       50%       75%
    0.2516074 1.0000000 5.0536690

    $a
     25% 50% 75%
    3.25 5.50 7.75

    > eapply(env, quantile)
    $logic 数据分析师培训
      0% 25% 50% 75% 100%
     0.0 0.0 0.5 1.0 1.0

    $beta
             0%         25%         50%         75%        100%
     0.04978707 0.25160736 1.00000000 5.05366896 20.08553692

    $a
       0%   25%   50%   75% 100%
     1.00 3.25 5.50 7.75 10.00
8、rapply {base}

rapply是lapply的递归版本

rapply(X, FUN, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)

X 一个列表

classes 关于类名的字符向量，或者为any时则匹配任何类

deflt 默认结果，如果使用了how=”replace”，则不能使用

how 字符串匹配三种可能结果

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据透视表透视表数据透视 R语言数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

R语言数据分组统计函数族—apply族用法与心得

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...