R中的apply族函数-CDA数据分析师官网

热线电话：13121318867

R中的apply族函数

2017-02-19

R中的apply族函数

如果计算涉及到一个单一的向量，而结果也是一个向量， tapply函数是一个可选项，不同于aggregate函数，它返回一个向量或数组，这使得其单个元素很容易被访问。

将组定义为矩阵的行或列，即操作目标为矩阵的每一列或行时， apply函数时最佳选择。该函数通常会返回一个向量或数组，但根据行或列操作的结果维度不同，将返回一个列表。

将组定义为列表中的元素。如果组已经形成列表元素，那么 sapply或lapply函数比较适合，它们的区别是lapply返回一个列表，而sapply可将输出简化为向量或数组。有时可以结合使用split函数，将需要处理的数据创建为一个列表，然后再使用这两个函数。

如果所要计算函数的参数为一个矩阵或数组，可以考虑使用 mapply函数，该函数非常的灵活和简单，其返回的结果一般是列表形式。

先来看一下tapply()、apply()、lapply()、sapply()和mapply()函数的语法规则:

tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

apply(X, MARGIN, FUN, ...)

lapply(X, FUN, ...)

sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)

mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,

USE.NAMES = TRUE)

根据不同的函数，输入数据X可能是向量、数组、矩阵或数据框；INDEX一般为类别变量；MARGIN指定矩阵的维度，1表示矩阵的行，2表示矩阵的列；FUN为参与运算的函数，可以是R自带的函数也可以是自己编写的函数；...为函数FUN指定的参数，紧跟在函数的后面。

接下来看一下各个函数的应用情况

为了处理基于一个或多个分组变量的单个向量，可以使用tapply函数，该函数返回一个数组，其维数与分组向量的维数相同。

注意，该函数的输入数据必须是向量，且分析向量与分组向量的长度必须一致

如果想分析iris数据集中Sepal.Length在各个花种中的最大值，可以通过tapply函数实现，这里的Sepal.Length和Species为两个向量，且各自的长度均相等。

如果想对某个变量(向量)进行多变量的分组分析时，也可以采用tapply函数。

首先构造一个数据框：

接下来想对z变量做分组统计，分组变量为x和y

这里的NA表示x和y的分组中没有对应的z值。

当数据具备数组的特性，可通过 apply函数对数据的每个维度进行运算，该函数需要三个参数：需要计算的数组、运算维度的索引号和使用的函数。

标准化一个矩阵：这里可以直接给参数FUN为scale

当然，如果想统计各个列的均值，为比较显式循环和apply的隐式循环，程序如下，就可以比较出两种方式的效率：

结果显式，通过apply计算矩阵列的均值速度是显式循环的50倍。这说明在R中使用循环的话尽量使用到隐式的向量化计算，否则计算效率非常差。

再来看一个如何使用自编函数应用到apply中：这里显式了前7列的统计量值。

lapply()函数和sapply()函数把一个列表或向量作为其第一个参数，再把需要应用到每个列表元素的函数作为它的第二个参数。其实它也应用到了循环，是一种隐式的循环，对列表的每一个元素做同样的函数计算。

应用：查看字符向量中每一个元素所包含的单词个数

使用sapply函数的另一个重要问题涉及到数据框。当数据框被视为列表时，数据框的每一列看着独立的列表元素。

查看数据集iris和ChickWeight各个字段的模式和类

通过以上的应用，可以提取满足特定条件的数据框的列

接下来使用自编函数加入到sapply函数中，实现循环。该自编函数的目的是计算出1000个100*5的矩阵中最大相关系数的均值。这里很关键的一点是给自编函数传一个虚拟参数i用来循环。

最后再来看一下mapply函数的应用：该函数的第一个参数为指定的函数，第二个参数为指定函数的参数。如果根据某种正则表达式将一个字符向量的对应特征取出来，例如取出'qaws1few4g'中的'1f'和'4g'

最后总结一下：

tapply()的被分析对象必须且只能是向量

apply()的被分析对象必须且只能是矩阵或数组

sapply()的被分析对象必须且只能是向量或列表

lapply()的被分析对象必须且只能是向量或列表

mapply()的被分析对象必须是函数

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征正则表达式字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R中的apply族函数

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 备考干货：Python 在数据分析中的核心应用与实 ...

【CDA干货】SPSS 中的 Mann-Kendall 检验：数据趋势 ...

备战 CDA 数据分析师考试：需要多久？如何规划？ ...

【CDA干货】LSTM 输出不确定的成因、影响与应对策略 ...

统计学方法在市场调研数据中的深度应用 ...

CDA数据分析师证书考试全攻略

剖析 CDA 数据分析师考试题型：解锁高效备考与答题 ...

【CDA干货】SQL Server 字符串截取转日期：解锁数据 ...

CDA 数据分析师视角：从数据迷雾中探寻商业真相 ...

CDA 数据分析师：开启数据职业发展新征程 ...

从招聘要求看数据分析师的能力素养与职业发展 ...

【CDA干货】Power BI 中如何控制过滤器选择项目数并 ...

把握 CDA 考试时间，开启数据分析职业之路 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载