如何高效地学好 R？-CDA数据分析师官网

如何高效地学好 R？

2016-07-18

R在统计和数据分析领域占据着越来越重要的作用，那么如何着手学习R呢?

学R主要在于5点三阶段：

第一阶段有一点：基础的文件操作(read.*,write.*)、数据结构知识，认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector)，如何提取(包括which, []等)、置换(t, matrix等)、删除(-, which等)、运算(+, -, *, / , %%, %/%等)、转换(as.*)、修改(edit, fix等)数据（包括单个数、行、列、表、变量），安装包、调用包以及session的保存。完成这一阶段，你就大致能像excel里处理数据一样了。

第二阶段有三点：

1、学习统计。这是贯穿整个R学习的最重要的一部，很多时候你并不是不知道在哪里找，怎么使用某个函数的参数，更多的时候你是不知道某个统计方法的原理，所代表的意义甚至不知道该用什么方法。所以学习统计学知识往往才是学习R的关键，之后找函数、怎么用其实都是傻瓜式的，并不需要你从头编写算法。这部分内容页要结合每个人要做的事做

2、批量处理。由于R和matlab一样，注重的是批量处理，而且R之中的循环往往效率极低，所以在R之中如果你发现你要使用双层循环的时候，就要想想了，有没有批量处理的方法。

a、首先，几乎所有的R里的运算符和自带的函数都是可以批量处理的。比如向量a+向量b是指每个元素按照index相加，所以就没必要for一下了；

b、其次，R自带有的apply族函数(因为是一系列以apply结尾的函数，所以称为apply族)，split，以及aggregate函数。这三类就是R自带的批量处理的利器，学好这三类函数，基本就可以完成绝大部分的数据批量处理了。

c、然后就是reshape2包以及plyr包了，这是批量处理的两个利器，reshape主要是整形，plyr包基本提供了一套整理数据的理念，学好这两个包，批量处理将事半功倍。

d、在实际过程中，一些for还是无法避免的。这时候就要考虑用别的语言来处理这部分事情了。比较常用的方法就是用别的语言批量生成R的代码，还有就是直接用R调用别的语言处理的结果或者用别的语言调用R的处理结果。

3、绘图系统。总结而言，我们可以把R的绘图系统分成四个：Graphics， lattice，ggplot2以及grid。最好学习顺序也是按照这个来。

a、自带的绘图系统。这套系统可以完成最基本的事情，其操作也类似于matlab，可以看做是分步骤命令参数式绘图，基本就是将一系列作图看做一步步的命令，每一句都干一件事，然后通过参数调整其中的某个元素的大小、位置、颜色。

b、lattice。绘图逻辑也同上。只是加了分组绘图、facet的功能，这些都很实用，其目的就是讲自带函数中需要大量预处理以及多步绘图的命令用一行命令代替。上手也非常简单。

c、ggplot2.这是经典的R绘图包，绘图哲学是图层式的，理解成一个一个图层的覆盖。这个绘图系统能做很多事，而且其自带主题也相当漂亮。有一定的学习难度。以下就是我用ggplot画的图

d、grid。grid绘图系统算是最基元的绘图命令，很多指令都是从画圆、直线、矩形开始的，这算是R里最好理解但也是最复杂的绘图系统。适合想入深坑的人士学习，如果要自由创造一些新的图形，或者编写绘图包，这是必学的绘图系统。另一个值得说的就是grid中也有专门用来整理拼图的指令，这个对于有一些论文拼图需求的人来说还是学学比较好。

如果你完成了以上两个阶段，你已经可以在工作学习中完成绝大部分的工作。但如果你是知识的创造者，或者是个程序员，或者是要实践自己的算法、理论、统计方法、绘图方法，或者亦或是你只是脑抽了，那就要进入第三阶段的学习。这部分包括，C语言掌握与精通、R语言调试、改进、编写包、写一个地道的帮助文档、推销自己的想法。这一阶段完成了，你也就是一个R语言的大牛了。少年到处是你可以施展拳脚的地方。

由以上内容，可以基本上把学习路径总结为下图：

最后是学习资源的问题，总结如下：

1、课程类。 @uhuruqingcheng已经介绍的coursera上的课程的确很适合入门。

2、书籍类。建议入门用R语言实战 (豆瓣)，然后想要快速指南式的了解R语言的统计应用也可以看复杂数据统计方法 (豆瓣) 。统计学的内容按照自己的需要自行补充，在这里就补推荐了，推荐了也是和R没啥关系的。绘图系统推荐两本书就够用了：ggplot2 (豆瓣) 和 R Graphics Cookbook (豆瓣)这两本也都有中文版可以买到。如果这部分都已经学得不错了，其实你就不需要书了，直接看R的帮助文档吧，help()或者? XXX 都可以。在此建议用RStudio，可以帮助你很快的查看帮助，编写script、断点调试等等。

需要补充的是springer出了一系列叫Use R! - Springer 的书，一直有更新，也是免费获取的，大家可以自己下载。

3、网站类。

一个是博客，以上已有推荐。

二是问答类的网站。Stack Overflow 和 SegmentFault 都可以尝试一下。

三是R的journal。题主可以自行在google里搜索 R journal 第一个就是。

四是包和函数的搜索网站Search all R packages and function manuals 。这个网站提供R里所有包和函数的搜索系统。其贴心之处还有(1)提供分类功能;(2)提供下载的排名，每个包的下载时间线。

此外，其实R语言是一门轻编程重统计的语言，所以题主完全不需要担心自己的编程基础。直接做几个小项目，你会很快上手，千万不要从教材第一页读到最后一页，那种效率极低，且容易半途而废。

=======================

2015.2.1更新：关于批处理的解答

有几位同僚在回复里面询问批处理的问题，这里做个简单的解释。

批处理类似于向量运算，但也有很大差距，简单的说，是一个函数可以快速的套用到多维变量的每一维值中。

1. 自带函数的批处理

譬如：

这就是一个最简单的批处理的例子，结果是

这是一个简单的向量标量积结果，而所谓的批处理也就是类似于这种处理方式。而在R之中，数据的最小单元其实就是向量，因此，几乎所有R的函数，都是批处理的。（注意，与matlab不同，matlab最小单元是矩阵，因此，其基本的运算都是基于举证运算的）。我们可以用以下方式定义批处理函数：如果一个函数F，满足，

且函数F的实现不基于任何显式循环（诸如for，while， until），则函数F可以称之为批处理函数。

譬如：plot（将两个向量的对应的数逐个地画到图中），paste（将字符串向量的每个字符串都做连接）等等。。。

这里比较一下会更加清楚，譬如如果在python里实现以上功能（不实用pandas和numpy包），就得采用显式的循环（for，while等）：

因此，我们可以看出采用批处理最大的优点在于减少的代码量，并且更加简洁明了，易于维护。

2. 批处理是否更加高效

其实批处理的另一个好处就是使得运行更加高效，因为批处理函数往往经过处理（使用更好的算法或者更底层的实现方式）得到某种程度的提速。我们在这里测试实现将向量每个元素都自乘2这一功能，分别采用按键替换，按数字索引替换以及直接批量处理的方式，来测试不同方式速度是如何的。

结果如下：

明显看出，批处理并且避免显式循环的方式的确有助于提高速度，代码量也少的多。因此，何乐而不为呢？

但是经过测试，并不是每个批处理函数的效果并不是都是那么明显，譬如：strsplit。甚至研究码源之后，你也会发现，很多批处理常用的函数的实现其实都是for，因此，有一派观点认为避免显式循环（特别是指采用apply函数、plyr包的方法避免显式循环），其实具有一定的误导性，其是否能提高效率也是要视情况而定。

3. apply族函数和aggregate函数

这是R基础包自带的两类用于批量处理的函数包，在此，只做简单地介绍：

apply函数族共有五个，分别是：apply，lapply，sapply，tapply，vapply。其总用其实就是将某个函数逐个套用到向量（矩阵）中每个元素之中，其实具体的作用，读帮助文档就可以了。

aggregate这个函数比较有意思，常用的带入方式是：

作用就是基于by指定的变量做分组，计算FUN分别统计每个组的结果。

4. 几个常用的批处理用的包

主要有：

●reshape（最好用的是melt）
●plyr（__ply族函数是最好用的，有一个很巧妙地逻辑，对于开发软件包的人来说学习这个包很有启发性；其次用ts比较多的人最好学一下round_any函数）：此包入门有点难，有些人也吐槽效率；round_any+gglot2画时间序列实在是太佳了。
●data.table：这是一个网友的推荐，听说很好用，效率也提高不少。

5. 关于如何用别的语言混编和apply族函数的效率还可以看这个博文，写得不错：

谢益辉: 也谈提高R语言的运算效率（http://cos.name/2009/12/improve-r-computation-efficiency/）

本文由知乎著名答主黄宝臣原创，CDA数据分析师已获得授权

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言数据分析 python numpy pandas

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

如何高效地学好 R？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...