热线电话:13121318867

登录
首页精彩阅读好课推荐丨CDA建模分析师-R语言
好课推荐丨CDA建模分析师-R语言
2017-05-05
收藏


数据科学家被认为是21世纪最性感也是最具发展前景的职业,目前有75%左右的数据科学家使用R语言,有35%左右的数据科学家将R语言作为首选统计分析工具。今天,我们来了解一下R语言的前世今生。

一、R的诞生

1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语言)的基础上开始构思一种新的用于统计学分析的开源语言,直到1995年第一个版本正式发布。因为他们名字的第一个字母都是R,所以这门语言就被叫做R。这两个人都是统计学教授出身,再加上R语言的生父S语言,所以R语言在统计学方面有着纯正的血统!

如果你平时的工作会涉及到统计学,那么接触R语言实在是太正常不过了。

二、R的发展

作为开源软件的R能够迅速发展,很大程度上取决于其活跃的社区。学习R,很大程度上也是学习各种R包的使用。截止目前(2017年3月,CRAN(Comprehensive R Archive Network)上已经有10762个可以获取的R扩展包,内容涉及各行各业,可以适用于各种复杂的统计。各地的CRAN镜像都是R网站的备份文件,内容完全一样,你可以选择离自己最近的去访问。


三、R的特长

在R官网有这样几句介绍


丨R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, …) and graphical techniques, and is highly extensible.

丨One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed.


1.因为R语言本身为统计而生,所以你能想到的所有统计相关的工作,R都可以非常简洁的用几行命令(甚至1行命令)帮你完成。

2.R高度的可扩展性正是体现在它那1万多个包上,你想做的几乎所有事情都可以用现有的R包来辅助完成。

3.R另一个杀手锏就是其强大的绘图功能,正如上面的英文介绍所言,R可以画图,画各种各样的图,画各种各样高逼格的图,画各种各样高逼格可以直接出版的图。

4.完善的统计学功能再加上强大的绘图功能,就是你学习的最大理由。

四、R应用示例


在这一部分,仅仅是给展示几个用R可以轻松完成的相对有趣的工作。 安装对应包后应该可以直接运行


示例1 ggplot2画图
效果展示:


 


示例2 词频分析及词云
效果展示:

示例3 E-chart世界航空线路图部分代码(完整版在Echart官网)


效果展示:

五、如何尝试入门R语言

① 大致了解一下R语言是什么,能干什么用

1.学习如何在R的官网下载R,如何在自己的电脑安装R并成功运行。

2.学习如何安装Rstudio,并且了解其基本的用法(这步可省略)。

3.学习如何查看R帮助文档(这步很重要)。

4.学习如何将外部的数据(作业中通常是txt或者csv格式)正确地导入R。

5.学习R语言一些最基本的命令,如安装包、调用包、读入写入文件、构造矩阵和基础绘图等。

6.了解R语言语法入门知识(数据类型数据结构、函数与包)


② 了解R语言在商业数据分析领域的应用。
1.线性回归分析方法;
2.使用决策树进行流失预警模型;
3.使用神经网络进行营销响应预测;
4.分类器与组合模型;
5.理解客户画像和客户分群;
6.推荐算法提升客户价值
7.客户生命周期管理方法。

个人感觉,如果能完成上述几条学习路线,那么R语言就算入门了。入门的标准是什么呢?我想是给你一份数据让你处理,你脑子里的第一反应是可不可用R做;如果给你一个任务,你能上手尝试用R去解决。

参考书籍


R语言编程艺术》

R语言实战》

统计建模与R软件》

《ggplot2:数据分析与图形艺术》

CDA数据分析研究院结合市场需求开设R语言数据分析和数据挖掘两个专题课程,从零开始,由浅入深,包括初级语法及统计入门、中级建模方法进阶、高级案例应用三个阶段。如果你对R语言有兴趣,欢迎过来学习。

R语言最近开课: (CDA LEVEL II -R 建模分析)


一、课程信息

北京&远程:2017年6月17日~7月02日(周末6天)

广州:2017年7月08日~7月23日(周末6天)

授课安排:现场班6900元,远程班4900元

(1) 授课方式:面授直播两种形式,中文多媒体互动式授课方式

(2) 授课时间:上午9:00-12:00,下午13:30-16:30,16:30-17:00(答疑)

(3) 学习期限:现场与视频结合,长期学习加练习答疑。

二、报名流程

1. 在线填写报名信息

官网端:
微信端:

2. 给予反馈,确认报名信息

3. 网上缴费

4. 开课前一周发送电子版课件和教室路线图

三、课程大纲
第一阶段:[6.17]数据挖掘前沿与R语言
1.商业数据分析的本质
2.商业数据分析的阶段与行业运用
3.商业数据挖掘通用方法论
4.R语言基础
5.数据清洗方法
6.错误值、缺失值及噪声值处理
7.变量压缩
a.案例:贷款数据的数据清洗

第二阶段:[6.18]回归建模分析方法
1.线性回归建模与检验
2.回归模型的模型评估
3.正则化方法
4.逻辑回归介绍
5.分类模型的模型评估
6.极大似然法估计
7.模型评估方法
a.案例:信用卡客户价值预测模型b.案例:汽车贷款初始评分模型

第三阶段:[6.24]决策树神经网络建模
1.使用决策树进行流失预警模型
2.决策树建模方法
3.决策树模型修剪
4.使用神经网络进行营销响应预测
5.感知器与BP神经网络
6.径向基神经网络
7.深度学习及常用框架(Caffe、Tensorflow)
a.案例:电子产品客户购买决策模型b.案例:信贷产品行为评分模型

第四阶段:[6.25]分类器与组合模型
1.KNN最近领域建模
2.贝叶斯网络
3.高级分类器:支持向量机( SVM)
4.封装与提升
5.随机森林与梯度树
a.案例:婚恋网站客户成功约会预测b.案例:网站虚假注册客户识别c.案例:客户精准营销案例

第五阶段:[7.01]客户与市场分析方法
1.理解客户画像和客户分群
2.客户特征提取与FRM方法
3.层次聚类(Ward、Birch)
4.基于划分的聚类(K-means)
5.谱聚类
6.基于密度的聚类(DBSCAN)
a.案例:某人寿保险公司客户分群b.案例:邮轮公司客户分群

第六阶段:[7.02]推荐算法提升客户价值
1.Apriori算法、FP-growth算法
2.顺贯模型
3.推荐系统设计
4.模型生命周期
5.数据挖掘体系建设
a.案例:电商交叉销售案例b.案例:金融机构交叉销售案例

四、课程讲师


 

常国珍

CDA数据分析师讲师/北京大学商学博士

曾就职于亚信科技商业运营咨询部(BOC)、方正国际金融事业部、德勤管理咨询信息技术系统咨询部,多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集市与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。
曾珂


CDA数据分析研究院讲师/管理科学工程硕士

从事数据分析与数据挖掘的研究与教学,研究方向为互联网、电子商务数据分析与挖掘,擅长基于客户关系管理数据挖掘数据可视化文本挖掘

联系我们

电话:010-68411404

手机: 18511302788(王老师)QQ:28819897102881989710  

         18811331062(田老师)QQ:28819897092881989709  

邮箱:  wzd@cda.cn

          tyx@cda.cn

—— Join Learn!






数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询