热线电话:13121318867

登录
2018-10-30 阅读量: 810
选择R做数据分析的几点理由

刚开始学习数据科学的人都会面对同一个问题:

我该选择先学习哪种编程语言。

不仅仅是编程语言,像SPSS、Modeler、WEKA等软件系统也是同样的情况。有越来越多的工具和编程语言,很难知道该选择哪一种。

事实是,你的时间有限。学习一门新的编程语言相当于一项巨大的投资,因此在选择语言时需要有战略性。

实际上这个问题没有标准答案,也没有万能的语言可以完成所有的工作,当你入门在入门选择语言时,你需要一种在这些领域都具有重要功能的语言。同时你需要执行这些任务的工具,以及在你所选语言中来学习这些技能的资源。

如上所述,你更多地需要关注流程和技术,而不是语法。

你需要学习如何解决问题。

你需要学习如何在数据中找到真知灼见。

为此,你需要掌握数据科学的3个核心技能领域:数据处理,数据可视化和机器学习。在R语言中掌握这些技能将比任何其他语言都容易。

一、数据处理

根据数据挖掘标准处理流程KDD,数据挖掘流程大致分为三个部分,即数据前处理、数据挖掘、报告展现。其中数据科学中80%的工作都是数据处理。俗话说“Garbage In,Garbage Out”。通常情况下,你需要花费大量时间来整理你的数据使。R语言中有一些很棒的数据管理工具。

R语言中的dplyr包使数据处理变得容易,这可以大大简化数据处理的工作流程。

二、数据可视化

ggplot2是最佳的数据可视化工具之一。ggplot2的好处是,在学习语法的同时,还学习如何思考数据可视化。所有的统计可视化都有很深层的结构。存在构建数据可视化的高度结构化框架,ggplot2基于该框架。

此外,当将ggplot2和dplyr组合在一起时,从数据中得出相关见解几乎毫不费力。

Echarts是有百度开发的一款免费、强大的图表生成和可视化库,其可以方便得对数据进行展示、交互、定制。使用echartR函数可以很方便的实现图形绘制

三、统计分析

这个就不用多说了,R语言是由新西兰奥克兰大学的Ross Ihaka 和 Robert Gentleman发明。这两位都是统计学出身,因此,R一开始就是为统计分析服务最合适的语言。

四、机器学习

最后,还有机器学习。虽然我认为大多数数据科学初学者不应该急于学习机器学习(首先掌握数据探索更为重要),机器学习是一项重要的技能。当数据探索不再带来洞察力时,你则需要更强大的工具。

R语言提供了目前几乎所有主流的机器学习算法包,如神经网络、决策树、支持向量机、KNN算法、贝叶斯分类、组合算法等等。

0.0000
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子