刚开始学习数据科学的人都会面对同一个问题:
我该选择先学习哪种编程语言。
不仅仅是编程语言,像SPSS、Modeler、WEKA等软件系统也是同样的情况。有越来越多的工具和编程语言,很难知道该选择哪一种。
事实是,你的时间有限。学习一门新的编程语言相当于一项巨大的投资,因此在选择语言时需要有战略性。
实际上这个问题没有标准答案,也没有万能的语言可以完成所有的工作,当你入门在入门选择语言时,你需要一种在这些领域都具有重要功能的语言。同时你需要执行这些任务的工具,以及在你所选语言中来学习这些技能的资源。
如上所述,你更多地需要关注流程和技术,而不是语法。
你需要学习如何解决问题。
你需要学习如何在数据中找到真知灼见。
为此,你需要掌握数据科学的3个核心技能领域:数据处理,数据可视化和机器学习。在R语言中掌握这些技能将比任何其他语言都容易。
一、数据处理
根据数据挖掘标准处理流程KDD,数据挖掘流程大致分为三个部分,即数据前处理、数据挖掘、报告展现。其中数据科学中80%的工作都是数据处理。俗话说“Garbage In,Garbage Out”。通常情况下,你需要花费大量时间来整理你的数据使。R语言中有一些很棒的数据管理工具。
R语言中的dplyr包使数据处理变得容易,这可以大大简化数据处理的工作流程。
二、数据可视化
ggplot2是最佳的数据可视化工具之一。ggplot2的好处是,在学习语法的同时,还学习如何思考数据可视化。所有的统计可视化都有很深层的结构。存在构建数据可视化的高度结构化框架,ggplot2基于该框架。
此外,当将ggplot2和dplyr组合在一起时,从数据中得出相关见解几乎毫不费力。
Echarts是有百度开发的一款免费、强大的图表生成和可视化库,其可以方便得对数据进行展示、交互、定制。使用echartR函数可以很方便的实现图形绘制
三、统计分析
这个就不用多说了,R语言是由新西兰奥克兰大学的Ross Ihaka 和 Robert Gentleman发明。这两位都是统计学出身,因此,R一开始就是为统计分析服务最合适的语言。
四、机器学习
最后,还有机器学习。虽然我认为大多数数据科学初学者不应该急于学习机器学习(首先掌握数据探索更为重要),机器学习是一项重要的技能。当数据探索不再带来洞察力时,你则需要更强大的工具。
R语言提供了目前几乎所有主流的机器学习算法包,如神经网络、决策树、支持向量机、KNN算法、贝叶斯分类、组合算法等等。
暂无数据