R语言和Python—一个错误的分裂-CDA数据分析师官网

R语言和Python—一个错误的分裂

2017-02-21

R语言和Python—一个错误的分裂

最近有一些文章提出与年龄相关的问题：“崭露头角的年轻数据科学家们是学习R语言还是Python更好?”

答案似乎都是“视情况而定”，在现实中没有必要在R和Python中做出选择，因为你两个都用得到。

什么是”数据科学”?

在谈论RPy2之前，先来说一下“数据科学”，我要说的是“数据科学”是一个奇怪的词。因为几乎所有的科学都是“数据科学”。“无数据科学”则是完全不同的领域：哲学。“数据科学”是一门通过系统观察，对照实验，贝叶斯推理的开放试验理念的科学学科。

“数据科学”的目标是从数据中得出有效的统计推论。标签“数据”是指数据用于做什么并不重要，但这是错误的：它是难以且不可能做到科学的在没有得到数据的详细信息，得去了解系统的弱点并生产出来，智能、灵敏的应对非理想好数据。

任何有趣的数据集至少有以下一些特性：缺失值，异常值和噪声。缺失值：顾名思义就是缺失的值。异常值：离群怪异的事件，由于某种原因或其他的事件其值远远的超出合理界限。噪声的是，从所测量的值的随机（或非随机的）影响的着结果的分布。一个良好的测量分布，异常值和噪声在噪声不同下一般有较容易理解的因素，而异常值通常是很少发生的，我们不能通过分布很好的理解。

对于处理这类事情R，Python和RPY的都是有用的工具。

为什么R非常适合数据科学

R语言对有经验的统计分析师来说是非常轻量级. 它由科学家创造，对绝大多数的数据管理任务来说都非常轻松。特别适合以下几种数据管理任务:

标记数据

填充遗漏值（译者注:比如10行数据每行固定9列，但是第三行却只有5列数据，可以通过R的函数自动补全另外的5列值）

过滤

R语言对标记数据的支持非常友好. R语言的“data frame”概念,使得通过对数据列和数据行头来分割组合数据、标记数据，然后以纯数值的矩阵数据交给算法处理. 而传统的数据科学开发语言，如Python对数据的处理都需要开发者自己完成,需要消耗开发者大量时间且容易出错.

处理或丢弃遗漏值、离群值(译者注：极值，如最大值、最小值)在数据中是非常基本但重要的任务. 某些情况下,本来是有利的数据，却因为测量误差等原因变成了不利、反对的数据。(译者注：比如越趋近于1才表示越可能是.）你如何处理这些事情可以对你的分析结果产生很大的影响。

R语言提供了丰富的算法来处理长期以来科学实践中出现的各种数据有关问题,虽然这些算法仍然需要自己去尝试和判断选择，以选择最恰当的数据处理算法.

RPy2: 架起R语言与Python之间的桥梁

Pandas，Python的数据分析库，目前它已经有很多相同功能，但是RPy2创造了一条很好的从R语言到Python的迁移路线，它让你在学习Python的时候，把R语言作为一个附属部分来学习，对于很多有丰富实验开发经验的分析师会使用R语言，当他们想把算法融入一个Python应用程序，并分发给用户时，他们也可以使用RPy2。

执行这种迁移的能力，而不离开R语言的概念模型是很有价值的，但从另一个角度来说，这也是一个限制，能够使用一个真正的通用编程语言，如：Python，来包装概念模型，并使得这个用户友好的应用程序有多种复杂的附加功能（打印，网络，USB支持，等等）是至关重要的。

举例来说，我已经使用了这种方法来创建读取传感器数据的Python应用，通过RPy2处理，以各种方式显示给客户，我不知道怎么用R语言读取传感器数据，应该是有某种方法的。而Python已经做好了我需要的模块，即使没有也非常容易扩展。

如果你还不知道R语言，我推荐你学习Python并且使用RPy2来访问R语言的函数。你学习一种语言获得了两种能力。一旦你学习过RPy，再转到纯R语言也不是什么大问题，但是，你想要反过来就没那么容易了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言统计分析数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

R语言和Python—一个错误的分裂

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...