R语言vs Python：硬碰硬的数据分析-CDA数据分析师官网

R语言vs Python：硬碰硬的数据分析

2018-07-31

R语言vs Python：硬碰硬的数据分析

我们将在已有的数十篇从主观角度对比Python和R的文章中加入自己的观点，但是这篇文章旨在更客观地看待这两门语言。我们会平行使用Python和R分析一个数据集，展示两种语言在实现相同结果时需要使用什么样的代码。这让我们了解每种语言的优缺点，而不是猜想。
     我们将会分析一个NBA数据集，包含运动员和他们在2013-2014赛季的表现，可以在这里下载这个数据集。我们展示Python和R的代码，同时做出一些解释和讨论。事不宜迟，现在就开始这场硬碰硬的对决吧！

读取CSV文件

R

nba <- read.csv("nba_2013.csv")

Python

import pandas
nba = pandas.read_csv("nba_2013.csv")

上面的代码分别在两种语言中将包含2013-2014赛季NBA球员的数据的 nba_2013.csv 文件加载为变量nba。Python中实际的唯一不同是需要加载pandas库以使用Dataframe。Dataframe在R和Python中都可用，它是一个二维数组（矩阵），其中每列都可以是不同的数据类型。在完成这一步后，csv文件在两种语言中都加载为dataframe。
统计球员数量

R

print(dim(nba))

[1] 481 31

Python

print(nba.shape)

(481, 31)

两者分别输出球员数量和数据列数量。我们有481行，或者说球员，和31列关于球员的数据。
查看数据的第一行

R

print(head(nba, 1))

      player pos age bref_team_id
1 Quincy Acy SF 23          TOT
[output truncated]

Python

print(nba.head(1))

       player pos age bref_team_id
0 Quincy Acy SF   23          TOT
[output truncated]

它们几乎完全相同。两种语言都打印出数据的第一行，语法也非常类似。Python在这里更面向对象一些，head是dataframe对象的一个方法，而R具有一个单独的head函数。当开始使用这些语言做分析时，这是一个共同的主题，可以看到Python更加面向对象而R更函数化。
计算每个指标的均值
让我们为每个指标计算均值。如你所见，数据列以类似fg（field goals made）和ast（assists）的名称命名。它们都是球员的赛季统计指标。如果想得到指标的完整说明，参阅这里。

R

meanNoNA <- function(values){
    mean(values, na.rm=TRUE)
}
sapply(nba, meanNoNA)

player NA
pos NAage 26.5093555093555
bref_team_id NA
[output truncated]

Python

import numpy
nba_numeric = nba._get_numeric_data()
nba_numeric.apply(numpy,.mean, axis=0)

age             26.509356
g               53.253638
gs              25.571726
[output truncated]

这里有一些明显的分歧。在两种方法中，我们均在dataframe的列上应用了一个函数。在python中，如果我们在非数值列（例如球员姓名）上应用函数，会返回一个错误。要避免这种情况，我们只有在取平均值之前选择数值列。
在R中，对字符串列求均值会得到NA——not available（不可用）。然而，我们在取均值时需要确实忽略NA（因此需要构建我们自己的函数）。否则类似x3p.这样的一些列的均值将会为NA，这一列代表三分球的比例。有些球员没有投出三分球，他们的百分比就是缺失的。如果我们直接使用R中的mean函数，就会得到NA，除非我们指定na.rm=TRUE，在计算均值时忽略缺失值。
绘制成对散点图
一个探索数据的常用方法是查看列与列之间有多相关。我们将会比较ast,fg和trb。
R
library(GGally)
ggpairs(nba[, c("ast", "fg", "trb")])

import seaborn as snsimport matplotlib.pyplot as plt
sns.pairplot(nba[["ast", "fg", "trb"]])

plt.show()

我们会得到非常相似的两张图，但是可以看到R的数据科学生态中有许多较小的软件包（GGally是最常用的R绘图包ggplot2的辅助包）和更多的通用可视化软件包。在Python中，matplotlib是主要的绘图包，seaborn是一个广泛用于matplotlib上的图层。Python中的可视化通常只有一种蛀牙哦的方法完成某件事，而R中可能有许多包支持不同的方法（例如，至少有半打绘制成对散点图的包）。

对球员聚类

另一个很好探索数据的方式是生成类别图。这将会显示哪些球员更相似。

library(cluster) set.seed(1) isGoodCol <- function(col){ sum(is.na(col)) ==0&& is.numeric(col) } goodCols <- sapply(nba, isGoodCol) clusters <- kmeans(nba[,goodCols], centers=5) labels <- clusters$cluster

Python

from sklearn.cluster import KMeans kmeans_model = KMeans(n_clusters=5, random_state=1) good_columns = nba._get_numeric_data().dropna(axis=1) kmeans_model.fit(good_columns) labels = kmeans_model.labels_

为了正确的聚类，我们移除了所有非数值列，以及包含缺失值的列。在R中，我们在每一列上应用一个函数，如果该列包含任何缺失值或不是数值，则删除它。接下来我们使用cluster包实施k-means聚类，在数据中发现5个簇。通过set.seed设置随机种子以使结果可复现。

在Python中，我们使用了主要的Python机器学习包scikit-learn拟合k-means模型并得到类别标签。数据准备的过程和R非常类似，但是用到了get_numeric_data和dropna方法。

绘制类别图

我们现在可以按类别绘制球员分布图以发现模式。首先使用PCA将数据降至2维，然后画图，用不同标记或深浅的点标志类别。

nba2d <- prcomp(nba[,goodCols], center=TRUE) twoColumns <- nba2d$x[,1:2] clusplot(twoColumns, labels)

Python

from sklearn.decomposition import PCA pca_2 = PCA(2) plot_columns = pca_2.fit_transform(good_columns) plt.scatter(x=plot_columns[:,0], y=plot_columns[:,1], c=labels) plt.show()

在R中，我们通过聚类库中的函数clusplot函数绘图，使用内建函数pccomp实行PCA。

在Python中，我们使用scikit-learn库中的PCA类，使用matplotlib创建图形。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

PCA matplotlib pandas seaborn numpy 散点图 python R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇零售银行丨互联网时代的客户数据分析与精准营销

下一篇大数据时代寻找数据科学家

R语言vs Python：硬碰硬的数据分析

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...