R语言描述统计第一弹 | 计算泰坦尼克号不同舱位的存活率-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言描述统计第一弹 | 计算泰坦尼克号不同舱位的存活率

R语言描述统计第一弹 | 计算泰坦尼克号不同舱位的存活率

2020-09-28

作者：丁点helper

来源：丁点帮你

今天开始学习在R语言中做描述性统计。为了便于大家边学边练，可以下载这个数据：

文件名：titanic.csv

链接：https://pan.baidu.com/s/1Pj0EsaBZdnw6mHPpeVd9Aw

密码: yuym

将本地文件导入到R中

为了便于数据管理和操作，我们通常会把数据保存为.csv格式，这是excel中的一种较为简单的数据格式。想要把一个.csv格式的数据导入R，可以用read.csv()这个函数：

# 将本地文件titanic.csv导入到R中，
# 并存储到titanic这个对象中titanic 
  <- read.csv("//Users//Desktop//titanic.csv"，header = TRUE)

假设该本地文件存储的是1912年沉没于大西洋的巨型邮轮泰坦尼克号中乘客的基本信息。

上面第一个命令"//Users//Desktop//titanic.csv"是文件titanic.csv的本地存储地址，大家要根据自己电脑的存储位置自行调整；

第二个命令header = TRUE 是指将原文件中的第一行自动设置为文件的列名。

如果你的.csv文件中并无列名，而是希望在导入R之后再设置，则应将第二个命令设置为header = FALSE。

了解数据

上篇文章讲过，拿到一个数据库，首先要了解它的基本信息。之前已经讲过，我们简单复习一下。

class(titanic)  
#对象是什么数据结构[1] "data.frame"dim(titanic)    
#查看数据有几行几列[1] 1309    6names(titanic)  
#查看数据的列名[1] "pclass"  "survived"  "sex"   "age"  "sibsp"  "parch" head(titanic)   
#查看前6行tail(titanic)   
#查看后6行

可以知道，titanic这个数据框中有1309条记录，6个变量。

这6个变量依次为舱位等级、是否幸存、性别、年龄、同行的兄弟姐妹或配偶数量、同行的父母或子女数量。

描述性统计

接下来我们来对titanic这个数据做描述性统计。

1. 每个等级的船舱中分别有多少人？

有两种方法，一是table()函数，用于统计分类变量pclass中各类别的频数；二是summary()函数，功能是做描述性统计，既适用于分类也适用于计数变量，可以用来统计分类变量的频数、计算计数变量的均数、百分位数等。

# 方法一table(titanic$pclass) 1st 2nd 3rd  323 277 709# 方法二summary(titanic$pclass) 1st 2nd 3rd  323 277 709

2. 遇难者与幸存者分别有多少人？

table(titanic$survived)   
died  survived       
809      500

3. 每个等级的舱位中分别有多少人遇难、多少人幸存？

本例中，按照『舱位等级』和『是否幸存』两个条件统计乘客状况，共6种可能。仍使用table()函数，统计每种可能的状况分别有多少人，生成交叉列联表。

# 将列联表存储在tab1中tab1 
  <- table(titanic$survived,titanic$pclass)
# 查看tab1的内容tab1           
1st 2nd 3rd   died      
123 158 528   
survived  
200 119 181

4. 每个等级的舱位中幸存者的比例是多少呢？

思路很简单，就是每等级舱位中幸存者的人数占该舱位总人数的比例。

1）那我们先看看每等级舱位中幸存者的人数怎么算，上面的tab1第二行就是，只需要将其提取出来，方法和前面讲过的如何提取数据框中的行和列相同：

#提取tab1的第二行tab1[2, ] 
1st 2nd 3rd  
200 119 181

2）每种舱位总人数？上面也已经计算过：

table(titanic$pclass) 
1st 2nd 3rd  
323 277 709

还有一种方法，使用apply()函数，功能是对矩阵类数据的行或列进行批量处理：

apply(tab1,2,sum) 
1st 2nd 3rd 
323 277 709

函数中有三个命令。第一个命令tab1表示待处理的数据；第二个命令2表示对tab1的每一列进行处理，若需处理每一行，则第二个命令应输入数字1；第三个命令sum表示求和。

因此，上述语句的意义为：对tab1中的每一列求和，即计算每个等级舱位中的总人数。

3）求每等级舱位中幸存者的人数占该舱位总人数的比例：

# 方法一
tab1[2, ]/table(titanic$pclass)      
1st       2nd       3rd    
0.6191950 0.4296029 0.2552891 
# 方法二
tab1[2, ]/apply(tab1,2,sum)      
1st       2nd       3rd    
0.6191950 0.4296029 0.2552891

4）你一定也发现了，这个结果非常不美观，也不适合在科研工作中报告。我们做以下变化：

# 先乘以100
tab1[2, ]/apply(tab1,2,sum)*100 
1st      2nd      3rd 
61.91950 42.96029 25.52891
# 保留2位小数 
round(tab1[2, ]/apply(tab1,2,sum)*100,2)   
1st   2nd   3rd  
61.92 42.96 25.53

round()函数的功能是保留小数位数。

上面的代码中，第一个命令tab1[2, ]/apply(tab1,2,sum)*100 是需要保留小数的对象；

第二个命令2是指保留2位小数。

5）可是这个结果显然不对，加上百分号%才是准确的。需要用到paste()函数，该函数的功能是把各种元素连接起来，本例中，我们希望把数字和百分号连接：

paste(round(tab1[2, ]/apply(tab1,2,sum)*100,2),"%",sep="")
"61.92%" "42.96%" "25.53%"

第一个命令round(tab1[2, ]/apply(tab1,2,sum)*100,2) 就是上面计算好的百分数的数字部分，这是要连接的第一部分；

第二个命令"%" 是要连接的第二部分；

第三个命令sep="" 指两个元素之间的连接符号，这里我们不需要任何连接符号，所以引号""之间什么都不用写。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据结构 R语言数据格式

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇豆瓣9.2！17万条弹幕告诉你《沉默的真相》凭什么高口碑！

下一篇中级数据分析师，该有什么样的能力？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言描述统计第一弹 | 计算泰坦尼克号不同舱位的存活率

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载