把数据输入R语言后，如何进行简单的操作(二)-CDA数据分析师官网

热线电话：13121318867

首页大数据时代把数据输入R语言后，如何进行简单的操作(二)

把数据输入R语言后，如何进行简单的操作(二)

2020-09-11

先回忆一下之前用到的例子。

将其输入R语言中：

age <- c(25, 34, 59, 60, 20) #患者年龄

type <- c(1, 2, 2, 2, 1) #糖尿病类型

status <- c("poor", "improved", "excellent", "poor", "excellent") #病情

comorbidity<- c(TRUE, FALSE, FALSE, TRUE, FALSE) #出现并发症

mydata <- data.frame(age, type, status, comorbidity) #将数据框命名为mydata

查看mydata：

mydata

## age type status comorbidity

## 1 25 1 poor TRUE

## 2 34 2 improved FALSE

## 3 59 2 excellent FALSE

## 4 60 2 poor TRUE

## 5 20 1 excellent FALSE

接下来我们就以mydata为例，介绍一下如何对数据框进行简单的操作。

了解一个数据框

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

面对数据，第一步就是要了解它有多少条记录(或多少个case/ observation )，有多少个变量（variable）、分别是哪些。

## 获取数据框的维度（几行、几列）

dim(mydata)

[1] 5 4

## 查看数据框中的所有变量名（列名）

names(mydata)

[1] "age" "type" "status" "comorbidity"

## 查看数据框的整体结构（维度、变量名、数据类型、数据内容）

str(mydata)

'data.frame': 5 obs. of 4 variables:

$ age : num 25 34 59 60 20

$ type : num 1 2 2 2 1

$ status : Factor w/ 3 levels "excellent","improved",..: 3 2 1 3 1

$ comorbidity: logi TRUE FALSE FALSE TRUE FALSE

如何提取数据框中的行和列

2种方法：

1. 数据框后加[ , ]。逗号前是行，逗号后是列。如果没有指定是哪一行或哪一列，默认为所有行/列。

## 提取第一行

mydata[1,]

age type status comorbidity

1 25 1 poor TRUE

## 提取第一列

mydata[,1]

[1] 25 34 59 60 2

## 提取某几行或某几列

## 提取1~3行

mydata[1:3,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

## 提取第1和第5行的1、2、4列

mydata[c(1,5),c(1,2,4)]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

## 变量很多时，用列名来提取更方便

mydata[c(1,5),c('age','type','comorbidity')]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

2. 另一种提取列的方法是，在数据框后加 $，然后再加要提取的列名。

## 提取age这一列

mydata$age

[1] 25 34 59 60 20

获取满足特定条件的数据

1.提取满足某一个条件的数据。

例如，在病情status这个变量中，有poor, improved 和 excellent这三类，现在想获取病情最稳定、恢复最好的患者信息。也就是说，我们希望获得status为excellent的病例，即选择满足mydata$status=='excellent'的行，以及被选中的行的每一列。

mydata[mydata$status=='excellent',]

age type status comorbidity

3 59 2 excellent FALSE

5 20 1 excellent FALSE

此外，还可进一步提取，例如，想获得病情status为excellent的患者中，并发症comorbidity的情况。换句话说，就是，想提取comorbidity的信息，但这些信息必须是病情最稳定的几位患者的。

## 具体操作如下：先提取comorbidity,再设置status的条件

输入语句：mydata$comorbidity[mydata$status=='excellent']

[1] FALSE FALSE

2.提取满足多个条件的数据。

例如，想提取年龄age大于等于20岁，且小于35岁的病例。在R中，用&这个符号表达『并且』。用一个小竖杠 | 表达『或者』。

mydata[mydata$age>=20 & mydata$age<35,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

3.subset()函数，既可用来选择行，也可选择列，当然也可以用来提取满足特定条件的内容。

# 选择行/满足特定条件的行

subset(mydata, mydata$age>=20 & mydata$age<35)

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

# 选择列

subset(mydata, select = c('age','status'))

age status

1 25 poor

2 34 improved

3 59 excellent

4 60 poor

5 20 excellent

有缺失数据怎么办

由于原来的数据框中没有缺失数据，这里我们来构造一个新的记录(observation)，让这个记录中全部都是缺失值。

mydata[6,] <- NA

mydata

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

6 <NA> <NA> <NA> <NA>

1. 只保留无缺失的observations。如果希望将无缺失版本的数据框保存起来，要记得把na.omit(mydata)的结果赋值给新的对象。

mydata_no_NA <- na.omit(mydata)

mydata_no_NA

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

2. 查看哪个数据为缺失值。需要用到2个函数，这里提醒大家，如果R的语句太复杂，那么可以先从最中心的部分读起，一层括号一层括号地向外扩展。

例如，下面的语句，可以先看最中间的is.na(mydata$age)，意思是对age这列中的每个数据进行一次检验，返回『是否为缺失值』的逻辑型结果，即TRUE 或者 FALSE。再看which()这个函数，它返回的是前面这一串TRUE和FALSE中，出现TRUE的顺序号。

从下面的结果我们可以看到，只有第6个数据是TRUE。

which(is.na(mydata$age))

[1] 6

is.na(mydata$age)

[1] FALSE FALSE FALSE FALSE FALSE TRUE

以上就是对数据框的一些简单操作，但是在数据处理中非常实用。下一讲我们继续介绍更多数据处理的内容。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归缺失值数据处理数据类型 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python新手如何度过小白期，不再当菜鸟程序员？

下一篇突发！CPA或取消北京考区惹争议，曾经“飘香”的证书还香吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

把数据输入R语言后，如何进行简单的操作(二)

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA数据分析师：精通统计制图，让数据规律直观可感 ...

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载