把数据输入R语言后，如何进行简单的操作(二)-CDA数据分析师官网

把数据输入R语言后，如何进行简单的操作(二)

2020-09-11

先回忆一下之前用到的例子。

将其输入R语言中：

age <- c(25, 34, 59, 60, 20) #患者年龄

type <- c(1, 2, 2, 2, 1) #糖尿病类型

status <- c("poor", "improved", "excellent", "poor", "excellent") #病情

comorbidity<- c(TRUE, FALSE, FALSE, TRUE, FALSE) #出现并发症

mydata <- data.frame(age, type, status, comorbidity) #将数据框命名为mydata

查看mydata：

mydata

## age type status comorbidity

## 1 25 1 poor TRUE

## 2 34 2 improved FALSE

## 3 59 2 excellent FALSE

## 4 60 2 poor TRUE

## 5 20 1 excellent FALSE

接下来我们就以mydata为例，介绍一下如何对数据框进行简单的操作。

了解一个数据框

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

面对数据，第一步就是要了解它有多少条记录(或多少个case/ observation )，有多少个变量（variable）、分别是哪些。

## 获取数据框的维度（几行、几列）

dim(mydata)

[1] 5 4

## 查看数据框中的所有变量名（列名）

names(mydata)

[1] "age" "type" "status" "comorbidity"

## 查看数据框的整体结构（维度、变量名、数据类型、数据内容）

str(mydata)

'data.frame': 5 obs. of 4 variables:

$ age : num 25 34 59 60 20

$ type : num 1 2 2 2 1

$ status : Factor w/ 3 levels "excellent","improved",..: 3 2 1 3 1

$ comorbidity: logi TRUE FALSE FALSE TRUE FALSE

如何提取数据框中的行和列

2种方法：

1. 数据框后加[ , ]。逗号前是行，逗号后是列。如果没有指定是哪一行或哪一列，默认为所有行/列。

## 提取第一行

mydata[1,]

age type status comorbidity

1 25 1 poor TRUE

## 提取第一列

mydata[,1]

[1] 25 34 59 60 2

## 提取某几行或某几列

## 提取1~3行

mydata[1:3,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

## 提取第1和第5行的1、2、4列

mydata[c(1,5),c(1,2,4)]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

## 变量很多时，用列名来提取更方便

mydata[c(1,5),c('age','type','comorbidity')]

age type comorbidity

1 25 1 TRUE

5 20 1 FALSE

2. 另一种提取列的方法是，在数据框后加 $，然后再加要提取的列名。

## 提取age这一列

mydata$age

[1] 25 34 59 60 20

获取满足特定条件的数据

1.提取满足某一个条件的数据。

例如，在病情status这个变量中，有poor, improved 和 excellent这三类，现在想获取病情最稳定、恢复最好的患者信息。也就是说，我们希望获得status为excellent的病例，即选择满足mydata$status=='excellent'的行，以及被选中的行的每一列。

mydata[mydata$status=='excellent',]

age type status comorbidity

3 59 2 excellent FALSE

5 20 1 excellent FALSE

此外，还可进一步提取，例如，想获得病情status为excellent的患者中，并发症comorbidity的情况。换句话说，就是，想提取comorbidity的信息，但这些信息必须是病情最稳定的几位患者的。

## 具体操作如下：先提取comorbidity,再设置status的条件

输入语句：mydata$comorbidity[mydata$status=='excellent']

[1] FALSE FALSE

2.提取满足多个条件的数据。

例如，想提取年龄age大于等于20岁，且小于35岁的病例。在R中，用&这个符号表达『并且』。用一个小竖杠 | 表达『或者』。

mydata[mydata$age>=20 & mydata$age<35,]

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

3.subset()函数，既可用来选择行，也可选择列，当然也可以用来提取满足特定条件的内容。

# 选择行/满足特定条件的行

subset(mydata, mydata$age>=20 & mydata$age<35)

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

5 20 1 excellent FALSE

# 选择列

subset(mydata, select = c('age','status'))

age status

1 25 poor

2 34 improved

3 59 excellent

4 60 poor

5 20 excellent

有缺失数据怎么办

由于原来的数据框中没有缺失数据，这里我们来构造一个新的记录(observation)，让这个记录中全部都是缺失值。

mydata[6,] <- NA

mydata

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

6 <NA> <NA> <NA> <NA>

1. 只保留无缺失的observations。如果希望将无缺失版本的数据框保存起来，要记得把na.omit(mydata)的结果赋值给新的对象。

mydata_no_NA <- na.omit(mydata)

mydata_no_NA

age type status comorbidity

1 25 1 poor TRUE

2 34 2 improved FALSE

3 59 2 excellent FALSE

4 60 2 poor TRUE

5 20 1 excellent FALSE

2. 查看哪个数据为缺失值。需要用到2个函数，这里提醒大家，如果R的语句太复杂，那么可以先从最中心的部分读起，一层括号一层括号地向外扩展。

例如，下面的语句，可以先看最中间的is.na(mydata$age)，意思是对age这列中的每个数据进行一次检验，返回『是否为缺失值』的逻辑型结果，即TRUE 或者 FALSE。再看which()这个函数，它返回的是前面这一串TRUE和FALSE中，出现TRUE的顺序号。

从下面的结果我们可以看到，只有第6个数据是TRUE。

which(is.na(mydata$age))

[1] 6

is.na(mydata$age)

[1] FALSE FALSE FALSE FALSE FALSE TRUE

以上就是对数据框的一些简单操作，但是在数据处理中非常实用。下一讲我们继续介绍更多数据处理的内容。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

线性回归缺失值数据处理数据类型 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python新手如何度过小白期，不再当菜鸟程序员？

下一篇突发！CPA或取消北京考区惹争议，曾经“飘香”的证书还香吗？

把数据输入R语言后，如何进行简单的操作(二)

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...