热线电话：13121318867

在R中用箱形图做组间比较

2021-09-07

来源：丁点帮你

作者：丁点helper

之前的文章讲了如何用R绘制箱形图，以此来帮助我们了解数据的整体分布情况、是否存在异常值。除此之外，箱形图还可以进行数据的组间比较。

分组变量的数据清理

多重线性回归，一般是指有多个自变量X，只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍，两者的差距主要在于自变量X的数量，在只有一个X时，就称简单线性回归。

本次我们用到的是学生的课堂调查数据，包括了性别、年级、专业、身高、最喜欢的动物(讲数据清理时用的是这个变量，还记得吗)等变量。数据名：survey.csv，数据链接：

首先导入数据，存入survey这个数据集中：

survey <- read.csv("//Users//Desktop//survey.csv", 
                     header = TRUE) # 获取数据中包含的变量名 names(survey)
 [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" "Exercise" [10] "Coursework" "Web" "TV" "Social" "Econ" "Animal" "Friends" "Pulse"

接下来我们以Gender作为分组依据，先来看看这个变量的情况。

table(survey$Gender) Choose not to answer Female Gender non-conforming Male 1 1 117 1 118

我们发现，除了female和male，有的同学回答了Choose not to answer，Gender non-conforming，还有同学什么都没填，空缺。

今天我们暂时将这三种特殊情况从数据中删去。

# 查看针对Gender这个变量，同学们有几类回答 levels(survey$Gender)
[1] "" "Choose not to answer" "Female" "Gender non-conforming" "Male"

在这五类回答中，我们想保留的是第3、第5类。也就是说，仅保留Gender为"Female" 或 "Male"的记录。

# 把更新后的数据存储在survey2这个对象中 survey2 <- survey[survey$Gender %in% levels(survey$Gender)[c(3,5)],]

这里，a %in%b的作用是，用a中的元素去匹配b中的任意元素，如果匹配成功，则返回结果为TRUE，反之，则结果为FALSE。

此时，上面的语句就简化为如下所示，c()里面是TRUE和FALSE的集合，是a中每个元素与b匹配的结果。

survey2 <- survey[c(),] # 这是为了便于理解写的简化语句，不能够运行的

survey2中仅保留了匹配结果为TRUE的记录：

table(survey2$Gender) Choose not to answer Female Gender non-conforming Male 0 0 117 0 118

哎？虽然记录被删了，但Gender中之前包含的五个类都还在，用下面的droplevels()这个函数删掉那些没有记录的类。

survey2$Gender <- droplevels(survey2$Gender)
table(survey2$Gender)
Female   Male 
   117    118

绘制整体和各组数据的箱形图

数据清理好之后，我们以身高HtCm这个变量为例，先用之前讲过的方法绘制箱形图，了解改变量的整体分布，然后对比性别之间的身高差异。

boxplot(survey2$HtCm, main="Boxplot of Ht in cm",          col='orange', lwd=2)

一目了然，我们调查的是大学学生，却出现了身高小于100厘米的情况，不符合常理。现在去检查一下原始数据。

sort(survey2$HtCm) # 将身高从小到大排序

部分结果截图

实际操作中，大家要尽量核实那些极端身高数据的真实情况，修正数据。这里我们为便于教学，直接把那些小于100厘米的身高值记录为缺失。

然后利用整理后的身高数据绘制箱形图。

survey2$HtCm[survey2$HtCm < 100 ] <- NA
 boxplot(survey2$HtCm, main="Boxplot of Ht in cm", 
          col='orange', lwd=2)

最后绘制不同性别学生的身高箱形图。

boxplot(survey2$HtCm~survey2$Gender, 
         main="Boxplot of Ht in cm", 
         col=c(2,3), lwd=2)

由图可知，男生的身高基本都高于女生。将两个箱形图放在一起，可以清晰地看到两组变量的大致情况，便于给两组做粗略的比较。

但是这男女生身高到底有没有统计学上的差异，肉眼是很难得出结论的，统计学上怎么做呢？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

线性回归数据清理异常值数据存储

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇智能“三反”模型开发

下一篇Python字典操作零基础学习，一步到位

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

在R中用箱形图做组间比较

分组变量的数据清理

绘制整体和各组数据的箱形图

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载