
来源:丁点帮你
作者:丁点helper
在前面的文章中,我们跟大家一起学习了R中的数据导入、基本的操作方法、描述性统计等内容。
这其中的很多操作都是针对格式和内容都完好的数据而言的。但在实际工作中,我们收集到的数据往往不那么完美,需要先进行一番清理。今天开始,我们来学习如何将杂乱的数据整理得井井有条。
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。
示例数据是某高校教师对本班学生的调查结果,为方便练习,大家可先下载:
文件名:survey.csv
链接: https://pan.baidu.com/s/1XZgdyb59wPyWy6wp_hmoQw
密码: 5lyw
survey <- read.csv("//Users//Desktop//titanic.csv", header = TRUE)
用下面的语句来了解一下这个数据:
#数据有多少行多少列dim(survey)[1] 238 17#获取数据中的变量名称 names(survey) [1] "ClassProb" "Status" "Year" "Division" "Gender" "HtCm" "Hand" "Haircut" [9] "Exercise" "Coursework" "Web" "TV" "Social" "Econ" "Animal" "Friends" [17] "Pulse"
可以知道,这项调查共涉及到238名同学,调查项目有17项。
数据清理第一步:有无缺失
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。
今天这篇文章只介绍如何对数据的完整性进行判断。
在survey这个数据库的238条记录中,如果某条记录中的17个变量都获取到了信息,不存在漏填的情况,那么认为这条记录是完整的。
1.用complete.cases()这个函数得到数据中的每条记录是否完整,其结果是一个逻辑型变量。
如下面的结果,survey这个数据的第一条记录(第一行)是完整的,而第232条记录是不完整的。
complete.cases(survey) [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [20] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [39] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [58] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE [77] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE [96] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[115] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[134] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[153] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[172] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE[191] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[210] TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE[229] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE
2. 那么有多少条记录是完整的呢?根据下面的结果,答案是232条。
下面的语句中,which()的作用是得到逻辑型变量complete.cases(survey)中值为TRUE的顺序号。大家可以自行运行一下which(complete.cases(survey))这个语句,看看结果是什么。
所以最后用length(),可以得到共有多少条记录的完整性检验结果为TRUE。
length(which(complete.cases(survey)))[1] 232
3. 仅保留所有完整的记录,并生成一个新数据集。有两种方法:
# 仅保留complete.cases(survey) = TRUE的记录 survey_com <- survey[complete.cases(survey),] # 去掉有缺失情况的记录survey_com <- na.omit(survey)
4. 我们也可以看看有缺失的记录是哪些,来进一步考察数据的缺失规律。
survey_miss <- survey[!complete.cases(survey),] survey_miss
结果如下图:
小结
多重线性回归,一般是指有多个自变量X,只有一个因变量Y。前面我们主要是以简单线性回归为例在介绍,两者的差距主要在于自变量X的数量,在只有一个X时,就称简单线性回归。
面对一个数据,除了了解数据的行、列、变量等,每条记录的完整性是我们首先需要关注的问题之一。因为缺失记录和未缺失记录之间的差异很可能会对数据分析结果的准确性有直接影响。
通过本文介绍的4个方面来判断数据的缺失情况、定位完整数据和缺失数据,可以对所得样本的质量进行估计,也可为数据填补做好准备。
关于缺失数据的处理方法,大家可以参考这篇文章。
如果你也有待处理的数据,那么快用今天学的方法检验一下你的数据是否完整吧。
只有从根本上了解自己的数据,把每一个缺失值处理好,才可能做出逻辑严密、有说服力的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04CDA 数据分析师:开启数据职业发展新征程 在数据成为核心生产要素的今天,数据分析师的职业价值愈发凸显。CDA(Certified D ...
2025-07-03