
昨天和学长聊到下周要做的数据清洗工作,心想应该很好上手吧,结果今早爬起来一问度娘,立马就被灌了整锅的毒鸡汤…某论坛上的网友甚至告诉小编,数据清洗占了他某项工作中的八成分量,是绝对的大工程…
额…好吧,尽管小编还是这方面的零基础学员,鼓捣了一整天依然图样图森破,但是在“还要多学习”的精神指引下,还是来跟大家分享一点学习中的收获吧。
前方预警:大神请绕行~
在开始今天的介绍之前,有几点说明:
1. 这次介绍的代码主要针对重复值、缺失值和字符中的空格等情况的处理;
2. 由于篇幅限制,演示中导入csv格式文件作为数据来源;
3. 请在“文件”菜单中把R软件的“当前工作目录”改为导入文件所在目录;
![]()
4. 本次使用的数据是世界银行数据库中的“国家政策和制度评估(CPIA):公共部门管理和机构集群平均值(1=低至 6=高)”数据;另外,为使清洗效果更明显,我对其做了点“手脚”,让其显得“更乱”:
那么,这么“脏乱”的数据该咋“洗”呢?具体步骤如下:
1. 读取并创建数据表。可以通过查看数据表前5行看看是否读取;
#读取并创建数据表
data=data.frame(read.csv('CPIA.csv',header =1))
#查看数据表前5行
head(data)
![]()
2. 清洗特定列的重复值。R语言的返回结果为:重复的标记为TURE,不重复的值标记为FALSE;下面以清洗“国家名称”这一列的重复值为例,其他各列依次完成;
#重复值清洗
duplicated(data$Country.Name)
![]()
#删除重复值,返回唯一值列表
data=unique(data)
#查看清洗结果
duplicated(data$Country.Name)
![]()
3. 空值清洗。
(1)如果查找数据表中的空值,则代码为:
#查找数据表中的空值
head(is.na(data),n = 264)
需要注意的是,这里的264是数据容量,R语言的返回结果依然是空值标记为TURE,非空值标记为FALSE;
(2)如果查找特定列中的空值,则代码如下(以2015年数据为例):
#查看特定列中的空值
is.na(data$X2015)
(3)处理空值的方式有两种,将空值填充为0或删除空值所在行;
#将空值填充为0
data[is.na(data)] <- 0
#删除空值所在行
data<-na.omit(data)
4. 去除特定列中字符间的空格。需要安装并加载raster包,以“国家名称”列为例;
#提取“国家名称”列
Country.Name=as.vector(data$Country.Name)
#安装raster包
install.packages('raster')
#加载raster包
library(raster)
#去除“国家名称”字段中的空格
Country=trim(Country.Name)
#覆盖原有“国家名称”字段
data$Country.Name=Country
5. 另存为新文件,供后续分析;
#保存为csv文件
write.csv(data,file="CPIA1.csv")
![]()
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04CDA 数据分析师:开启数据职业发展新征程 在数据成为核心生产要素的今天,数据分析师的职业价值愈发凸显。CDA(Certified D ...
2025-07-03从招聘要求看数据分析师的能力素养与职业发展 在数字化浪潮席卷全球的当下,数据已成为企业的核心资产,数据分析师岗位也随 ...
2025-07-03Power BI 中如何控制过滤器选择项目数并在超限时报错 引言 在使用 Power BI 进行数据可视化和分析的过程中,对过滤器的有 ...
2025-07-03把握 CDA 考试时间,开启数据分析职业之路 在数字化转型的时代浪潮下,数据已成为企业决策的核心驱动力。CDA(Certified Da ...
2025-07-02CDA 证书:银行招聘中的 “黄金通行证” 在金融科技飞速发展的当下,银行正加速向数字化、智能化转型,海量数据成为银行精准 ...
2025-07-02探索最优回归方程:数据背后的精准预测密码 在数据分析和统计学的广阔领域中,回归分析是揭示变量之间关系的重要工具,而回 ...
2025-07-02CDA 数据分析师报考条件全解析:开启数据洞察之旅 在当今数字化浪潮席卷全球的时代,数据已成为企业乃至整个社会发展的核心驱 ...
2025-07-01深入解析 SQL 中 CASE 语句条件的执行顺序 在 SQL 编程领域,CASE语句是实现条件逻辑判断、数据转换与分类的重要工 ...
2025-07-01SPSS 中计算三个变量交集的详细指南 在数据分析领域,挖掘变量之间的潜在关系是获取有价值信息的关键步骤。当我们需要探究 ...
2025-07-01CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-30探秘卷积层:为何一个卷积层需要两个卷积核 在深度学习的世界里,卷积神经网络(CNN)凭借其强大的特征提取能力 ...
2025-06-30