作者 | 刘顺祥
来源 | 数据分析1480
数据分析过程中最头疼也是工作量最大的部分算是探索和清洗了——探索的目的是了解数据,了解数据背后隐藏的规律;洗的目的则是为了让干净的数据进入分析或建模的下一个环节。小编将通过三篇文章,详细讲解工作中常规的数据清洗方法,包括数据类型的转换,重复数据的处理,缺失值的处理以及异常数据的识别和处理。这是Python数据清洗系列的第一篇文章,主要分享的内容包括——数据类型的转换and冗余数据的识别和处理.
如下表所示,为某公司用户的个人信息和交易数据,涉及的字段为用户id、性别、年龄、受教育水平、交易金额和交易日期。从表面上看,似乎没有看出数据背后可能存在的问题,那接下来就将其读入到Python中,并通过探索的方式发现数据中的问题。
读取数据,以及查看数据规模、查看数据中各变量的数据类型的代码如下:
# 导入第三方包 import pandas as pd # 读入外部数据 data3 = pd.read_excel(io=r'C:\Users\Administrator\Desktop\datas\data3.xlsx') # 查看数据的规模 data3.shape out: (3000, 6) # 查看表中各变量的数据类型 # data3.dtypes out:
表中各变量的数据类型如表下表所示:
上述代码利用shape“方法”返回了数据集的规模,即该数据包含3000行6列;通过dtypes“方法”则返回了数据集中各变量的数据类型——除id变量和age变量为数值型,其余变量均为字符型。直观上能够感受到一点问题,即数据类型不对,例如用户id应该为字符型,消费金额custom_amt为数值型,订单日期为日期型。如果发现数据类型不对,如何借助于Python工具实现数据类型的转换呢?可参照如下代码的实现。
# 数值型转字符型 data3['id'] = data3['id'].astype(str) # 字符型转数值型 data3['custom_amt'] = data3['custom_amt'].str[1:].astype(float) # 字符型转日期型 data3['order_date'] = pd.to_datetime(data3['order_date'], format = '%Y年%m月%d日') # 重新查看数据集的各变量类型 data3.dtypes out:
这些数据经过处理后,各个字段的数据类型如下表所示:
如上结果所示,三个变量全都转换成了各自所期望的数据类型。astype“方法”用于数据类型的强制转换,可选择的常用转换类型包括str(表示字符型)、float(表示浮点型)和int(表示整型)。由于消费金额custom_amt变量中的值包含人民币符号“¥”,所以在数据类型转换之前必须将其删除(通过字符串的切片方法删除,[1:]表示从字符串的第二个元素开始截断)。对于字符转日期问题,推荐使用更加灵活的to_datetime函数,因为它在format参数的调节下,可以识别任意格式的字符型日期值。
需要注意的是,Python中的函数有两种表现形式,一种是常规理解下的函数(语法为func(parameters),如to_datetime函数),另一种则是“方法”(语法为obj.func(parameters),如dtypes和astype“方法”)。两者的区别在于 “方法”是针对特定对象的函数(即该“方法”只能用在某个固定类型的对象上),而函数并没有这方面的限制。
基于如上类型的转换结果,最后浏览一下数据的展现形式:
# 预览数据的前5行 data3.head()
如上过程是对数据中各变量类型的判断和转换,除此还需要监控表中是否存在“脏”数据,如冗余的重复观测和缺失值等。可以通过duplicated“方法”进行 “脏”数据的识别和处理。仍然对上边的data3数据为例进行操作,具体代码如下所示。
# 判断数据中是否存在重复观测 data3.duplicated().any() out: False
如上结果返回的是False,说明该数据集中并不存在重复观测。假如读者利用如上的代码在数据集中发现了重复观测,可以使用drop_duplicates“方法”将冗余信息删除。
需要说明的是,在使用duplicated“方法”对数据行作重复性判断时,会返回一个与原数据行数相同的序列(如果数据行没有重复,则对应False,否则对应True),为了得到最终的判断结果,需要再使用any“方法”(即序列中只要存在一个True,则返回True)。
duplicated“方法”和drop_duplicates“方法”都有一个非常重要的参数,就是subset。默认情况下不设置该参数时,表示对数据的所有列进行重复性判断;如果需要按指定的变量做数据的重复性判断时,就可以使用该参数指定具体的变量列表。举例如下:
# 构造数据 df = pd.DataFrame(dict(name = ['张三','李四','王二','张三','赵五','丁一','王二'], gender = ['男','男','女','男','女','女','男'], age = [29,25,27,29,21,22,27], income = [15600,14000,18500,15600,10500,18000,13000], edu = ['本科','本科','硕士','本科','大专','本科','硕士'])) # 查看数据 df
目测有两条数据完全一样,就是用户张三,如果直接使用drop_duplicates“方法”,而不做任何参数的修改时,将会删除第二次出现的用户张三。代码如下:
# 默认情况下,对数据的所有变量进行判断 df.drop_duplicates()
假设在数据清洗中,用户的姓名和年龄相同就认为是重复数据,那么该如何基于这两个变量进行重复值的删除呢?此时就需要使用subset参数了,代码如下:
df.drop_duplicates(subset=['name','age'])
需要注意的是,使用drop_duplicates“方法”删除重复数据,并不能直接影响到原始数据,即原始数据中还是存在重复观测的。如需使drop_duplicates“方法”的删除功能作用在原始数据中,必须将inplace参数设置为True。
本期的内容就介绍到这里,下一篇将分享缺失值的识别和处理技术。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30