8 段用于数据清洗 Python 代码-CDA数据分析师官网

8 段用于数据清洗 Python 代码

2019-11-27

8 段用于<a href='/map/shujuqingxi/' style='color:#000;font-size:inherit;'>数据清洗</a> Python 代码

作者｜Kin Lim Lee

编译｜量子位

最近，大数据工程师Kin Lim Lee在Medium上发表了一篇文章，介绍了8个用于数据清洗的Python代码。

数据清洗，是进行数据分析和使用数据训练模型的必经之路，也是最耗费数据科学家/程序员精力的地方。

这些用于数据清洗的代码有两个优点：一是由函数编写而成，不用改参数就可以直接使用。二是非常简单，加上注释最长的也不过11行。在介绍每一段代码时，Lee都给出了用途，也在代码中也给出注释。大家可以把这篇文章收藏起来，当做工具箱使用。

涵盖8大场景的数据清洗代码

这些数据清洗代码，一共涵盖8个场景，分别是：

删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列（带条件）、转换时间戳（从字符串到日期时间格式）

删除多列

在进行数据分析时，并非所有的列都有用，用df.drop可以方便地删除你指定的列。

def drop_multiple_col(col_names_list, df): 
 
 AIM -> Drop multiple columns based on their column names 
 INPUT -> List of column names, df
 OUTPUT -> updated df with dropped columns 
 ------
 
 df.drop(col_names_list, axis=1, inplace=True)
 return df

转换数据类型

当数据集变大时，需要转换数据类型来节省内存。

def change_dtypes(col_int, col_float, df): 
 
 AIM -> Changing dtypes to save memory
 INPUT -> List of column names (int, float), df
 OUTPUT -> updated df with smaller memory 
 ------
 
 df[col_int] = df[col_int].astype( int32 )
 df[col_float] = df[col_float].astype( float32 )

将分类变量转换为数值变量

一些机器学习模型要求变量采用数值格式。这需要先将分类变量转换为数值变量。同时，你也可以保留分类变量，以便进行数据可视化。

def convert_cat2num(df):
 # Convert categorical variable to numerical variable
 num_encode = { col_1 : { YES :1, NO :0},
 col_2 : { WON :1, LOSE :0, DRAW :0}} 
 df.replace(num_encode, inplace=True)

检查缺失数据

如果你要检查每列缺失数据的数量，使用下列代码是最快的方法。可以让你更好地了解哪些列缺失的数据更多，从而确定怎么进行下一步的数据清洗和分析操作。

def check_missing_data(df):
 # check for any missing data in the df (display in descending order)
 return df.isnull().sum().sort_values(ascending=False)

删除列中的字符串

有时候，会有新的字符或者其他奇怪的符号出现在字符串列中，这可以使用df[‘col_1’].replace很简单地把它们处理掉。

def remove_col_str(df):
 # remove a portion of string in a dataframe column - col_1
 df[ col_1 ].replace(, , regex=True, inplace=True)
 # remove all the characters after  (including ) for column - col_1
 df[ col_1 ].replace( .* , , regex=True, inplace=True)

删除列中的空格

数据混乱的时候，什么情况都有可能发生。字符串开头经常会有一些空格。在删除列中字符串开头的空格时，下面的代码非常有用。

def remove_col_white_space(df):
 # remove white space at the beginning of string 
 df[col] = df[col].str.lstrip()

用字符串连接两列（带条件）

当你想要有条件地用字符串将两列连接在一起时，这段代码很有帮助。比如，你可以在第一列结尾处设定某些字母，然后用它们与第二列连接在一起。根据需要，结尾处的字母也可以在连接完成后删除。

def concat_col_str_condition(df):
 # concat 2 columns with strings if the last 3 letters of the first column are pil
 mask = df[ col_1 ].str.endswith( pil , na=False)
 col_new = df[mask][ col_1 ] + df[mask][ col_2 ]
 col_new.replace( pil , , regex=True, inplace=True) # replace the pil with emtpy space

转换时间戳（从字符串到日期时间格式）

在处理时间序列数据时，我们很可能会遇到字符串格式的时间戳列。这意味着要将字符串格式转换为日期时间格式(或者其他根据我们的需求指定的格式) ，以便对数据进行有意义的分析。

def convert_str_datetime(df): 
 
 AIM -> Convert datetime(String) to datetime(format we want)
 INPUT -> df
 OUTPUT -> updated df with new datetime format 
 ------
 
 df.insert(loc=2, column= timestamp , value=pd.to_datetime(df.transdate, format= %Y-%m-%d %H:%M:%S.%f ))

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据清洗数据分析数据可视化机器学习大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何正确选择聚类算法？

下一篇Python「强类型」or「弱类型」？90% 的人说不清

8 段用于数据清洗 Python 代码

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...