4000字归纳总结 Pandas+Sklearn 带你做<a href='/map/shujuyuchuli/' style='color:#000;font-size:inherit;'>数据预处理</a>

作者：俊欣

来源：关于数据分析与可视化

今天我们就来讲讲数据预处理过程当中的一些要点与难点。我们大致会提到数据预处理中的

加载数据
处理缺失值如何处理
处理离散型数据该如何处理
数据的标准化
将数据集划分成训练集与测试集
去掉重复值

加载数据

我们导入必要的库并且加载数据

import pandas as pd
df = pd.read_csv("data.csv")

在进行数据分析前，可以查看一下数据的总体情况，从宏观上了解数据

data.head() #显示前五行数据 data.tail() #显示末尾五行数据 data.info() #查看各字段的信息 data.shape #查看数据集有几行几列,data.shape[0]是行数,data.shape[1]是列数 data.describe() #查看数据的大体情况，均值，最值，分位数值... data.columns.tolist()   #得到列名的list

处理缺失值

缺失值一直都是数据预处理当中比较常见的一个问题，而在处理类似的问题的时候，方式方法也是多种多样的，我们一一来介绍，

data = [['小明',25,55],['小红',28,60],['小王',26]] df = pd.DataFrame(data=data,columns=['Name','Age','Weight'])

output

Name Age Weight 0 小明 25 55.0 1 小红 28 60.0 2 小王 26 NaN

针对上面的数据集，我们通过pandas中的方法看一下缺失值的情况

df.isnull()

output

Name Age Weight 0 False False False 1 False False False 2 False False True

另外我们也可以这么来做，检测每一列空值的数量

df.isnull().sum()

output

Name 0 Age 0 Weight 1 dtype: int64

而在面对缺失值的时候，我们一方面可以将其去除

df.dropna()

output

Name Age Weight 0 小明 25 55.0 1 小红 28 60.0

当然我们也可以对缺失值进行填充，例如用平均值来填充

df.fillna(df.mean())

output

Name Age Weight 0 小明 25 55.0 1 小红 28 60.0 2 小王 26 57.5

除了pandas当中的方法之外，我们也可以使用sklearn库当中的一些函数方法，例如

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer = imputer.fit(df[['Weight']])
df['Weight'] = imputer.transform(df[['Weight']])

最后返回的结果也和上面的fillna()方法返回的结果一致，我们用平均值来代码空值，那么同样道理我们也可以用中位数、众数等统计值来进行替换，这里就不做多说

处理离散型数据

另外当数据集当中出现离散型数据的时候，我们也要进行相应的处理，毕竟在后面的建模过程当中，机器学习的模型需要的是连续型的数据。

离散型数据也分为两种，一种是有序的离散变量，就比方说是衣服的尺码，有M码的、也有L码的、也还有与之更大的尺码，另外一种则是无序的，例如衣服的颜色，颜色之间没有大小之分，因此在编码的时候也应该另外处理。

df_cat = pd.DataFrame(data = 
                     [['green','M',10.1,'class1'],
                      ['blue','L',20.1,'class2'],
                      ['white','M',30.1,'class1']], )
df_cat.columns = ['color','size','price','classlabel']

output

color size price classlabel 0 green M 10.1 class1 1 blue L 20.1 class2 2 white M 30.1 class1

对于有序的离散型变量，我们可以使用map()函数

size_mapping = {'M':1,'L':2}
df_cat['size'] = df_cat['size'].map(size_mapping)
df_cat['size']

output

0 1 1 2 2 1 Name: size, dtype: int64

另外我们也可以使用sklearn库中的LabelEncoder()方法来处理

from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
df_cat['size'] = class_le.fit_transform(df_cat['size'].values)

而对于无序的离散型变量，我们可以采用独热编码，例如对color这一列进行编码过之后会有color_green、color_blue以及color_white三个特征，特征值为0或者1

pd.get_dummies(df_cat['color'], prefix = "color")

output

color_blue color_green color_white 0 0 1 0 1 1 0 0 2 0 0 1

然后我们将此并入到源数据当中去

df_cat[["size", "price"]].join(dummies)

output

size price color_blue color_green color_white 0 1 10.1 0 1 0 1 2 20.1 1 0 0 2 1 30.1 0 0 1

但是考虑到后面搭建模型的时候，变量与变量之间应该保持独立，而不应该是存在依赖的关系，对于color这一列中存在三种颜色，分别是blue、green以及white，当前两类取值都为0的时候，color只可能是white

所以将get_dummies()方法中的drop_first默认值为False改为True

dummies = pd.get_dummies(df_cat['color'], prefix = "color", drop_first=True)
df_cat[["size", "price"]].join(dummies)

数据的标准化

由于不同的变量，它们往往存在不同的单位以及不同的取值范围，有时候取值范围的差异较大会对机器学习的模型带来很多不必要的麻烦。因此为了最后预测结果的可靠性，我们需要对数据进行标准化，对数据按比例进行缩放，使之落入一个小的特定区间。而标准化算法有

z-score 标准化

这种方法根据原始数据的均值和标准差进行数据的标准化，经过处理的数据符合正态分布，即均值为0，标准差为1，计算公式为： = ，当然sklearn库当中的代码则是

from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test)

线性归一化

它的计算公式为： = 当然sklearn库当中也有相对应的代码

from sklearn.preprocessing import MinMaxScaler()
min_max_scaler = MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train) print(X_train_minmax)

训练集中的数据经过转化，取值范围都集中在[0,1]之间

MaxAbsScaler()方法

MaxAbsScaler()方法和上述的线性归一化效果相类似，训练集中的数据经过转化，取值范围在[-1,1]之间

max_abs_scaler = preprocessing.MaxAbsScaler() X_train_maxabs = max_abs_scaler.fit_transform(X_train) X_test_maxabs = max_abs_scaler.transform(X_test)

RobustScaler()方法

要是当数据集当中存在很多的极值的时候，利用平均值和标准差来进行数据的标准化效果可能并不理想，毕竟极值会影响到平均值和标准差的计算，这个时候我们就需要用到RobustScaler()方法，

from sklearn.preprocessing import RobustScaler
transformer = RobustScaler().fit(X)
transformer.transform(X)

将数据集划分成训练集和测试集

在建模之前，我们需要将数据集分成训练集和测试集，我们在训练集上面建立模型，训练与优化模型，然后再将模型放到测试集上面，评估一下模型的性能以及优化的效果，在sklearn库中也有相对应的方法

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2,random_state= 1)

上面的变量y具体指的是被预测的因变量，而x则是在预测中使用的自变量

去除重复值

在pandas当中也有对应的方法来去除掉重复值

df.drop_duplicates()

4000字归纳总结 Pandas+Sklearn 带你做数据预处理

加载数据

处理缺失值

处理离散型数据

数据的标准化

将数据集划分成训练集和测试集

去除重复值

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...