pandas是如何检测和处理缺失数据的？-CDA数据分析师官网

pandas是如何检测和处理缺失数据的？

2020-07-17

我们都知道pandas 是一款功能强大的python库，基于Numpy，支持高性能的矩阵运算，通常在数据挖掘和数据分析领域应用较多，但是pandas 数据清洗功能也不能忽视，今天小编就为大家分享pandas是如何检测和处理缺失数据的。

一、缺失值是什么?

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。通常按照数据缺失机制，可分为以下几种：

1.可忽略的缺失

(1)完全随机缺失 MCAR全称：missing completely at random，顾名思义，指的是数据的缺失是随机的，与已观察到的和未观察到的数据无关

(2)随机缺失MAR，全称：missing at random，该类数据的缺失依赖于其他完全变量

2.不可忽略的缺失NIM(全称：non-ignorable missing ) 或者非随机缺失，这种数据的缺失既依赖于完全变量又依赖于不完全变量本身

二、判断是否有缺失值

1.创建数据

import pandas as pd

import numpy as np

data = pd.DataFrame({'a': [1. 2. 4. np.nan,7. 9], 'b': ['a', 'b', np.nan, np.nan, 'd', 'e'], 'c': [np.nan, 0. 4. np.nan, np.nan, 5], 'd': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})

a b c d

0 1.0 a NaN NaN

1 2.0 b 0.0 NaN

2 4.0 NaN 4.0 NaN

3 NaN NaN NaN NaN

4 7.0 d NaN NaN

5 9.0 e 5.0 NaN

2.判断是否有缺失值及统计

print(data.isnull().any())

a True

b True

c True

d True

print(data.isnull().sum()) #t统计每一列的缺失值个数

a 1

b 2

c 3

d 6

三、pandas 缺失值处理一般采用两种方法

1.删除;

pandas 缺失值处理最原始的方法，pandas删除缺失值，通常通过dropna的方法，使用dropna的前提是，缺失值的类型必须是np.nan

删除缺失值为np.nan的所在行

movie.dropna()

参数说明：

axis 参数用于控制行或列，跟其他不一样的是，axis=0 (默认)表示操作行，axis=1 表示操作列。

how 参数可选的值为 any(默认) 或者 all。any 表示一行/列有任意元素为空时即丢弃，all 一行/列所有值都为空时才丢弃。

subset 参数表示删除时只考虑的索引或列名。

thresh参数的类型为整数，它的作用是，比如 thresh=3.会在一行/列中至少有 3 个非空值时将其保留。

2.填充。

最常见的是使用 fillna 完成填充。

data.fillna(0)

除了可以使用标量来填充之外，还可以使用前一个或后一个有效值来填充。

设置参数 method=‘pad’ 或 method=‘ffill’ 可以使用前一个有效值来填充。

设置参数 method=‘bfill’ 或 method=‘backfill’ 可以使用后一个有效值来填充。

3.替换。

有时候，某些异常值也会被当做缺失值来处理，可以使用 replace 方法来替换缺失值。

比如： user_info.replace({“age”: 40. “birth”: pd.Timestamp(“1978-08-08”)}, np.nan) #将年龄40替换日期为1978-08-08也替换

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

pandas 缺失值处理 numpy python DataFrame 数据挖掘数据清洗数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇分布式文件系统HDFS概念及工作机制的简单介绍

下一篇python数据清洗中，是如何识别和处理异常值的？

pandas是如何检测和处理缺失数据的？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...