pandas是如何检测和处理缺失数据的？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代pandas是如何检测和处理缺失数据的？

pandas是如何检测和处理缺失数据的？

2020-07-17

我们都知道pandas 是一款功能强大的python库，基于Numpy，支持高性能的矩阵运算，通常在数据挖掘和数据分析领域应用较多，但是pandas 数据清洗功能也不能忽视，今天小编就为大家分享pandas是如何检测和处理缺失数据的。

一、缺失值是什么?

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。通常按照数据缺失机制，可分为以下几种：

1.可忽略的缺失

(1)完全随机缺失 MCAR全称：missing completely at random，顾名思义，指的是数据的缺失是随机的，与已观察到的和未观察到的数据无关

(2)随机缺失MAR，全称：missing at random，该类数据的缺失依赖于其他完全变量

2.不可忽略的缺失NIM(全称：non-ignorable missing ) 或者非随机缺失，这种数据的缺失既依赖于完全变量又依赖于不完全变量本身

二、判断是否有缺失值

1.创建数据

import pandas as pd

import numpy as np

data = pd.DataFrame({'a': [1. 2. 4. np.nan,7. 9], 'b': ['a', 'b', np.nan, np.nan, 'd', 'e'], 'c': [np.nan, 0. 4. np.nan, np.nan, 5], 'd': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})

a b c d

0 1.0 a NaN NaN

1 2.0 b 0.0 NaN

2 4.0 NaN 4.0 NaN

3 NaN NaN NaN NaN

4 7.0 d NaN NaN

5 9.0 e 5.0 NaN

2.判断是否有缺失值及统计

print(data.isnull().any())

a True

b True

c True

d True

print(data.isnull().sum()) #t统计每一列的缺失值个数

a 1

b 2

c 3

d 6

三、pandas 缺失值处理一般采用两种方法

1.删除;

pandas 缺失值处理最原始的方法，pandas删除缺失值，通常通过dropna的方法，使用dropna的前提是，缺失值的类型必须是np.nan

删除缺失值为np.nan的所在行

movie.dropna()

参数说明：

axis 参数用于控制行或列，跟其他不一样的是，axis=0 (默认)表示操作行，axis=1 表示操作列。

how 参数可选的值为 any(默认) 或者 all。any 表示一行/列有任意元素为空时即丢弃，all 一行/列所有值都为空时才丢弃。

subset 参数表示删除时只考虑的索引或列名。

thresh参数的类型为整数，它的作用是，比如 thresh=3.会在一行/列中至少有 3 个非空值时将其保留。

2.填充。

最常见的是使用 fillna 完成填充。

data.fillna(0)

除了可以使用标量来填充之外，还可以使用前一个或后一个有效值来填充。

设置参数 method=‘pad’ 或 method=‘ffill’ 可以使用前一个有效值来填充。

设置参数 method=‘bfill’ 或 method=‘backfill’ 可以使用后一个有效值来填充。

3.替换。

有时候，某些异常值也会被当做缺失值来处理，可以使用 replace 方法来替换缺失值。

比如： user_info.replace({“age”: 40. “birth”: pd.Timestamp(“1978-08-08”)}, np.nan) #将年龄40替换日期为1978-08-08也替换

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

pandas 缺失值处理 numpy python DataFrame 数据挖掘数据清洗数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇分布式文件系统HDFS概念及工作机制的简单介绍

下一篇python数据清洗中，是如何识别和处理异常值的？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

pandas是如何检测和处理缺失数据的？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】实操指南：加快Python算法运行速度的四 ...

【CDA干货】解析神经网络中卷积的核心作用：提取数 ...

数字化转型攻坚：CDA数据分析师成为企业破局的核心 ...

【CDA干货】实操指南：数据透视表中两个计数项的公 ...

【CDA干货】实时赋能，精准预判：用户实时行为序列 ...

CDA数据分析师：企业数据安全管理方法论的落地者与 ...

【CDA干货】数据挖掘与数据分析：厘清边界，协同赋 ...

【CDA干货】特征重要性分析：从数据特征到业务价值 ...

CDA数据分析师：企业数据管理方法论的落地者与价值 ...

【CDA干货】序列模式挖掘在用户行为分析中的应用： ...

【CDA干货】Excel卡方检验完整教程：从零上手，轻松 ...

CDA数据分析师：决策树分析实战，可解释性建模的核 ...

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA数据分析师：主成分分析（PCA）实战，破解高维数 ...

【CDA干货】随机森林算法中的特征重要性分析：原理 ...

【CDA干货】如何提升数据分析能力：从入门到精通的 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载