3000字详解Pandas数据查询，建议收藏（CDA干货分享）

2021-12-28

作者：俊欣

来源：关于数据分析与可视化

大家好，又是新的一周，也是2021年的最后一周，今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据，希望会对读者朋友有所帮助。

导入数据集和模块

我们先导入pandas模块，并且读取数据，代码如下

import pandas as pd
df = pd.read_csv("netflix_titles.csv")
df.head()

根据文本内容来筛选

首先我们可以根据文本内容直接来筛选，返回的是True如果文本内容是相匹配的，False如果文本内容是不匹配的，代码如下

mask = df['type'].isin(['TV Show'])
mask.head()

output

0 False 1 True 2 True 3 True 4 True Name: type, dtype: bool

然后我们将这个mask作用到整个数据集当中，返回的则是满足与True条件的数据

df[mask].head()

output

当然我们也可以和.loc方法来相结合，只挑选少数的几个指定的列名，代码如下

df.loc[mask, ['title','country','duration']].head()

output

title country duration 1 Blood & Water South Africa 2 Seasons 2 Ganglands NaN 1 Season 3 Jailbirds New Orleans NaN 1 Season 4 Kota Factory India 2 Seasons 5 Midnight Mass NaN 1 Season

当然要是我们所要筛选的文本内容并不仅仅只有1个，就可以这么来操作，代码如下

mask = df['type'].isin(['Movie','TV Show'])

结果返回的是True，要是文本内容全部都匹配，要是出现一个不匹配的现象则返回的是False

根据关键字来筛选

我们可以根据某个关键字来筛选数据，数据集当中的listed-in包含的是每部电影的种类，当然很多电影并不只有一个种类，而是同时涉及到很多个种类，例如某一部电影既有“科幻”元素，也有“爱情”元素同时还包含了部分“动作片”的元素。

我们按照某个关键字来筛选，例如筛选出包含了“horror”这个关键字的影片，代码如下

mask = df['listed_in'].str.contains('horror', case=False, na=False)

其中的case=False表明的是忽略字母的大小写问题，na=False表明的是对于缺失值返回的是False，

df[mask].head()

output

而要是文本数据当中包含了一些特殊符号，例如+、^以及=等符号时，我们可以将regex参数设置成False（默认的是True），这样就不会被当做是正则表达式的符号，代码如下

df['a'].str.contains('^', regex=False)
#或者是 df['a'].str.contains('^')

根据多个关键字来筛选

当关键字不仅仅只有一个的时候，就可以这么来操作

pattern = 'horror|stand-up' mask = df['listed_in'].str.contains(pattern, case=False, na=False)
df[mask].sample(5)

output

我们用了|来表示“或”的意思，将电影类别包含“horror”或者是“stand-up”这两类的电影筛选出来

除此之外，我们还可以这么来做

mask1 = df['listed_in'].str.contains("horror", case=False)
mask2 = df['listed_in'].str.contains("stand-up", case=False)
df[mask1 | mask2].sample(5)

出来的结果和上述一样，只不过过程可能稍加繁琐，除了|表示的是“或”之外，也有表示的是和，也就是&标识符，意味着条件全部都需要满足即可，例如

mask1 = (df['listed_in'].str.contains('horror', case=False, na=False))
mask2 = (df['type'].isin(['TV Show']))
df[mask1 & mask2].head(3)

output

我们可以添加多个条件在其中，多个条件同时满足，例如

mask1 = df['rating'].str.contains('tv', case=False, na=False)
mask2 = df['listed_in'].str.contains('tv', case=False, na=False)
mask3 = df['type'].str.contains('tv', case=False, na=False)
df[mask1 & mask2 & mask3].head()

output

正则表达式在pandas筛选数据中的应用

我们同时也可以将正则表达式应用在如下的数据筛选当中，例如str.contains('str1.*str2')代表的是文本数据是否以上面的顺序呈现，

pattern = 'states.*mexico' mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()

output

其中.*在正则表达式当中表示匹配除换行符之外的所有字符，我们需要筛选出来包含states以及mexico结尾的文本数据，我们再来看下面的例子

pattern = 'states.*mexico|mexico.*states' mask = data['country'].str.contains(pattern, case=False, na=False)
data[mask].head()

output

我们筛选出来的文本数据满足两个条件当中的一个即可

lambda方法来筛选文本数据中的应用

有一些筛选数据的方式可能稍显复杂，因此需要lambda方法的介入，例如

cols_to_check = ['rating','listed_in','type']
pattern = 'tv' mask = data[cols_to_check].apply(
        lambda col:col.str.contains(
        pattern, na=False, case=False)).all(axis=1)

我们需要在rating、listed_in以及type这三列当中筛选出包含tv的数据，我们来看一下结果如何

df[mask].head()

output

我们再来看下面的这个例子，

mask = df.apply(
    lambda x: str(x['director']) in str(x['cast']), 
    axis=1)

上面的例子当中是来查看director这一列是否被包含在了cast这一列当中，结果如下

df[mask].head()

output

filter方法

我们还可以通过filter方法来筛选文本的数据，例如筛选出列名包含in的数据，代码如下

df.filter(like='in', axis=1).head(5)

output

当然我们也可以用.loc方法来实现，代码如下

df.loc[:, df.columns.str.contains('in')]

出来的结果和上述的一样

要是我们将axis改成0，就意味着是针对行方向的，例如筛选出行索引中包含Love的影片，代码如下

df_1 = df.set_index('title')
df_1.filter(like='Love', axis=0).head(5)

output

当然我们也可以通过.loc方法来实现，代码如下

df_1.loc[df_1.index.str.contains('Love'), :].head()

筛选文本数据的其他方法

我们可以使用query方法，例如我们筛选出国家是韩国的影片

df.query('country == "South Korea"').head(5)

output

例如筛选出影片的添加时间是11月的，代码如下

mask = df["date_added"].str.startswith("Nov")
df[mask].head()

output

那既然用到了startswith方法，那么就会有endswith方法，例如

df['col_name'].str.endswith('2019')

除此之外还有这些方法可以用来筛选文本数据

df['col_name'].str.len()>10
df['col_name'].str.isnumeric()
df[col_name].str.isupper()
df[col_name].str.islower()

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

正则表达式 pandas 缺失值索引数据筛选 DataFrame 数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何做到释放数据价值？看完本文你就懂了（CDA成长陪伴计划）

下一篇12天快速入门高薪算法岗，CDA寒假集训营席位已开抢！

3000字详解Pandas数据查询，建议收藏（CDA干货分享）

导入数据集和模块

根据文本内容来筛选

根据关键字来筛选

根据多个关键字来筛选

正则表达式在pandas筛选数据中的应用

lambda方法来筛选文本数据中的应用

filter方法

筛选文本数据的其他方法

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介