如何根据 Pandas 中的列值过滤 DataFrame 行?-CDA数据分析师官网

如何根据 Pandas 中的列值过滤 DataFrame 行?

2023-06-02

Pandas 是一个流行的 Python 数据分析库，它提供了一系列方便的工具，可以用来操作和处理数据。在 Pandas 中，DataFrame 是最主要的数据结构之一，它可以看作是一种二维数据表格，其中每个列代表一种变量，而每行则代表一个样本或观察值。在实际数据分析中，我们经常需要按照某些条件过滤 DataFrame 中的行，以便得到符合特定需求的子集。本文将介绍如何根据 Pandas 中的列值过滤 DataFrame 行。

1. 筛选单个列的值

假设我们有一个包含多个列的 DataFrame，现在想要根据其中某一列的值进行筛选，该怎么做呢？这时候就需要使用 Pandas 的布尔索引功能。具体来说，我们可以通过在 DataFrame 中使用与、或、非等逻辑运算符将多个比较项组合起来，从而生成一个布尔型 Series，然后使用这个 Series 来选择 DataFrame 中对应的行。下面是一个简单的例子：

import pandas as pd # 创建 DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']
}) # 根据 age 列的值筛选行 df_filtered = df[df['age'] > 30] print(df_filtered)

运行上述代码，可以得到如下输出：

name  age gender
2  Charlie   35      M
3    David   40      M

这里我们通过在 DataFrame 中使用df['age'] > 30来生成一个布尔型 Series，并将其作为索引来选择符合条件的行。需要注意的是，这里的>符号只能用于比较数值类型的列，如果要比较其他类型的列，需要使用其他适当的比较符号。

除了大于号之外，还有很多其他的比较符号可以用于筛选单个列的值，例如等于、不等于、小于等。具体来说，常用的比较符号如下：

==：等于
!=：不等于
<：小于
>：大于
<=：小于等于
>=：大于等于

2. 筛选多个列的值

上面的例子中我们只筛选了一个列的值，那如果想要筛选多个列的值呢？这时候就需要使用 Pandas 的 loc 或 iloc 属性，结合布尔索引功能来实现。具体来说，loc 属性用于按标签（即列名）访问数据，而 iloc 属性则用于按位置访问数据。下面是一个示例：

import pandas as pd # 创建 DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']
}) # 根据 age 和 gender 列的值筛选行 df_filtered = df.loc[(df['age'] > 30) & (df['gender'] == 'M')] print(df_filtered)

运行上述代码，可以得到如下输出：

name  age gender
3  David   40      M

这里我们使用 loc 属性按列名访问了 DataFrame 中的 age 和 gender 列，并将其用于生成布尔型 Series。然后我们使用与逻辑符&将两个比较项组合起来，并将结果传递给 loc 或 iloc 属性来选择符合条件的行。

需要注意的是，如果要同时筛选多个列

的值，需要使用圆括号将不同列的比较项括起来，并使用逻辑运算符进行组合。为了让代码更加清晰易读，推荐在每个比较项之间添加换行符或缩进。

3. 使用 isin() 方法筛选值

除了使用比较运算符来筛选 DataFrame 的行之外，还可以使用 Pandas 提供的 isin() 方法。该方法可以用于检查 DataFrame 中某一列中的值是否包含在指定的列表中，返回一个布尔型 Series。下面是一个示例：

import pandas as pd # 创建 DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']
}) # 根据 gender 列的值筛选行 df_filtered = df[df['gender'].isin(['F', 'M'])] print(df_filtered)

运行上述代码，可以得到如下输出：

name  age gender
0    Alice   25      F
1      Bob   30      M
2  Charlie   35      M
3    David   40      M

这里我们使用 isin() 方法检查 DataFrame 中的 gender 列中的值是否包含在列表['F', 'M']中，并将结果传递给布尔索引功能来选择符合条件的行。需要注意的是，isin() 方法接受一个包含要匹配值的列表作为参数，可以同时匹配多个值。

4. 使用 query() 方法筛选行

除了上述方法之外，Pandas 还提供了一个 query() 方法，可以让我们使用类似 SQL 的语法来筛选 DataFrame 中的行。具体来说，该方法接受一个字符串表达式，其中包含列名、比较符号和逻辑运算符等操作，返回一个 DataFrame 子集。下面是一个示例：

import pandas as pd # 创建 DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [25, 30, 35, 40], 'gender': ['F', 'M', 'M', 'M']
}) # 根据 age 和 gender 列的值筛选行 df_filtered = df.query('age > 30 and gender == "M"') print(df_filtered)

运行上述代码，可以得到如下输出：

name  age gender
3  David   40      M

这里我们使用 query() 方法将条件表达式'age > 30 and gender == "M"'传递给 DataFrame，用于筛选行。需要注意的是，在查询表达式中，列名需要用引号括起来，而字符串或数字则不需要。

总之，Pandas 提供了多种方法来根据列值过滤 DataFrame 的行。在实际数据分析中，需要根据具体需求选择最合适的方法，以便高效地处理大规模数据集。

想快速入门Python数据分析？这门课程适合你！

如果你对Python数据分析感兴趣，但不知从何入手，推荐你学习《山有木兮：Python数据分析极简入门》。这门课程专为初学者设计，内容简洁易懂，手把手教你掌握Python数据分析的核心技能，助你轻松迈出数据分析的第一步。

学习入口：https://edu.cda.cn/goods/show/3429?targetId=5724&preview=0
开启你的Python数据分析之旅，从入门到精通，只需一步！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

DataFrame 数据分析 Series pandas 索引数据结构 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇tableau如何实现点击后跳转到当前点击的部分信息的详细列表？

下一篇PHP 连接数据库什么情况下才会用到持久链接 mysql_pconnect() ？

如何根据 Pandas 中的列值过滤 DataFrame 行?

1. 筛选单个列的值

2. 筛选多个列的值

3. 使用 isin() 方法筛选值

4. 使用 query() 方法筛选行

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...