请教下pandas如何根据两列的判断条件生成新的列？-CDA数据分析师官网

请教下pandas如何根据两列的判断条件生成新的列？

2023-05-30

Pandas是Python中最流行的数据分析工具之一，它提供了高效、灵活和易于使用的数据结构和操作函数。其中一个重要的功能就是可以根据多个列的判断条件生成新的列，本文将介绍如何在pandas中实现这种操作。

什么是条件生成新列？

首先，让我们来看一下什么是条件生成新列。在数据分析中，我们经常需要根据某些条件对数据进行分类或标记。例如，在一个销售订单数据集中，我们可能需要根据订单金额和支付状态生成一个新的列，用于标记该订单是否已被支付。在这种情况下，我们需要使用两个列的值来决定新列的值。

在pandas中，我们可以通过使用apply()函数和lambda表达式来实现这种功能。下面是一个简单的示例，演示了如何在pandas中将两个列的值相加，并将结果存储在一个新列中：

import pandas as pd

# 创建一个包含两个列的DataFrame
data = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df = pd.DataFrame(data)

# 使用apply()函数和lambda表达式将两个列相加，并将结果存储在一个新列中
df['new_col'] = df.apply(lambda x: x['col1'] + x['col2'], axis=1)

# 打印DataFrame
print(df)

输出结果：

   col1  col2  new_col
0     1     4        5
1     2     5        7
2     3     6        9

在这个示例中，我们创建了一个包含两个列的DataFrame，并使用apply()函数和lambda表达式将这两列相加，并将结果存储在一个新列中。lambda表达式接受一个参数x，该参数是一个Series对象，包含DataFrame中一行的所有值。通过指定axis=1参数，我们可以确保apply()函数对每行应用lambda表达式。

如何根据条件生成新列？

现在让我们来看一下如何在pandas中根据条件生成新列。假设我们有一个包含订单数据的DataFrame，其中包含以下几列：订单编号、订单日期、订单金额和支付状态。我们想要根据订单金额和支付状态生成一个新列，用于标记每个订单是否已经完成。

首先，我们需要定义一个函数，该函数接受一个Row对象作为参数，并返回一个字符串，表示订单的状态。具体而言，在我们的示例中，如果订单金额大于等于100并且支付状态为“paid”，则订单状态为“completed”；否则订单状态为“incomplete”。下面是实现这个功能的代码：

def get_order_status(row):
    if row['order_amount'] >= 100 and row['payment_status'] == 'paid':
        return 'completed'
    else:
        return 'incomplete'

接下来，我们使用apply()函数和lambda表达式将该函数应用于每个DataFrame行，并将结果存储在一个新列中。下面是完整的示例代码：

import pandas as pd

# 创建一个包含订单数据的DataFrame
data = {'order_no': [1, 2, 3], 'order_date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'order_amount': [50, 150, 200], 'payment_status': ['unpaid', 'paid', 'paid']}
df = pd.DataFrame(data)

# 定义一个函数，根据条件返回订单状态
def get_order_status(row):
    if row['order_amount'] >= 100 and row['payment_status'] == 'paid':
        return 'completed'
    else:
        return 'incomplete'

# 使用apply()函数和lambda表达式生成新列
df['order_status'] = df.apply(lambda x: get_order_status(x), axis=1)

# 打

印DataFrame print(df)


输出结果：

order_no order_date order_amount payment_status order_status 0 1 2022-01-01 50 unpaid incomplete 1 2 2022-01-02 150 paid completed 2 3 2022-01-03 200 paid completed


在这个示例中，我们首先创建了一个包含订单数据的DataFrame，并定义了一个函数`get_order_status()`，用于根据条件返回订单状态。然后，我们使用`apply()`函数和lambda表达式将该函数应用于每个DataFrame行，并将结果存储在一个新列中。

需要注意的是，在本例中，我们使用了一些简单的条件来判断订单状态。如果你需要处理更复杂的条件，可能需要使用更多的逻辑和操作符。此外，还可以使用pandas提供的其他函数和方法来实现条件生成新列的功能，例如`where()`、`mask()`和`numpy.where()`等。

## 总结

通过本文，我们了解了如何在pandas中根据两列的判断条件生成新的列。我们学习了如何使用`apply()`函数和lambda表达式来实现这种功能，以及如何定义一个自定义函数来处理更复杂的条件。这些技术可以帮助我们更有效地处理和分析数据，并为数据分析和可视化提供更多的灵活性和控制性。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

DataFrame pandas 数据分析 Series numpy 数据结构

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇spss分析时相关分析无关系但回归分析有负影响，怎么办。？

下一篇如何配置 MySQL 启动多个互不冲突的独立实例？

请教下pandas如何根据两列的判断条件生成新的列？

什么是条件生成新列？

如何根据条件生成新列？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...