全文2500字，详解Pandas与Lambda结合进行高效数据分析

2021-12-22

作者：俊欣

来源：关于数据分析与可视化

今天小编打算稍微中规中矩一些，写一篇技术类的干货文章。

这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用，熟练掌握可以极大地提高数据分析与挖掘的效率

导入模块与读取数据

我们第一步需要导入模块以及数据集

import pandas as pd

df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()

创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列，例如

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的，那么lambda方法就很多必要被运用到了，我们先来定义一个函数方法

def custom_rating(genre,rating): if 'Thriller' in genre: return min(10,rating+1) elif 'Comedy' in genre: return max(0,rating-1) elif 'Drama' in genre: return max(5, rating-1) else: return rating

我们对于不同类别的电影采用了不同方式的评分方法，例如对于“惊悚片”，评分的方法则是在“原来的评分+1”和10分当中取一个最小的，而对于“喜剧”类别的电影，则是在0分和“原来的评分-1”当中取一个最大的，然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)

我们这里需要说明一下axis参数的作用，其中axis=1代表跨列而axis=0代表跨行，如下图所示

筛选数据

在pandas当中筛选数据相对来说比较容易，可以用到& | ~这些操作符，代码如下

# 单个条件，评分大于5分的 df_gt_5 = df[df['Rating']>5] # 多个条件: AND - 同时满足评分高于5分并且投票大于100000的 And_df = df[(df['Rating']>5) & (df['Votes']>100000)] # 多个条件: OR - 满足评分高于5分或者投票大于100000的 Or_df = df[(df['Rating']>5) | (df['Votes']>100000)] # 多个条件：NOT - 将满足评分高于5分或者投票大于100000的数据排除掉 Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]

这些都是非常简单并且是常见的例子，但是要是我们想要筛选出电影的影名长度大于5的部分，要是也采用上面的方式就会报错

df[len(df['Title'].split(" "))>=5]

output

AttributeError: 'Series' object has no attribute 'split'

这里我们还是采用apply和lambda相结合，来实现上面的功能

#创建一个新的列来存储每一影片名的长度 df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1) #筛选出影片名长度大于5的部分 new_df = df[df['num_words_title']>=5]

当然要是大家觉得上面的方法有点繁琐的话，也可以一步到位

new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]

例如我们想要筛选出那些影片的票房低于当年平均水平的数据，可以这么来做。

我们先要对每年票房的的平均值做一个归总，代码如下

year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况，返回的是布尔值

def bool_provider(revenue, year): return revenue
 然后我们通过结合apply方法和lambda方法应用到数据集当中去 
						

new_df = df[df.apply(lambda x : bool_provider(x['Revenue(Millions)'],
                                              x['Year']),axis=1)]
 我们筛选数据的时候，主要是用.loc方法，它同时也可以和lambda方法联用，例如我们想要筛选出评分在5-8分之间的电影以及它们的票房，代码如下 
					
df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]] 

	转变指定列的数据类型
				
 通常我们转变指定列的数据类型，都是调用astype方法来实现的，例如我们将“Price”这一列的数据类型转变成整型的数据，代码如下 
					
df['Price'].astype('int')
 会出现如下所示的报错信息 
				
ValueError: invalid literal for int() with base 10: '12,000' 
 因此当出现类似“12,000”的数据的时候，调用astype方法实现数据类型转换就会报错，因此我们还需要将到apply和lambda结合进行数据的清洗，代码如下 
					
df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)

	方法调用过程的可视化
						
 有时候我们在处理数据集比较大的时候，调用函数方法需要比较长的时间，这个时候就需要有一个要是有一个进度条，时时刻刻向我们展示数据处理的进度，就会直观很多了。 
							
 这里用到的是tqdm模块，我们将其导入进来 
						
from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()
 然后将apply方法替换成progress_apply即可，代码如下 
							
df["CustomRating"] = df.progress_apply(lambda x: custom_rating(x['Genre'],x['Rating']),axis=1)
 output 
						
  
							

	当lambda方法遇到if-else
								
 当然我们也可以将if-else运用在lambda自定义函数当中，代码如下 
									
Bigger = lambda x, y : x if(x > y) else y
Bigger(2, 10)
 output 
								
10 
 当然很多时候我们可能有多组if-else，这样写起来就有点麻烦了，代码如下 
									
df['Rating'].apply(lambda x:"低分电影" if x < 3 else ("中等电影" if x>=3 and x < 5 else("高分电影" if x>=8 else "值得观看")))
 看上去稍微有点凌乱了，这个时候，小编这里到还是推荐大家自定义函数，然后通过apply和lambda方法搭配使用

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

python pandas 数据类型数据分析数据处理 Series DataFrame

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇干货 | 数据分析实战案例——用户行为预测

下一篇多图预警！2021年最惊艳的数据可视化作品都在这儿了

全文2500字，详解Pandas与Lambda结合进行高效数据分析

导入模块与读取数据

创建新的列

筛选数据

转变指定列的数据类型

方法调用过程的可视化

当lambda方法遇到if-else

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...