作者:俊欣
来源:关于数据分析与可视化
相信大家都用在Excel当中使用过数据透视表(一种可以对数据动态排布并且分类汇总的表格格式),也体验过它的强大功能,在Pandas模块当中被称作是pivot_table,今天小编就和大家来详细聊聊该函数的主要用途。
那我们第一步仍然是导入模块并且来读取数据,数据集是北美咖啡的销售数据,包括了咖啡的品种、销售的地区、销售的利润和成本、销量以及日期等等
import pandas as pd def load_data(): return pd.read_csv('coffee_sales.csv', parse_dates=['order_date'])
那小编这里将读取数据封装成了一个自定义的函数,读者也可以根据自己的习惯来进行数据的读取
df = load_data() df.head()
output
通过调用info()函数先来对数据集有一个大致的了解
df.info()
output
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4248 entries, 0 to 4247 Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 order_date 4248 non-null datetime64[ns] 1 market 4248 non-null object 2 region 4248 non-null object 3 product_category 4248 non-null object 4 product 4248 non-null object 5 cost 4248 non-null int64 6 inventory 4248 non-null int64 7 net_profit 4248 non-null int64 8 sales 4248 non-null int64
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 298.8+ KB
在pivot_table函数当中最重要的四个参数分别是index、values、columns以及aggfunc,其中每个数据透视表都必须要有一个index,例如我们想看每个地区咖啡的销售数据,就将“region”设置为index
df.pivot_table(index='region')
output
当然我们还可以更加细致一点,查看每个地区中不同咖啡种类的销售数据,因此在索引中我们引用“region”以及“product_category”两个,代码如下
df.pivot_table(index=['region', 'product_category'])
output
上面的案例当中,我们以地区“region”为索引看到了各项销售指标,当中有成本、库存、净利润以及销量这个4个指标的数据,那要是我们想要单独拎出某一个指标来看的话,代码如下所示
df.pivot_table(index=['region'], values=['sales'])
output
这也就是我们上面提到的values,在上面的案例当中我们就单独拎出了“销量”这一指标,又或者我们想要看一下净利润,代码如下
df.pivot_table(index=['region'], values=['net_profit'])
output
另外我们也提到了aggfunc,可以设置我们对数据聚合时进行的函数操作,通常情况下,默认的都是求平均数,这里我们也可以指定例如去计算总数,
df.pivot_table(index=['region'], values=['sales'], aggfunc='sum')
output
或者我们也可以这么来写
df.pivot_table(index=['region'], values=['sales'], aggfunc={ 'sales': 'sum' })
当然我们要是觉得只有一个聚合函数可能还不够,我们可以多来添加几个
df.pivot_table(index=['region'], values=['sales'], aggfunc=['sum', 'count'])
output
剩下最后的一个关键参数columns类似于之前提到的index用来设置列层次的字段,当然它并不是一个必要的参数,例如
df.pivot_table(index=['region'], values=['sales'], aggfunc='sum', columns=['product_category'])
output
在“列”方向上表示每种咖啡在每个地区的销量总和,要是我们不调用columns参数,而是统一作为index索引的话,代码如下
df.pivot_table(index=['region', 'product_category'], values=['sales'], aggfunc='sum')
output
同时我们看到当中存在着一些缺失值,我们可以选择将这些缺失值替换掉
df.pivot_table(index=['region', 'product_category'], values=['sales'], aggfunc='sum')
output
我们再来做几组练习,我们除了想要知道销量之外还想知道各个品种的咖啡在每个地区的成本如何,我们在values当中添加“cost”的字段,代码如下
df.pivot_table(index=['region'], values=['sales', 'cost'], aggfunc='sum', columns=['product_category'], fill_value=0)
output
同时我们还能够计算出总量,通过调用margin这个参数
df.pivot_table(index=['region', 'product_category'], values=['sales', 'cost'], aggfunc='sum', fill_value=0, margins=True)
output
最后的最后,我们调用pivot_table函数来制作一个2010年度咖啡销售的销量年报,代码如下
month_gp = pd.Grouper(key='order_date',freq='M')
cond = df["order_date"].dt.year == 2010 df[cond].pivot_table(index=['region','product_category'],
columns=[month_gp], values=['sales'],
aggfunc=['sum'])
output
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19