来源:早起Python
作者:刘早起
本文将基于东京奥运会奖牌榜数据,使用 pandas 进行数据分析可视化实战(文末可以下载数据与源码)
首先是奥运会奖牌数据的获取,虽然有很多接口提供数据,但是通过奥运会官网拿到的数据自然是最可靠的
通过对东京奥运会官网奖牌榜的页面分析,发现其表格在前端是通过 嵌入的,所以可以使用 pandas.read_html() 轻松读取
之后再读取本地分日奖牌数据并将国家ID进行匹配
注意到上面的 df1 列名并没有完整,所以可以使用 rename 函数修改指定列的名称
既然 df2 有时间列,为了方便后面分析,自然要检查一下其类型
可以看到,获奖时间列虽然没有缺失值但其并不是pandas支持的时间类型。
好在修改列属性并不是什么困难的事情,一行代码轻松搞定(7-12)
通过观察可以发现,df2并没有 国家名称 列,但是其与 df1 有一个共同列 国家id
为了给 df2 新增一列 国家名称 列,一个自然的想法就是通过 国家id 列将两个数据框进行合并,在 pandas 中实现,也不是什么困难的事情
现在 df2 就调整的差不多了(由于源数据问题,部分获奖时间与真实时间有一定误差),下面开始进行分析
下面对 df2 进行一些统计分析,计算每个国家的奖牌总数(也就是出现次数),并查看奖牌数前5名,结果可以用 df1 进行验证
看完国家奖牌排行,接下来计算获得奖牌最多的运动员(注意:仅统计单人项目)
这里无需使用分组功能,只需要按照运动员姓名列进行频率统计即可。
下面筛选出全部乒乓球的获奖信息,这里的筛选有多种写法,你能写出几种?
现在查看各国在各项目上的奖牌详情,下面是通过透视得到的答案,但你会使用使用数据分组功能吗?
在上一题的基础上,查询中国队的获奖牌详情,注意是查询而不是筛选,所以使用上上一题的方法将会报错
如何将上一题的结果进一步突出展示,可以使用 pandas 中的 style
上面说到,df2 的获奖时间部分并不准确(主要体现在小时上),所以我们干脆将时间精确到天,这里可以使用 map 对一整列进行操作
接下来,让我们统计每天产生的奖牌总数
可以看到,最后一天产生的奖牌数量最多
再来查看不同项目在不同国家的分布情况,同样也可以使用分组功能实现
接下来让我们计算中国每日总奖牌数量,你能想到该如何实现吗?
最后,计算前十名各国每日奖牌数量统计,注意:对于第一天没有数据的国家用0填充,其余时间的缺失值用上一日数据填充。
这看似简单的问题,涉及的 pandas 操作还真不少!
首先制作奖牌排行榜
上图使用 matplotlib 制作,看起来不错,但代码量也确实不少
接下来使用 pyecharts 绘制上一题奖牌榜各奖牌的细分
使用 pyecharts 的好处就是使用封装好的方法,代码量相对较少
现在进一步绘制中国队的奖牌分布
同样使用 pyecharts ,实际行代码搞定
现在绘制奖牌分布的热力地图
使用 pyecharts 绘制,绘图代码不多,但是调整国家中英文映射字典是一件痛苦的事情
最后绘制每日奖牌榜前十奖牌数量的动态图,使用 matplotlib 或 pyecharts 均得不到较好的效果,所以这里使用另一个第三方库 bar_chart_race 进行绘制
以上就是基于 2020年东京奥运会 数据进行的一系列数据分析可视化流程,基本涉及到利用 Pandas 进行数据分析的主要操作,是一份不可多得的简单易懂、利于探索的数据集。
df1 = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]
df2 = pd.read_csv("东京奥运会奖牌分日数据.csv")
修改列名
df1.rename(columns={'Unnamed: 2':'金牌数', 'Unnamed: 3':'银牌数', 'Unnamed: 4':'铜牌数'},inplace=True)
数据类型查看与修改
df2.info()
df2['获奖时间'] = pd.to_datetime(df2['获奖时间'])
数据合并
temp = pd.merge(df1,df2,on = '国家id') #先合并 temp['获奖时间'] = pd.to_datetime(temp['获奖时间'])#修改类型 temp = temp.sort_values(by=['获奖时间','奖牌类型'], ascending=True, ignore_index=True)#排序,和df2一样 df2['国家'] = temp['国家奥委会']#赋值
数据分组
数据统计
数据筛选
数据透视
pd.pivot_table(df2,values = ['奖牌类型'],index = ['国家','运动类别'],aggfunc = 'count')
数据查询
result.query("国家 == ['中国']")
个性化查看
(result.query("国家 == ['中国']")
.style
.bar(subset=['奖牌类型'],color='skyblue'))
数据格式化
def time_format(x): return x.strftime("%m月%d日")
df2['获奖时间'] = df2['获奖时间'].map(time_format)
分组统计
df2.groupby("获奖时间")['国家'].count().sort_values()
数据透视
pd.pivot_table(df2,values = ['奖牌类型'],index = ['运动类别','国家'],aggfunc = 'count')
数据计算
pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间','国家'],aggfunc = 'count').query("国家 == ['中国']").cumsum()
数据计算
data = pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间','国家'],aggfunc = 'count').query("国家 == ['美国', '中国', '日本', '英国', 'ROC', '澳大利亚', '荷兰', '法国', '德国', '意大利']") data = data.unstack() data.columns = data.columns.get_level_values(1) data.columns.name = None data = data.cumsum() data = data.fillna(axis=0,method='ffill').fillna(0) data
条形图
堆叠图
环形图
地图
动态图
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30