如何用python做出超炫酷图表？-CDA数据分析师官网

如何用python做出超炫酷图表？

2019-02-14

CDA数据分析研究院原创作品，转载需授权

小编总是被那些玩转数据、利用数据做出超炫酷图表的大佬深深折服，膝盖都不够给他们。进行数据可视化做出超炫图表的软件有很多，今天小编也用数据分析常用的python来演示一下如何做出精彩的数据可视化呈现。

导入相关的库和加载数据

import numpy as np

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

from datetime import date, timedelta, datetime

设置路径和加载数据

小编使用的是一个记录美国1908年到2009年飞机出事和死亡乘客记录的数据。

import os

os.chdir(r'D:\data\air_data')

Data=pd.read_csv('airplane.csv')

查看各列有没有缺失值：

Data.isnull().sum()

对缺失数据进行清洗：

Data['Time'] = Data['Time'].replace(np.nan, '00:00')

Data['Time'] = Data['Time'].str.replace('c: ', '')

Data['Time'] = Data['Time'].str.replace('c:', '')

Data['Time'] = Data['Time'].str.replace('c', '')

Data['Time'] = Data['Time'].str.replace('12\'20', '12:20')

Data['Time'] = Data['Time'].str.replace('18.40', '18:40')

Data['Time'] = Data['Time'].str.replace('0943', '09:43')

Data['Time'] = Data['Time'].str.replace('22\'08', '22:08')

Data['Time'] = Data['Time'].str.replace('114:20', '00:00')

Data['Time'] = Data['Date'] + ' ' + Data['Time']

return datetime.strptime(x, '%m/%d/%Y %H:%M')

Data['Time'] = Data['Time'].apply(todate)

print('Date ranges from ' + str(Data.Time.min()) + ' to ' + str(Data.Time.max()))

Data.Operator = Data.Operator.str.upper()

数据可视化

绘制1908年到2009年飞机出事频数的折线图，大概得出一个趋势变化。

Temp = Data.groupby(Data.Time.dt.year)[['Date']].count()

Temp = Temp.rename(columns={"Date": "Count"})

plt.figure(figsize=(12,6))

plt.style.use('bmh')

plt.plot(Temp.index, 'Count', data=Temp, color='blue', marker = ".", linewidth=1)

plt.xlabel('Year', fontsize=10)

plt.ylabel('Count', fontsize=10)

plt.title('Count of accidents by Year', loc='Center', fontsize=14)

plt.show()

我们把时间再精细化点，观察每月，每个星期，甚至每小时的事故，这次我们不看趋势，看量，绘制条形图。

import matplotlib.pylab as pl

import matplotlib.gridspec as gridspec

gs = gridspec.GridSpec(2, 2)

pl.figure(figsize=(15,10))

plt.style.use('seaborn-muted')

ax = pl.subplot(gs[0, :]) # row 0, col 0

sns.barplot(Data.groupby(Data.Time.dt.month)[['Date']].count().index, 'Date', data=Data.groupby(Data.Time.dt.month)[['Date']].count(), color='lightskyblue', linewidth=2)

plt.xticks(Data.groupby(Data.Time.dt.month)[['Date']].count().index, ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])

plt.xlabel('Month', fontsize=10)

plt.ylabel('Count', fontsize=10)

plt.title('Count of accidents by Month', loc='Center', fontsize=14)

ax = pl.subplot(gs[1, 0])

sns.barplot(Data.groupby(Data.Time.dt.weekday)[['Date']].count().index, 'Date', data=Data.groupby(Data.Time.dt.weekday)[['Date']].count(), color='lightskyblue', linewidth=2)

plt.xticks(Data.groupby(Data.Time.dt.weekday)[['Date']].count().index, ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'])

plt.xlabel('Day of Week', fontsize=10)

plt.ylabel('Count', fontsize=10)

plt.title('Count of accidents by Day of Week', loc='Center', fontsize=14)

ax = pl.subplot(gs[1, 1])

sns.barplot(Data[Data.Time.dt.hour != 0].groupby(Data.Time.dt.hour)[['Date']].count().index, 'Date', data=Data[Data.Time.dt.hour != 0].groupby(Data.Time.dt.hour)[['Date']].count(),color ='lightskyblue', linewidth=2)

plt.xlabel('Hour', fontsize=10)

plt.ylabel('Count', fontsize=10)

plt.title('Count of accidents by Hour', loc='Center', fontsize=14)

plt.tight_layout()

plt.show()

出事时，每年登机人数与死亡人数的对比图

Fatalities = Data.groupby(Data.Time.dt.year).sum()

Fatalities['Proportion'] = Fatalities['Fatalities'] / Fatalities['Aboard']

plt.figure(figsize=(15,6))

plt.subplot(1, 2, 1)

plt.fill_between(Fatalities.index, 'Aboard', data=Fatalities, color="skyblue", alpha=0.2)

plt.plot(Fatalities.index, 'Aboard', data=Fatalities, marker = ".", color="Slateblue", alpha=0.6, linewidth=1)

plt.fill_between(Fatalities.index, 'Fatalities', data=Fatalities, color="olive", alpha=0.2)

plt.plot(Fatalities.index, 'Fatalities', data=Fatalities, color="olive", marker = ".", alpha=0.6, linewidth=1)

plt.legend(fontsize=10)

plt.xlabel('Year', fontsize=10)

plt.ylabel('Amount of people', fontsize=10)

plt.title('Total number of people involved by Year', loc='Center', fontsize=14)

plt.subplot(1, 2, 2)

plt.plot(Fatalities.index, 'Proportion', data=Fatalities, marker = ".", color = 'red', linewidth=1)

plt.xlabel('Year', fontsize=10)

plt.ylabel('Ratio', fontsize=10)

plt.title('Fatalities / Total Ratio by Year', loc='Center', fontsize=14)

plt.tight_layout()

plt.show()

通过对比图我们可以看到死亡人数变得如此之高(即使在90年代后似乎有下降的趋势)。一些人提出了一个很好的观点，那就是图表并没有显示每年所有航班发生事故的比例。因此，1970-1990年在空中交通信号灯的历史上看起来是可怕的一年，死亡人数上升，但也有可能是乘飞机的总人数上升，而实际上比例下降了。

亲爱的筒子们，想了解更多用python玩转数据、掌握炫酷可视化技能那就赶紧关注CDA数据分析师微信公众号(cdacdacda)吧，点赞、转发、收藏，更多干货内容呈现给你噢。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

matplotlib 数据可视化数据分析 python seaborn numpy 条形图 pandas

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇如何用SPSS进行数据分析？

下一篇科技大佬们对人工智能的看法（一）

如何用python做出超炫酷图表？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...