R语言：ggplot2精细化绘图—以实用商业化图表绘图为例(二)-CDA数据分析师官网

热线电话：13121318867

R语言：ggplot2精细化绘图—以实用商业化图表绘图为例(二)

2017-01-12

R语言：ggplot2精细化绘图—以实用商业化图表绘图为例(二)

随你所欲地汇总(group_by & summarize) 甚至再拆分 (spread)，譬如示例里面就是把成交记录按照成交价格和BuySell拆分
data #刚刚演示的那些数据,在预测者网可以下载
data %>% group_by(Price,BuySell) %>% summarize(Money=sum(Money,na.rm=TRUE)) %>% spread(BuySell,Money)
Alt text

要想做好ggplot2的图，对数据快速进行塑形的方法是我们必须要掌握的。上面的s wirl课程非常有用，而且值得是最新的一个技术方法，值得大家学习。

3、常用的商业用图

接下来分享一下我在这次作图过程中，最常用的几个图形的代码。首先声明，这些图形的进一步做法以及变形，基本都可以在这两本参考书籍里(R可视化技术 | ggplot2:数据分析与图表技术 )找到。我这里更多的摘取一些我比较常用的图表进行讲解

1、简单柱形图+文本（单一变量）
2、分面柱形图（facet_wrap/facet_grid)
3、簇型柱形图(position=”dodge”)
4、堆积柱形图(需要先添加百分比，再对百分比的变量做柱形图)
5、饼图、极坐标图
6、多重线性图

在作图之前，首先讲一下ggplot2的局限。

ggplot2最大的局限是，它基本不支持双坐标图和饼图。即使能做这些图形，也要很多设置，做起来非常繁琐。
按我个人理解，这个局限的根源与ggplot2开发者Hadley本身的审美习惯以及分析习惯脱不了关系。具体请看他在stackoverflow的这一段问答：

It’s not possible in ggplot2 because I believe plots with separate y scales (not y-scales that are transformations of each other) are fundamentally flawed.

大神有技术就能任性。即使一堆人在他那回复下面各种求双坐标。。不知道Hadley现在有没有改变主意，把双坐标列为ggplot2的下一个更新点。但是如果你想画双坐标图或者饼图，至少经个人的实践，这些都是比较困难的，设置繁琐而且不美观。要么选择用excel完成，要么听大神的话，用分面图(facet)或者柱形图代替，会更加省事一些。

所以，在了解以下常用图形前，我们需要记住，ggplot2不是万能的，它虽然能做出非常美观的图表，但是总有一些图不能做，因此多个工具结合使用是非常必要的。

在知道以上前提下，我们以ggplot2自带的diamonds数据集为基础，结合dplyr/tidyr的应用，介绍一下常用图形的画法。

然后来讲一下除了双坐标图和饼图以外，ggplot2可以支持的常用图形的画法。数据的话，我们使用ggplot2自带的数据包diamonds

首先定义一下

mytitle="演示：以diamond为例"
1）简单柱形图

代码组成如下，这里使用格式刷mybar和mytheme，然后用geom_text添加柱形图标签(vjust=1表示在柱形图里面显示)

data1<-diamonds %>% group_by(cut) %>% summarize(avg_price=mean(price))
柱形图<-ggplot(data1,aes(x=cut,y=avg_price,fill=as.factor(cut)))+
        mytitle+mybar+mytheme+
        geom_text(aes(label=round(avg_price)),vjust=1,colour="white")
2）带分类的柱形图

举个例子来说，在有时候，我们想要快速绘图。使用facet_wrap或者facet_grid可以快速绘制相应图形。这也是ggplot2不太支持双坐标的原因：可以快速绘图，就不需要做那么多无用功了。

代码如下：

复制代码
#dplyr处理数据
data2<-diamonds %>% group_by(cut,color) %>% summarize(avg_price=mean(price))
#画图，套用设定好的绘图元素
ggplot(data2,aes(x=color,y=avg_price))+facet_wrap(~cut,ncol = 2)+
        mytitle+mybar+mytheme
#在facet_wrap里面，如果加上scales="free"的话，坐标就不一样了。
复制代码
3）簇型图
制图要点是，对数据作图后，添加geom_bar时，position=”dodge”（分开的）如果去掉这部分，默认是生成堆积图.

代码如下：

复制代码
data3<-diamonds %>% filter(cut %in% c("Fair","Very Good","Ideal")) %>%
        group_by(cut,color) %>% summarize(avg_price=mean(price))
#簇状图
簇状柱形图<-ggplot(data3,aes(x=color,y=avg_price,fill=cut))+
        geom_bar(stat="identity",position="dodge")+
        mytheme+mytitle+mycolour_3
簇状柱形图
复制代码
这里如果想要定义颜色的相应顺序的话，可以使用factor

譬如以下,只是用这行代码对颜色重新定义一下，用levels改变factor顺序，再画图的时候，颜色以及柱子顺序就会跟着改变了。非常方便。

data3$cut<-factor(data3$cut,levels=c("Very Good","Ideal","Fair"))

4）百分比堆积图
制图前要事先添加一个百分比的数据之后才好作图，这里我们用mutate(percent=n/sum(n))添加该百分比数据。同时去掉position=”dodge”

复制代码
data4<-diamonds %>% filter(cut %in% c("Fair","Very Good","Ideal")) %>%
         count(color,cut) %>%
        mutate(percent=n/sum(n))
堆积图<-ggplot(data4,aes(x=color,y=percent,fill=cut))+mytitle+
        geom_bar(stat="identity")+mytheme+mytitle+mycolour_3
堆积图
复制代码
当然，也可以做面积图。不过如果数据有缺失，面积图出错几率蛮大的

5）饼图以及极坐标图

参考一下这篇文章《【R】初吻R–ggplot绘制Pie Chart饼图》以及这篇文章使用ggplot2画图
在ggplot2里并没有直接画饼图的方法，基本上都是先画出柱形图，再用coord_polar转化为饼图

有两种作图方法：
1）不指定x轴，直接用geom_bar生成y轴，然后fill=分类颜色，coord_polar直接投影y
该方法的好处代码是比较简单（coord_polar(“y”)
加标签方法请见： http://stackoverflow.com/questions/8952077/pie-plot-getting-its-text-on-top-of-each-other#

data5<-diamonds %>% count(cut) %>%
        mutate(percent=n/sum(n))
ggplot(data5,aes(x=factor(1),y=percent,fill=cut))+geom_bar(stat="identity",width=3)+mycolour_7+
        coord_polar("y")+pie_theme+mytitle
2）指定x轴，x轴同时也是颜色(fill)，先画柱形图，再转化为圆形。坏处是公式相对比较繁琐一些。

ggplot(data5,aes(x=cut,y=percent,fill=cut))+
        geom_bar(stat="identity",width=3)+
        mycolour_7+coord_polar("x")+pie_theme+mytitle

但是我尝试了多次，在饼图里加标签方法非常难以理解。。如果要饼图加标签的话，或许还不如柱形图

附上分面柱形图画法：

data5_1<-data5 %>% filter(color %in% c("D","E","F","G"))
ggplot(data5_1,aes(x=factor(1),y=percent,fill=cut))+geom_bar(stat="identity",width=3)+mycolour_7+
        coord_polar("y")+pie_theme+facet_wrap(~color,ncol = 4)+
        theme(legend.position="bottom")+mytitle

6、折线图

除了以上柱形图以外，折线图我们做的也比较多。
简单的折线图直接做就好了
然后像下图这样的

要点是，先做成如A-B-变量这样的二联表，然后，x轴为A，group为b,colour为b
下面代码展示了这个处理
如果去掉group的话，折线图会不知道怎么去处理数字。

data6<-diamonds %>% count(color,cut) %>% filter(color %in% c("D","E","F"))%>%
        mutate(percent=n/sum(n))
ggplot(data6,aes(x=cut,y=n,group=color,colour=color))+geom_line(size=1.5)+mypoint+
        mycolour_line_7+mytheme+mytitle

还有一些其他有用的图形

总之，ggplot2的语法还是比较独特的，而且其实处处有坑，处处有惊喜。如果作为商业绘图的话，需要一点一点地去探索去改变，保证风格和细节完美无缺。
不过ggplot2绘图有个好处是，一旦整理出常用的绘图代码，以后就可以无限次套用，尤其是那些格式刷，事先设定好的主题等。即ggplot2绘图，是完全可以做到越绘越快，再开发成本低廉的。

另外补充说明的是，ggplot2绘图，个人更看好其多种映射，以及在探索性数据分析里快捷绘图的能力，还有跟地图啊等结合的能力。还有动态交互等等。
譬如现在比较流行的R/Python与动态网页（大部分是D3）的结合示例1,示例2
但愿各位不要将绘图局限于上述所选的一些最常用的图形与格式化调整里。请容我吐槽一句，这样子调风格学习真的很苦(づ￣ ~~￣|||)づ