什么数据库最适合数据分析师-CDA数据分析师官网

什么数据库最适合数据分析师

2016-01-13

数据分析师都想使用数据库作为数据仓库处理并操作数据，那么哪一款数据库最合适分析师呢？虽然网上已经有很多对各种数据库进行比较的文章，但其着眼点一般都是架构、成本、可伸缩性和性能，很少考虑另一个关键因素：分析师在这些数据库上编写查询的难易程度。最近，Mode的首席分析师Benn Stancil发布了一篇文章，从另一个角度阐释了哪一款数据库最适合数据分析师。

Benn Stancil认为数据分析工作不可能一蹴而就，分析师在使用数据库的过程中阻碍他们速度的往往不是宏观上的性能，而是编写查询语句时的细节。例如，在Redshift中如何获取当前时间，是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。在Mode公司，分析师每天都会使用各种不同的语言编写几千个查询，运行在Mode编辑器里的查询超过百万个，而Benn Stancil就是从这些数据出发，对MySQL、PostgreSQL、Redshift、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。

首先，Benn Stancil认为查询错误是否容易解决是衡量数据库的一个最基本指标。数据库提供的错误信息（通常是语法错误、函数名错误、逗号错位等）最能表明该系统是否会对数据分析师造成极大的挫败感。通过对8种数据库查询错误频率的比较，Benn Stancil发现Vertica和SQL Server错误率最高，MySQL和Impala最低，如图所示：

但是，对于该结果Benn Stancil认为可能有点不严谨，因为Impala、MySQL和Hive是开源的免费产品，而Vertica、SQL Server和BigQuery不是，后三者的用户通常是有充足分析预算的大型企业，其较高的错误率很有可能是由于使用更深入而不是语言“更难用”。

除了错误率之外，Benn Stancil还讨论了复杂性。虽然不同语言其查询长度、查询复杂性和语言复杂性之间的关系盘根错节，要界定清楚很难，但可以间接使用查询长度作为度量的指标，因为一门语言之所以简单很有可能是因为它简洁。这八种数据库查询长度的统计结果如下：

如果说单纯地比较最终的长度有失偏颇，那么可以看看随着分析的逐步深入，查询逐渐变复杂的过程中，其修改次数与长度之间的关系：

该图显示，经过20次左右的编辑之后，查询长度通常会变为之前的2倍，而在100次编辑之后，长度会变为之前的3倍。那么在修改的过程中，其编辑次数与出错的比率又是什么样子的呢？

从图中可以看出，PostgreSQL、MySQL和Redshift的错误率较低，Impala、BigQuery和SQL Server的错误率较高。另外，和之前一样，Vertica的错误率依然最高。

此外，Benn Stancil认为分析师的技能也很重要。他对使用多个数据库并且在每个数据库上至少运行了10个查询的分析师进行了统计，计算了这些分析师在每个数据库上的查询错误率，并根据统计结果构建了下面的矩阵：

该矩阵展示的是顶部数据库与左边数据库相比其错误率的差别，数值越高表现就越差。例如，Hive和BigQuery交叉处的“20.2”表示：对使用这两款数据库的分析师，其使用Hive的错误率要比使用BigQuery高20.2。最底部的Total行是结果总计，从中可以看出MySQL和PostgreSQL始终表现较好；Vertica跳跃最大，几乎是从最底部跳到了中游，打败了SQL Server 和Hive，这也暗示了Vertica的高错误率很可能是由于分析师的能力而不是语言本身。

最后，Benn Stancil认为在分析的这8个数据库中，MySQL和PostgreSQL编写SQL最简单，应用也最广泛，但与Vertica和SQL Server相比它们的特性不够丰富，而且速度要慢。综合各方面的因素，Redshift或许才是最好的选择。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

SQL Hive 数据分析数据仓库

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

什么数据库最适合数据分析师

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...