用Google BigQuery做入门级大数据分析-CDA数据分析师官网

用Google BigQuery做入门级大数据分析

2016-02-21

用Google BigQuery做入门级大数据分析

大数据项目是比较繁琐的，特别是涉及到配置和管理Hadoop集群。如果你对SQL比MapReduce更熟悉，而关系型数据库尚不能满足你的分析需求，那么可以考虑使用Google的BigQuery，它提供了大数据分析入门级方法。

BigQuery降低了分析大数据集所面临的一些实施困难。它的定价模式很具吸引力，你可以从样本数据中获取有用信息，而不用对完整的数据集做分析。

用Google BigQuery做入门级大数据分析

有时候，处理大数据的一些手段相当于是用精确度换速度。例如，如果你想判断两组客户浏览网站的路径是否有差异，你可以分析该站点上所有相关客户活动的每个日志入口。当然，你也可以抓取客户群的子集(也就是部分客户信息)，在样本数据中分析差异。基本的统计可以为你提供理解这类分析错误率的手段，只要差错在可接受范围内，你得出的答案就足够你决策用了。

这种交换可以通过TOP函数得到，该函数返回分组和排序操作中的前几行。返回结果可能比较近似，但是该函数通常比使用“group by”、“order by” 、“limit”相结合的从句要更快速。

Google BigQuery特性

BigQuery是专门为分析上亿行级的数据而设计的，使用类似SQL的语法即可操作。它并不是SQL数据库的替代品，而且不适合事务处理应用。BigQuery支持交互风格的分析，你可以使用“SELECT”语法编写查询，这对任何SQL开发者来说都是再熟悉不过的了。

查询语言包括支持标准操作，比如连接、排序和分组，以及与嵌套数据结构使用操作符。BigQuery也支持聚合函数，比如计数、求和、求平均值、求方差和标准差。分组函数和描述性统计的相结合，使得比较两个群体之间的方法和方差相对更直接一些。

在正常的数据模型中，连接是必不可少的操作，但是可能产生高昂的计算代价。BigQuery函数中的“JOIN”连接操作符与SQL连接类似，但是在连接两个表时，其中一个表的大小必须可以压缩为8MB或更小。这种限制支持实现更有效率的连接操作，因为较小的表可以更有效率地缓存，并连接较大的表。如果你必须连接两个较大的表，你可以使用JOIN EACH操作，但是估计性能会很差。

你可以使用简单的浏览器界面与BigQuery交互。浏览器工具会保留查询历史并提供方便构造查询的工作空间。这是一个很简单很基础的工具，它并没有其他SQL开发工具中的完整功能特性，比如MySQL Workbench或者DBVisualizer。当然，你还可以使用命令行接口。

Google BigQuery的定价模式

Google的定价模式是基于存储数据量和待分析数据量而建立的。存储量价格是每月每GB数据0.12美元。交互式查询处理每GB数据收费0.035美元，批量查询处理每GB数据时0.02美元。要想限制处理的数据量，你可以限制你分析的行数，并且只获取实际需要的字段列作为结果返回。BigQuery采用列式数据存储，所以在查询一列或多个列时，不会提取整行中的所有数据。

数据是通过加载任务载入BigQuery，加载任务可以使用Google云存储中的数据，或者也可以从本地文件系统中获取使用“POST”请求传输。文件格式化为CSV或者JSON格式。压缩文件的大小被限制在1GB之内，但是未压缩文件可以达到1TB。加载任务可以包含多达一万个文件，但是所有文件加起来大小不能超过1TB。因为你每天每个表执行的加载任务可以高达一千个，所以这些限制对绝大多数项目来说是没有实际影响的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

SQL 大数据数据分析 Hadoop 字段关系型数据库

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

用Google BigQuery做入门级大数据分析

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...