大数据的OLAP技术_数据分析师培训-CDA数据分析师官网

大数据的OLAP技术_数据分析师培训

2015-03-18

大数据的OLAP技术_数据分析师培训

在互联网的技术浪潮冲击下，不少传统企业也纷纷涉水大数据技术。以笔者经历的两个项目为例，传统企业与互联网公司相比有两个特点：

①企业应用比较笨重和复杂，云计算等基础架构平台，互联网需要的是水平规模化扩展，但对传统企业来讲，更需要的是垂直一体化部署复杂的依赖并且方便重用；

②企业数据，包括关系型的交易数据、日志、文档、电子邮件等等，但总体还是结构化数据占多数；互联网则是非结构化数据为主，如网页、图片、服务器日志等，在网页搜索或广告推荐等领域，高维数据分析比较常见。

和企业私有云的架构一样，对企业的大数据平台，我们很难直接去简单复制互联网的海量存储或计算平台技术，如Hadoop、HBase、Spark；因为这些技术搭建的只是一个数据的基础设施，要在传统企业实施“大数据平台”，我们的思路是，如何将传统的商业智能运行在“大数据平台”之上。

OLAP – 联机分析

OLAP联机分析是从多维信息、针对特定问题的联机数据进行访问和分析的技术。从分析的角度出发，数据源需提供以下操作支持：

维度和指标
聚合
上卷、下钻
水平、垂直切分
排序

下面是一个数据表示例：

大数据

通常OLAP的多维数据源由数据方（Cube）提供，关系型数据库或数据仓库都能提供数据方的设计，相对于数据库，数据仓库是昂贵的软硬件解决方案，而互联网普遍采用基于Hadoop技术构建的海量数据处理平台，在这里是否可以作为数据仓库的替代品呢？其核心技术还是，如何基于Hadoop来构建数据方。

Pre-aggregate – 预聚合数据

对数据库来说，数据聚合通常是实时的。实时聚合的好处是灵活，可以对任意列进行查询，缺点是CPU、I/O开销较大，数据量大时查询缓慢，吞吐量低；而对Hadoop这样的非实时计算、大量数据处理的平台来说，很适合对数据进行预聚合处理，预聚合的优点是查询快速高效，但缺点是无法灵活查询，比如未进行聚合处理的数据。

在基于Hadoop进行预聚合处理上，Adobe提供了一些经验：

数据表设计需要规范
超过3个维度、10亿条数据时处理会变得复杂
维度表之间尽量不要有相关关系
只创建必须的索引
领域模型设计

这个步骤的目的是理解数据并且构建出领域模型，包括：

源数据如何拆分到不同字段中？
哪些字段用于维度？
哪些字段用于统计指标？
使用什么样的规则来对数据进行聚合？
用户经常使用的组合查询是？
排序规则？

下面是Adobe SiteCatalyst的设计参考，源数据是一条日志，使用reports.json来描述整个设计：

大数据

数据采集优化策略

对历史数据，采用大量数据批处理来提高吞吐量，对新增的增量数据，尽量达到低延时查询。一些优化策略包括：

对输入进行条件过滤：

FileDateFilter (log name patterns: log-YYYY-MM-dd-HH.log)
TableInputFormat start/stop row
File Index in HBase (track processed/new files)

提升Map的任务数：

CombineFileInputFormat – 2GB-splits => 500 splits for 1TB
FixedMappersTableInputFormat (e.g. 5-region splits)

数据处理

数据处理的过程包括读取源数据、预聚合并且生成可供查询的数据表，对OLAP而言，需要对数据进行以下处理：

GROUP BY
COUNT, SUM, AVG
SORT
HAVING – 需进行预聚合

以下是Adobe在线数据处理设计和SQL查询的映射：

大数据

在reports.json中定义了触发各个处理的类：

大数据

整个处理过程如下：

大数据

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据 Hadoop 字段数据仓库数据分析 SQL 云计算关系型数据库

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据的OLAP技术_数据分析师培训

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...