Hadoop生态系统与体系结构-CDA数据分析师官网

Hadoop生态系统与体系结构

2014-12-23

介绍

企业一直在处理快速增长的数据量（也称为大数据）的存储和管理问题。原有的存储经扩展后缀让能勉强跟上计算容量增长的步伐，但是用来分析该大数据以得出宝贵见解的工具却落入后了。Hadoop是一款经专门设计的创新性开源大数据分析引擎，旨在最大程度地缩短从企业的数据集到处宝贵见解的时间。本文为系列的第二篇，介绍Hadoop软件生态系统与体系结构。

更多信息

Hadoop版本：

Hadoop的版本由开源Apached Foundation在apache.org中维护。其他所有版本都是扩展Apache Hadoop或根据其构建的派生版本。下面是目前提供的常见Hadoop版本列表：

Apache Hadoop
Cloudera CDH3
Greenplum HD
Horonworks数据平台

以上列表并未详尽列出目前提供的所有Hadoop版本，而只是简单列出了流行的选择。有关目前提供的Hadoop版本的详细列表，请访问：Distributions and Commercial Support

Hadoop生态系统：

以下是客户为使用Hadoop分析数据而运行的软件堆栈。生态系统组件是Hadoop堆栈之上的附加组件，面向分析工作流提供附加功能和优势。该领域中一些流行的选择包括：

Hive：一个类似于SQL的查询接口，适用于HDFS中存储的数据。
HBase：一个面向随机读/写列的高性能结构化存储系统，位于HDFS之上。
Pig：高级数据流语言和执行框架，适合于并行计算
Manhout：使用Hadoop的可扩展的计算机学习算法
R（RHIPE）：细分并重组大型复杂数据集的统计分析

以上并未详尽力促所有的Hadoop生态系统组件。

Hadoop体系结构

下面是一个体系结构图，其中显示了在一个Hadoop计算集群上运行的所有核心Hadoop组件。

该计算环境中发生的常规交互包括：

必须将数据接收到HDFS层内。
使用MapReduce对数据进行计算或分析。
在HDFS或其他基础架构中存储或导出结果，以适应整个Hadoop工作流。

上述体系结构还表明NameNode是该环境中的独立组件，如果它有任何问题，则整个Hadoop环境都将变得不可用。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop HDFS 大数据 Hive SQL NameNode 统计分析数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

Hadoop生态系统与体系结构

介绍

更多信息

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析