什么是Hadoop？_CDA答疑社区

291294878

2018-10-22 阅读量: 933

什么是Hadoop？

Hadoop是一个开源软件框架，用于存储大量数据，并发处理/查询在具有多个商用硬件（即低成本硬件）节点的集群上的那些数据。总之，Hadoop包括以下内容：

　　HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）：HDFS允许你以一种分布式和冗余的方式存储大量数据。例如，1 GB（即1024 MB）文本文件可以拆分为16 * 128MB文件，并存储在Hadoop集群中的8个不同节点上。每个分裂可以复制3次，以实现容错，以便如果1个节点故障的话，也有备份。HDFS适用于顺序的“一次写入、多次读取”的类型访问。

MapReduce：一个计算框架。它以分布式和并行的方式处理大量的数据。当你对所有年龄> 18的用户在上述1 GB文件上执行查询时，将会有“8个映射”函数并行运行，以在其128 MB拆分文件中提取年龄> 18的用户，然后“reduce”函数将运行以将所有单独的输出组合成单个最终结果。

　　YARN（Yet Another Resource Nagotiator，又一资源定位器）：用于作业调度和集群资源管理的框架。

　　Hadoop生态系统，拥有15多种框架和工具，如Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala等，以便将数据摄入HDFS，在HDFS中转移数据（即变换，丰富，聚合等），并查询来自HDFS的数据用于商业智能和分析。某些工具（如Pig和Hive）是MapReduce上的抽象层，而Spark和Impala等其他工具则是来自MapReduce的改进架构/设计，用于显著提高的延迟以支持近实时（即NRT）和实时处理。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子