大数据和Hadoop生态圈，Hadoop发行版和基于Hadoop的企业级应用-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读大数据和Hadoop生态圈，Hadoop发行版和基于Hadoop的企业级应用

大数据和Hadoop生态圈，Hadoop发行版和基于Hadoop的企业级应用

2015-04-02

大数据和Hadoop生态圈，Hadoop发行版和基于Hadoop的企业级应用

你可能听别人说过，我们生活在“大数据”的环境中。技术驱动着当今世界的发展，计算能力飞速增长，电子设备越来越普遍，因特网越来越容易接入，与此同时，比以往任何时候都多的数据正在被传输和收集。

企业正在以惊人的速度产生数据。仅Facebook每天就会收集 250 TB 的数据。Thompson Reuters News Analytics （汤普森路透社新闻分析）显示，现在数字数据的总量比2009年的1ZB（1ZB等同于一百万 PB）多了两倍多，到 2015 年有可能将达到7.9ZB，到 2020 年则有可能会达到35ZB。其他调查机构甚至做出了更高的预测。

随着企业产生并收集的数据量增多，他们开始认识到数据分析的重要性。但是，他们必须先有效地管理好自己拥有的大量信息。这会产生新的挑战：怎样才能存储大量的数据？怎样处理它们？怎样高效地分析它们？既然数据会增加，又如何构建一个可扩展的解决方案？

不仅研究人员和数据科学家要面对大数据的挑战。几年前，在Google+ 大会上，计算机书籍出版者Tim O’Reilly引用过Alistair Croll的话，“这些产生了大量的无明显规律数据的公司，正在被那些产生了相对较少的有规律数据的新创公司取代……”。简而言之，Croll想要说，除非你的企业“理解”你拥有的数据，否则你的企业无法与那些“理解”自身数据的公司抗衡。

企业已经意识到：大数据与商业竞争、态势感知、生产力、科学和创新等密切相关，分析这些大数据能够获得巨大的效益。因为商业竞争正在驱动大数据分析，所以大多数企业认同O’Reilly和Croll的观点。他们认为当今企业的生存依赖于存储、处理和分析大量信息的能力，依赖于是否掌控了接受大数据挑战的能力。

如果你阅读这本书，你将会熟悉这些挑战，熟悉Apache的Hadoop，并且知道Hadoop可以解决哪些问题。本章主要介绍大数据的前景和挑战，并且概述Hadoop及其组件生态圈。可以利用这些组件构建可扩展、分布式的数据分析解决方案。

1.1 当大数据遇到Hadoop

由于“人力资本”是一个无形的、对成功至关重要的因素，所以多数企业都认为他们的员工才是他们最有价值的财产。其实还有另外一个关键因素——企业所拥有的“信息”。信息可信度、信息量和信息可访问性可以增强企业信息能力，从而使企业做出更好的决策。

要理解企业产生的大量的数字信息是非常困难的。IBM指出在过去仅仅两年的时间里产生了世界90%的数据。企业正在收集、处理和存储这些可能成为战略资源的数据。十年前，Michael Daconta, Leo Obrst, and Kevin T.Smith (Indianapolis: Wiley, 2004)写的一本书《The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management》中有句格言“只有拥有最好的信息，知道怎样发现信息，并能够最快利用信息的企业才能立于不败之地”。

知识就是力量。问题是，随着收集的数据越来越多，传统的数据库工具将不能管理，并且快速处理这些数据。这将导致企业“淹没”在自己的数据中：不能有效利用数据，不能理解数据之间的联系，不能理解数据潜在的巨大力量。

人们用“大数据”来描述过于庞大的数据集，这些数据集一般无法使用传统的用于存储、管理、搜索和分析等过程的工具来处理。大数据有众多来源，可以是结构型的，也可以是非结构型的；通过处理和分析大数据，可以发现内部规律和模式，从而做出明智选择。

什么是大数据的挑战？怎么存储、处理和分析如此大的数据量，从而从海量数据中获取有用信息？

分析大数据，需要大量的存储空间和超级计算处理能力。在过去的十年中，研究人员尝试了各种的方法来解决数字信息增加带来的问题。首先，把重点放在了给单个计算机更多的存储、处理能力和内存等上面，却发现单台计算机的分析能力并不能解决问题。随着时间的推移，许多组织实现了分布式系统（通过多台计算机分布任务），但是分布式系统的数据分析解决方案往往很复杂，并且容易出错，甚至速度不够快。

在2002年，Doug Cutting和Mike Cafarella开发一个名为Nutch的项目（专注于解决网络爬虫、建立索引和搜索网页的搜索引擎项目），用于处理大量信息。在为Nutch项目解决存储和处理问题的过程中，他们意识到，需要一个可靠的、分布式计算方法，为Nutch收集大量网页数据。

一年后，谷歌发表了关于谷歌文件系统（GFS）和MapReduce的论文，MapReduce是一个用来处理大型数据集的算法和分布式编程平台。当意识到集群的分布式处理和分布式存储的前景后，Cutting和Cafarella把这些论文作为基础，为Nutch构建分布式平台，开发了我们所熟知的Hadoop分布式文件系统（HDFS）和MapReduce。

在2006年，Yahoo在为搜索引擎建立大量信息的索引的过程中，经历了“大数据”挑战的挣扎之后，看到了Nutch项目的前景，聘请了Doug Cutting，并迅速决定采用Hadoop作为其分布式架构，用来解决搜索引擎方面的问题。雅虎剥离出来Nutch项目的存储和处理部分，形成Apache基金的一个开源项目Hadoop，与此同时Nutch的网络爬虫项目保持自己独立性。此后不久，雅虎开始使用Hadoop分析各种产品应用。该平台非常有效，以至于雅虎把搜索业务和广告业务合并成一个单元，从而更好地利用Hadoop技术。

在过去的10年中，Hadoop已经从搜索引擎相关的平台，演变为最流行通用的计算平台，用于解决大数据带来的挑战。它正在快速成为下一代基于数据的应用程序的基础。市场研究公司IDC预计，到2016年，Hadoop驱动的大数据市场将超过23亿美元。自从2008年建立第一家以Hadoop为中心的公司Cloudera之后，几十家基于Hadoop的创业公司吸引了数亿美元的风险投资。简而言之，Hadoop为企业提供了一个行之有效的方法，来进行大数据分析。

1.1.1 Hadoop：迎接大数据挑战

Apache的Hadoop通过简化数据密集型、高度并行的分布式应用的实现，以此迎接大数据的挑战。世界各地的企业、大学和其它组织都在使用Hadoop，Hadoop把任务分成任务片，分布在数千台计算机上，从而进行快速分析，并分布式存储大量的数据。Hadoop利用大量廉价的计算机，提供了一个可扩展强，可靠性高的机制；并利用廉价的方式来存储大量数据。Hadoop还提供了新的和改进的分析技术，从而使大量结构化数据的复杂分析变为可能。

Hadoop与以前的分布式方法的区别：

数据先进行分布式存储。
在集群上备份多份数据，从而来提高可靠性和实用性。数据在哪存储就在哪处理，从而消除了带宽瓶颈问题。

此外，Hadoop隐藏了复杂的分布式实现过程，提供了一种简单的编程方法。从而，Hadoop得以提供强大的数据分析机制，包括以下内容：

存储量大——Hadoop能够使应用程序运行在成千上万的计算机和PB级数据上。在过去的十年中，计算机专家认识到，那些曾经只能由超级计算机来处理的高性能应用，可以由大量廉价的计算机一起处理。在集群中，数百台“小”的电脑的聚合计算能力，可以超过一台超级计算机的计算能力，并且价格便宜。Hadoop利用超过数千台机器的集群，在企业可以承受的价格范围内，提供了巨大的存储空间和处理能力。
分布式处理与快速的数据访问——Hadoop集群在提供高效数据存储能力的同时，也提供了快速的数据访问能力。在Hadoop出现之前，应用程序很难并行运行在计算机集群之间。这是因为集群模型在创建共享存储数据时，对I/O性能要求很高。用Hadoop来处理数据，减轻了许多高性能的挑战。此外，Hadoop应用程序处理数据通常都是有序进行的，这就避免了随机的数据访问（磁盘寻道操作），进一步减轻了I/O负载。
可靠性，故障转移和可扩展性——在过去，并行应用程序很难解决集群上机器的可靠性问题。虽然单台机器的可靠性相当高，但是随着群集增加，出故障的概率也随之增加。在数千个节点的集群上，这种日常故障经常发生。由于Hadoop有独特的设计和实施方式，相同的故障将会产生相似的结果。从而，Hadoop可以监测到这些故障，并利用不同的节点重新执行任务。此外，Hadoop有很好的可扩展性，实现无缝地将多个服务器整合到一个集群，并利用它们来存储数据、执行程序。

对于大多数Hadoop用户而言，Hadoop最重要的特征是，将业务规划和基础设施维护进行了清晰的划分。为那些专注于商业业务的用户，隐藏了Hadoop的基础设施的复杂性，并提供了一个易于使用的平台，从而使复杂的分布式计算的问题简单化。

1.1.2 商业界的数据科学

Hadoop的存储和处理大数据的能力经常与“数据科学”挂钩。虽然该词是由彼得·诺尔在20世纪60年代提出的，但是直到最近才引起人们广泛关注。美国雪域大学杰弗里·斯坦顿德教授把“数据科学”定义为“一个专注于搜集、分析、可视化、管理和大量信息保存的新兴领域”。

通常将“数据科学”这一术语用在商业业务分析中，与实际中的“大数据”学科有很大的不同。在数据科学中，业务分析师通过研究现有商业运作模式，来提升业务。

数据科学的目标是从数据提取出数据的真正含义。数据科学家基于数学、统计分析、模式识别、机器学习、高性能计算和数据仓库等来工作，通过分析数据来发现事物发展趋势，并基于收集到的信息开发新业务。

在过去的几年中，许多数据库和编程方面的业务分析师成为了数据科学家。他们在Hadoop生态圈中，使用高级的SQL工具（比如：Hive或者实时Hadoop查询工具）进行数据分析，以做出明智的业务决策。

不只是“一个大数据库”

在本书后面会深入讲解Hadoop，但在此之前，让我们先消除这样的误区——Hadoop仅仅是数据分析师使用的工具。因为对于那些熟悉数据库查询的人，Hadoop工具（如Hive和实时Hadoop查询）提供了较低的门槛，所以一些人认为Hadoop仅仅是以数据库为中心的工具。

此外，如果你正在试图解决的问题超出了数据分析的范畴，并涉及到真正的“科学数据”的问题，这时，SQL 数据挖掘技术将明显变得不再实用。例如，大多数问题的解决，需要用到线性代数和其它复杂的数学应用程序，然而，这些问题都不能用SQL很好地解决。

这意味着，使用Hadoop工具是解决这类问题的最好办法。利用Hadoop的MapReduce编程模型，不但解决了数据科学的问题，而且明显简化了企业级应用创建和部署的过程。可以通过多种方式做到这一点——可以使用一些工具，这些工具往往要求开发者具备软件开发技能。例如，通过使用基于Oozie的应用程序进行协调（在本书后面将详细介绍Oozie），可以简化多个应用程序的汇集过程，并非常灵活地链接来自多个工具的任务。在本书中，你会看到Hadoop在企业中的实际应用，以及什么时候使用这些工具。

目前Hadoop的开发，主要是为了更好地支持数据科学家。Hadoop提供了一个强大的计算平台，拥有高扩展性和并行执行能力，非常适合应用于新一代功能强大的数据科学和企业级应用。并且，Hadoop还提供了可伸缩的分布式存储和MapReduce编程模式。企业正在使用Hadoop解决相关业务问题，主要集中在以下几个方面：

为银行和信用卡公司增强欺诈性检测——公司正在利用Hadoop检测交易过程中的欺诈行为。银行通过使用Hadoop，建立大型集群，进行数据分析；并将分析模型应用于银行交易过程，从而提供实时的欺诈行为检测。
社交媒体市场分析——公司目前正在使用Hadoop进行品牌管理、市场推广活动和品牌保护。互联网充满了各种资源，例如博客、版面、新闻、推特和社会媒体数据等。公司利用Hadoop监测、收集、汇聚这些信息，并提取、汇总自身的产品和服务信息，以及竞争对手的相关信息，发掘内在商业模式，或者预测未来的可能趋势，从而更加了解自身的业务。
零售行业购物模式分析——在零售行业，通过使用Hadoop分析商店的位置和它周围人口的购物模式，来确定商店里哪些产品最畅销。
城市发展的交通模式识别——城市发展往往需要依赖交通模式，来确定道路网络扩展的需求。通过监控在一天内不同时间的交通状况，发掘交通模型，城市规划人员就可以确定交通瓶颈。从而决定是否需要增加街道或者车道，来避免在高峰时段的交通拥堵。
内容优化和内容参与——企业越来越专注于优化内容，将其呈现在不同的设备上，并支持不同格式。因此，许多媒体公司需要处理大量的不同的格式的内容。所以，必须规划内容参与模式，才能进行反馈和改进。
网络分析和调解——针对交易数据、网络性能数据、基站数据、设备数据以及其他形式的后台数据等，进行大数据实时分析，能够降低公司运营成本，增强用户体验。
大数据转换——纽约时报要将1100万篇文章（1851至1980年）转换成PDF文件，这些文章都是从报纸上扫描得到的图片。利用Hadoop技术，这家报社能够在24小时内，将4TB的扫描文章转换为1.5TB的PDF文档。

类似的例子数不胜数。企业正在逐步使用Hadoop进行数据分析，从而作出更好的战略决策。总而言之，数据科学已经进入了商界。

不仅仅是针对商业的大数据工具

虽然这里的大多数例子针对于商业，但是Hadoop也被广泛应用在科学界和公有企业。

最近一项由美国科技基金会进行的研究指出，医疗研究人员已经证明，大数据分析可以被用于分析癌症患者的信息，以提高治疗效果（比如，苹果创始人乔布斯的治疗过程）。警察部门正在使用大数据工具，来预测犯罪可能的发生时间和地点，从而降低了犯罪率。同样的调查也表明，能源方面的官员正在利用大数据工具，分析相关的能量损耗和潜在的电网故障问题。

通过分析大数据可以发现模型和趋势，提高效率，从而用新方法来作出更好的决策。

1.2 Hadoop生态圈

架构师和开发人员通常会使用一种软件工具，用于其特定的用途软件开发。例如，他们可能会说，Tomcat是Apache Web服务器，MySQL是一个数据库工具。

然而，当提到Hadoop的时候，事情变得有点复杂。Hadoop包括大量的工具，用来协同工作。因此，Hadoop可用于完成许多事情，以至于，人们常常根据他们使用的方式来定义它。

对于一些人来说，Hadoop是一个数据管理系统。他们认为Hadoop是数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。对于其他人，Hadoop是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。还有一些人认为Hadoop作为一个开源社区，主要为解决大数据的问题提供工具和软件。因为Hadoop可以用来解决很多问题，所以很多人认为Hadoop是一个基本框架。

虽然Hadoop提供了这么多的功能，但是仍然应该把它归类为多个组件组成的Hadoop生态圈，这些组件包括数据存储、数据集成、数据处理和其它进行数据分析的专门工具。

1.3 HADOOP核心部件

随着时间的推移，Hadoop生态圈越来越大，图1-1给出了Hadoop核心组件。

<a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop</a>

图1：Hadoop生态圈的核心组成组件

从图1-1的底部开始，Hadoop生态圈由以下内容组成：

HDFS—— Hadoop生态圈的基本组成部分是Hadoop分布式文件系统（HDFS）。HDFS是一种数据分布式保存机制，数据被保存在计算机集群上。数据写入一次，读取多次。HDFS为HBase等工具提供了基础。

MapReduce——Hadoop的主要执行框架是MapReduce，它是一个分布式、并行处理的编程模型。MapReduce把任务分为map(映射)阶段和reduce(化简)。开发人员使用存储在HDFS中数据（可实现快速存储），编写Hadoop的MapReduce任务。由于MapReduce工作原理的特性， Hadoop能以并行的方式访问数据，从而实现快速访问数据。

Hbase——HBase是一个建立在HDFS之上，面向列的NoSQL数据库，用于快速读/写大量数据。HBase使用Zookeeper进行管理，确保所有组件都正常运行。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；