一文读懂MapR，Apache Hadoop的MapR发行版白皮书

2014-11-23

一文读懂MapR，Apache Hadoop的MapR发行版白皮书

内容目录

概述

战略性的Hadoop

完整、先进、拥有强力支持的Hadoop发行版

易用的Hadoop

从批处理转向实时数据流

内建数据压缩机制

多集群支持

筹划、搭建和管理集群

MapR的卷

轻松的规模化管理

可靠的Hadoop

避免作业丢失

用于大规模并具有高可用性的分布式管理节点

Hadoop高可用性及直接挂载NFS

使用快照方便地恢复数据

镜像

更快的Hadoop

高性能架构

性能特色

性能测试

结论

概述

现在每天都有2百万人使用着互联网，每一次通话、每一条推特、每一封电子邮件、每一个下载或每一回购物都产生出有价值的信息。企业越来越依赖于使用Hadoop从迅猛增长的数据中发掘潜藏的价值，促进企业利润的增长。仅仅Orbitz这家旅游网站每月就有460万人次的访问量，社交网站Facebook的用户数量从4亿变为5亿只用了不到半年的时间，而社交游戏网站Zynga近来供应了750万份虚拟情人节蛋糕。这些公司有一个共同点：依靠Hadoop处理海量数据从而推动业务的发展。

Hadoop可不是只能分析点击流，诸如传感器输出数据、视频、日志文件、位置数据、基因信息、行为甚至地震分析等数据，这些只是在各种政府机关及各个层次企业中Hadoop所能够大显身手的一小部分数据源而已。不过Hadoop并不完美，用过Hadoop的人就会明白Hadoop所面临的挑战及其不足之处。目前市面上虽有6种不同的Hadoop发行版可供选择，然而这些发行版不但配置方案一样，而且都存在单点故障、数据丢失的风险及性能瓶颈这样的缺陷。

我们为您带来一个更好的新选择——Apache Hadoop的MapR发行版——最简单、最可靠、最快速的Hadoop发行版。

战略性的Hadoop

在您的组织对Hadoop发行版进行评估和选择时，应该紧密结合自身实际情况来确定评价标准。与发行版有关的重要问题包括：

易用性如何？

能够多大程度上方便地在集群中移动数据？

集群能否被用户、工作任务和不同地理分布所便捷地共享？

集群是否既能处理大量文件，也可以使拥护轻松应对访问、保护和安全问题？

可靠性如何？

对于生产和商务的关键性数据它能否胜任？

怎样对业务的持续性给予支持？

集群能否用从用户或程序错误中恢复数据？

能否对不同集群间的数据进行镜像？

性能如何？

处理能力是否受到批处理应用程序的限制？

管理节点是否会成为性能瓶颈？

系统能否充分利用硬件资源？

MapR所提出的创新方案将使更多企业可以更好地利用大数据分析的能力，本发行版的诸多新特点令Hadoop更易使用、更可信赖并使其性能得以显著提升，从而极大地拓展了Hadoop的应用和适用范围。

完整、先进、拥有强力支持的Hadoop发行版

大量社区开发者已经作出了杰出的贡献，在此基础上MapR又进行了创新。这些新的重要技术进步，使得MapR将Hadoop打造成为一个处理实时数据流的可信交互系统。

MapR对Apache Hadoop API的兼容性达到100%，如兼容MapReduce、HDFS和HBase的所有API。集MapR公司与社区精英的才智于一体且已打有最新补丁，MapR完整发行版不仅经过全面测试还具有MapR公司的支持。如图1所示，MapR提供完整的Hadoop组件体系，包括：

语言处理组件（Hive和Pig）

数据库组件（HBase）

工作流管理库（Oozie）

应用程序创建库（Mahout）

Hadoop数据库SQL输入/输出转接器（Sqoop）

日志采集系统（Flume）

完整的MapReduce层

底层存储服务功能

MapR突破了其他Hadoop发行版的限制，无论一个还是几万个节点，MapR都能够轻松应对其上PB级的数据量。

图1 MapR发行版与Apache Hadoop达到100%兼容，并新增了多种提高易用性、可靠性和性能的创新之处

易用的Hadoop

为了让更多的用户容易地使用，也为了承载更大的任务量，Hadoop必须能让用户简单地使用、部署、运营和管理。MapR公司致力取得关键性技术突破，这些突破使得在集群中转移数据、扩展集群资源及管理大型Hadoop集群这样的任务不但变得更加容易，而且仅需很少的人力便可完成。

从批处理转向实时数据流

其他发行版采用了较为繁琐的批处理方式来管理数据，从而导致数据处理速度的降低。应用程序首先将数据转运到本地或附加的网络存储中。按照预先设定的时间间隔，数据被分批载入传统Apache Hadoop的一次性写入式文件系统中。最后，分析生成结果并将这些结果分批卸载以待进一步的分析。

标准的批处理方式使得在应用程序数据生成与Hadoop集群数据分析之间形成明显时滞。即使通过提高数据加载频率这样的手段可以最大程度地缩小这个时滞，却同时产生了数量众多的小文件，如此之多的小文件对于传统Hadoop扩展性的极限形成了巨大的挑战。此外，其他的Hadoop发行版也受到Hadoop分布式文件系统（HDFS）的限制，类似于常见的CD-ROM，HDFS也是一次性写入的文件系统，不仅不能够对已写入文件进行修改，也不允许对未关闭的文件进行读取。

与这些Hadoop发行版截然相反，MapR基于行业标准的网络文件系统（Network File System，NFS）协议，使用NFS直接存取技术对数据流进行实时读/写。利用该项技术，不但任一远程客户端都可方便地挂载集群文件系统，各个应用服务器还能够将日志或其他数据直接写入集群，而不必将数据先导入本地或网络存储之中。在MapR的无锁存储服务技术的支持下，MapR直接存取NFS技术让用户可以更快更经济地使用Hadoop：

有别与传统Hadoop一次性写入式的文件系统，MapR允许根据用户需要对文件进行修改、覆盖或读取。MapR无锁存储服务技术支持对任意文件进行多个并发的读/写操作。

用户可以使用图形化的文件浏览器访问和操作集群中的数据。使用文件浏览器，用户可以仅仅是浏览文件，也可以点击鼠标来自动打开有关应用程序，还可以拖拽文件或目录而使其移入或移出集群。

可以使用文本编辑器或集成开发环境（Integrated Development Environments，IDEs）直接编辑集群中的文件。

在MapR中，用户可以直接使用标准的命令行工具、UNIX应用程序及其他工具（如Grep、Sed、Tar、Sort和Tail）来处理集群中的数据。对其他Hadoop发行版而言，用户不是需要再进行开发，就是为了使用标准化工具而把数据从集群中拷贝出来。

如Flume之类的日志采集工具经常需要在每台应用服务器上额外运行代理程序，而MapR大大降低了对日志采集工具的依赖。MapR既允许应用服务器直接向集群中写入数据，也允许使用Rsync这样的标准化工具在本地磁盘和集群间同步数据。

应用程序的二进制代码、库及配置文件可以在直接在集群内部存储和访问，并且操作十分简单。

内建数据压缩机制

虽然一般的Hadoop发行版也可以对数据进行压缩，但实现起来既困难又低效。所以通常的做法是，先手工将数据进行压缩再将其拷入集群，而后执行指定的MapReduce任务对压缩的数据进行索引（假设应用程序需要采用并行处理）。为了达到压缩指标，还需要修改应用程序。

MapR的自动压缩功能在提升了性能的同时又能够对重要的存储进行备份。所以说，MapR压缩方案节省了网络I/O带宽和存储空间的占用。

多集群支持

不论是为了分发不同数据或应用程序，还是为了业务的持续性，亦或是出于性能考虑，企业都经常需要操作多个Hadoop集群。MapR内在的设计使其可以支持多集群作业、直接存取、远程镜像和多集群管理。

直接存取。所有的MapR Hadoop集群都可以让用户简单地在集群内外直接存取数据。假设一家组织拥有“dev”和“test”两个集群，人们可以在/mapr/dev目录下使用dev集群中的文件，也可以在/mapr/test目录下访问test集群中的文件。不管使用Hadoop集群直接访问（hadoop fs -ls /mapr/dev/user/jdoe）还是通过远程NFS方式（ls /mapr/dev/user/jdoe），访问路径都是相同的。除此之外，用户可以通过执行一个简单的命令（cp /mapr/dev/foo.txt /mapr/test/）就能够在不同集群之间拷贝文件，而且配置不同集群间的符号链接也是很容易的事情。

远程镜像。利用MapR镜像工具，用户可以很轻松地配置MapR来为不同集群的数据做镜像。MapR的这个功能不仅能够用于支撑持续性业务（为另一个集群做数据镜像），也能用于保障生产或研究中各个集群间的同步。

多集群管理。使用MapR控制系统（MCS），用户可以看到所有正在运行的MapR集群，也能够轻松地查看和切换可用集群。

筹划、搭建和管理集群

正如数据分析需求的不断增长一样，人们对昂贵的集群资源进行有效管理和利用的需求也在不断增长。不论是定位或存取数据，还是对数据施用策略，都对大规模数据的有效管理提出了一个巨大的挑战。集群的架构必须能够支撑应用程序、用户、部门和管理者对海量文件管理的需求。集群的应用和数据必须既能满足技术需求，又得兼顾企业利益。

企业级的应用方案，通常需要对下述问题进行考察：

需要怎样的CPU处理能力？（现在和将来）

需要怎样的存储能力？（现在和将来）

应用程序是否具有高I/O存储需求？

具有哪些的数据保护需求？

具有哪些业务持续性需求？

需要采用何种安全授权和存取控制的手段？

在MapReduce的环境下，上述问题则对Hadoop发行版全面性和灵活性提出了更高的要求。其他Hadoop发行版都是在文件层面上进行策略（如所有者、复制等）管理，事实上它无法处理可能面对的数以百万计的文件。MapR是企业级发行版，具有先进的数据管理功能，正如文章标题中所称，MapR可以让企业简单、容易而又经济地实现业务层次的各项目标。

MapR的卷

MapR的卷让用户便捷地存取和管理集群中的数据。为了容易被组织、管理和确保安全，MapR采用树状结构把相关的文件和目录都分类汇集起来形成卷。MapR的卷具有如下功能：

复制。复制参数决定了整个集群中数据副本的数量。
快照。不必费时费力地复制数据，MapR的快照功能就能够在线实时恢复数据。
镜像。MapR的镜像具有负载均衡、跨集群备份、大容量数据迁移以及为确保业务持续性的失效备援的功能。本地镜像可高效、频繁存取数据，而远程镜像则负责保障业务的连续性并在企业原有系统和私有云间进行集成。
配额。通过限制任何用户、用户组和卷的磁盘空间，或是为特定的用户和用户组分配一个卷，企业可以使用配额来对应用程序、用户或部门的需求进行精确的管理。MapR拥有集群内部的存储配额管理能力，配额既可配置用于一个单独的卷，也可以用于一个用户或用户组。一旦配额即将溢出，系统会自动发送电子邮件进行提醒。用户和用户组可以来自本地系统，也可以来自如NIS或LDAP这样的标准名称服务器。
数据位置控制。MapR允许根据需求把数据保存在集群内指定的位置上。比如，可以将那些具有频繁I/O请求的应用程序数据放置到SSD这类的高速设备中，而其他数据则存放在标准磁盘设备上。
管理权限。集群管理员有时需要对其他用户进行授权，这时可授予管理权限有：允许特定用户创建和删除卷、运行镜像和快照、设定配额等。
数据存取。用户可在卷级别对数据进行存取。MapR集成了标准的目录服务，如LDAP或NIS。

轻松的规模化管理

管理大规模的Hadoop集群，可视化和自动化非常必要。管理员的确没有时间对服务器进行逐一排障和管理。在高级的数据管理和自我恢复功能帮助下，仅需一个管理员就能轻松管理上千个节点的MapR集群。

MapR的下述特点令管理变得更加容易：

具有经过测试、功能完善的Hadoop堆栈，预先集成了丰富的组件，如Hive、Pig、Oozie等等。
安装简单
拥有完善的管理工具，如GUI、CLI及REST APIs
系统更新及撤销回滚无需暂停业务

MapR控制系统（MCS）对集群的资源和对集群的操作实现完全可视化。如图2所示，通过集群拓扑的组织（例如数据中心和机架），MCS所包含的MapR Hadoop Heatmap工具被设计用于对上千的节点进行管理，它能够以可视化的形式展现节点的健康情况、服务状态和资源使用状况。若要了解整个集群的健康情况，MapR Hadoop Heatmap让您一看便知。对于数量众多的节点、文件和卷，用户可以利用过滤器直接选取指定的部分，也可以使用群管理器直接运行管理动作。

图2 MapR Hadoop Heatmap令每个集群中
所有节点的状态一目了然

可靠的Hadoop

可靠性对于业务的持续运营至关重要，企业对系统的可靠性、可用性和存储能力都有着较高要求——对于生产性数据尤其如此。与其他发行版不同，MapR采用了完全分布式的架构来满足企业级集群运行需求，并提供可信的数据存储以确保在共享环境下数据依旧安全：

高可用性。MapR的每一部分不但都是事务性和日志性的，而且仅需数秒便可重启。整个集群可以自行恢复与调整。公司重写了作业调度器和管理节点，使其变为分布式并可被复制。NFS的高可用性意味着客户机不必挂起等待无效服务器。滚动式的更新方式确保集群一直处于可用状态。
数据保护。不同于一般的发行版，MapR不存在单点故障问题，集群中的元数据具有三份副本。从客户机内存到集群中的磁盘，MapR全程监控着静默数据损坏问题并进行端到端的校验。MapR快照工具具有实时恢复镜像的功能，而MapR镜像工具则通过使用远程或本地镜像对数据进行保护以保证业务的连续进行。
灾难恢复。远程镜像可以对远端站点中的集群数据进行同步备份，即使遇到灾害企业依旧能够持续运营。使用MapR控制系统可以轻松管理大量地理集中或分散的集群。
安全、共享的环境。MapR保护系统资源不受失控作业的影响，保证所有应用都能够从核心集群里获取资源。而在其他发行版中，用户作业中的Bug（如无限循环）则会影响到重要的系统守护进程。
监控。MapR自带的过滤器通知和警告功能不仅支持许多层面，包括集群范围、预定的服务、预先配置的卷、任一用户或用户组以及任何一个节点，还支持群发电子邮件。使用率追踪和配额功能能够帮助管理员有效跟踪资源并了解负荷程度。当然，用户也可以集成并使用第三方的监控系统。

避免作业丢失

Hadoop利用作业调度器（JobTracker）跟踪遍布集群不计其数的Mapper和Reduce任务。不幸的是其他发行版中的作业调度器仅在一个节点上运行，使得整个集群存在单点故障的可能性。一旦作业调度器失效，所有正在运行的作业都将失效，而且所有进程也将丢失。此外，管理员首先还必须首先能够探查到问题的根源，然后手动重启作业调度器使集群重新恢复正常。

MapR拥有高可用的作业调度器，它在缩减恢复时间的同时还支持集群自我恢复。若是某个作业调度器失效，任务控制器将自动暂停，此时集群中会有另一个节点上的MapR作业调度器自动启动，任务管理器将等待直至重新连接到新启动的作业控制器。整个过程中所有正在运行的作业或任务都将继续运行，而不会出现作业失效或丢失进程的现象。

用于大规模并具有高可用性的分布式管理节点

在Hadoop中，管理节点追踪并记录集群中数据的所在位置。其他发行版里，即使是规模很大的集群，仍然使用单台服务器来运行管理节点，这会产生很多问题。MapR采用分布式管理节点而解决了这些问题。

没有单点故障。单一管理节点可以引发单点故障，如果节点宕掉，整个集群都无法使用，只有再花费数分钟甚至数小时的时间重启管理节点才能让集群重新运行起来。在MapR中，集群的所有节点都能够存储和处理元数据，故而即使在多磁盘或节点失效的情况下也不会有丢失或停工的发生。
没有文件数量限制。即使是运行在性能超强服务器上，其他发行版的管理节点最多也只能处理7000万份的文件量。实际上为了试图解决这个问题，许多大型Hadoop站点需要在集群中进行遍历来搜寻和登记文件的，这种做法不但占用大量日常作业任务还浪费了资源和金钱。而MapR的分布式管理节点数量与节点总数保持线型增长，对文件数量没有任何限制。
具有性能优势。别的Hadoop发行版由于集群内的所有元数据操作（如查询、创建）必须通过单一的管理节点才能实现，使得系统性能受到制约。这一问题既影响了系统性能，又限制了集群所能处理的工作量。然而，MapR集群任一节点都能够存储和处理元数据，意味着规模更大的集群将获得更高的性能。

Hadoop高可用性及直接挂载NFS

MapR的若干创新使NFS的存取更好用也更稳定。通过使用虚拟IP地址保障集群的高可用性，令Hadoop更符合生产环境的要求。很多集群节点（乃至集群中的所有节点）都能作为NFS网关，同时MapR采用了透明的错误管理机制。用户还可以配置负载均衡使得客户端能够均匀地分布到整个NFS网关中。此外，MapR允许NFS客户端控制数据块的大小（如：64MB、128MB、256MB），并能通过隐藏在每个目录下（类似于Linux中的/proc目录）的一个伪文件进行压缩设置。

使用快照方便地恢复数据

由于每天都要收集并处理海量的数据，因此对如此之多的数据原封不动地备份通常都是不现实的。与此同时，一旦遇到应用程序崩溃或操作失误，企业要求系统必须可以还原特定时间点上的数据。数据副本是其他Hadoop发行版提供的唯一数据保护手段，然而遗憾的是，数据副本只能在磁盘和节点失效的情况起作用，却无法应对整个集群处处都可能发生的用户或应用程序出现的错误。许多Hadoop用户正是由于这些错误才导致其重要数据的丢失。

MapR的快照功能允许组织自行创建还原点对象，通过提供时间点还原镜像来保护系统免受用户或程序的错误之苦。MapR快照由MapR控制系统进行管理并对MapR卷进行操作，它可以被设定成定期计划任务也可以根据需要来随时执行。对某个快照进行恢复就如同浏览快照目录或是把目录或文件拷入当前目录中一样简单。用户可以为个别的卷单独建立快照，也可以为不同的卷设定不同的快照任务计划。

MapR同样支持制订复杂的任务计划。例如，“重要”数据的快照计划可能包括：

一天24小时，每小时进行一次快照。

一周7天，每天中午12点整进行一次快照。

每周周日中午12点整进行一次快照，持续12周。

MapR快照具备高性能和低磁盘占用等优势：

速度极快。创建一份快照无需对数据进行拷贝，也就是说PB级别的一份快照在几秒钟内即可完成。

原子操作。快照操作都是原子性的，它具有完整的连续性。

不影响写性能。快照操作对写入操作性能没有任何影响。MapR使用的是直写操作，即系统中的每次写动作都将写入至磁盘的一个新块，直接写入操作比复制写入操作效率更高。

最小化存储占用。如果文件不被修改或删除，快照将不会占用任何磁盘空间。所有未作改动的数据块都同时被快照和卷内的即时读/写镜像所共用。因此，MapR的快照技术能够最低限度地占用磁盘空间，在目标数据块写入性能零损失的基础上还可以提供速度极快的分布式快照。

镜像

很多企业都需要对他们的数据创建时间点的物理备份，MapR的镜像功能能够满足企业的这一需求。MapR镜像有两种明显不同的使用形式：远程镜像（正如本小节所描述）应用于集群间的灾难恢复、研发与测试或是共有云与私有云的集成，本地镜像（参见性能小节）则用于同一集群内的负载均衡或性能增强。远程镜像能够支持众多的用例。

灾难恢复（Disaster recovery，DR）。组织可以应用远程镜像部署容灾性的另一个集群。该集群一般安置于其他数据中心或地区，一旦发生数据丢失便可利用容灾集群进行数据恢复，而且即便主集群受到灾害影响，所有的应用程序都可以切换至容灾集群上。
研究性集群。组织可以使用MapR轻松地部署一个与生产集群并行的研究性或测试性集群。管理员能够十分轻松地在研究性集群中创建卷的镜像，系统也会定期把生产环境中的数据镜像做到研究性集群之中。这一功能使用户可以在研究性集群的环境中处理真实的、最新的数据。
公有云与私有云的集成。由于绝大多数的组织都选择在自己的硬件平台上运行Hadoop，有的组织感到有时很有必要使用其他公有云集群（如Amazon EC2）来获取额外的计算能力。例如，某个组织决定在每周五晚都将使用EC2上的100个节点来满足特定的处理需求。MapR能够既简单又轻松地同步公有云集群与本地集群中的数据。
高效。MapR的镜像不同于其他发行版，因为镜像中仅对数据源的改动进行记存。例如，假设某一文件中仅有一个8KB的数据块被修改，在下一个镜像中也只有这个小块而非整个文件将被传送，这些数据在网络中传输时还要经过压缩并使用校验来确保数据的完整性。如果需要使用同一个卷的多个镜像，镜像可以被分层传送以减少对传输带宽的占用。存储原始卷的服务器对数据进行异步传输和并行处理，这并不会影响本地系统的性能。
在线传送或者线下储运。如果数据量过于巨大以致不适用网络进行传输，可以把镜像保存到数据源所在地的一个或更多可移动的磁盘或服务器中，随后将其物理地运送至目的地再进行装载（于是也被称为“步行网”）。网络和步行网的镜像可以相互操作。比如，可以在原集群中创建一份相当大的镜像，随后将其运输至很远的目的地，接着原集群便可从远程集群大量加载并同步数据。
原子操作。MapR的镜像功能基于MapR快照，具备原生的原子操作。当一个镜像操作所需的所有数据都被目标集群接收后，目标集群才会改变，也就意味着目标集群的更新也是原子性的。用户可以使用GUI、CLI或REST API工具来配置和监控镜像之间的关联。类似于快照任务计划，镜像任务计划也可以在卷层面上进行设置。

更快的Hadoop

MapR最初就被设计为一款具有十分突出的I/O和性能优势的Hadoop发行版。不论集群规模是大还是小、拥有一个还是上千节点，MapR都能提高集群的性能。

高性能架构

从一开始，为了提升性能MapR公司就已经进行了重新设计，打造出的MapR发行版具有多方面的架构特色，包括：

MapR无锁存储服务。MapR无锁存储服务加速了MapReduce的性能外还提供多维度的扩展性能。首先，在实际运行中为了避免锁定冲突，使用数据路由表而非互斥锁或自旋锁。其次，有许多用户应用程序分布在不同的节点中，为了维护执行这些程序所需的资源，弃用线程而采用了状态机。再有，MapR无锁存储服务不是通过HDFS或Linux文件系统层而是直接对块设备进行写入。
乐观性Shuffle。MapR的Shuffle过程利用了MapR无锁存储服务的特点来对Mapper和Reducer的任务进行排列。于是当Reducer读取Mapper输出时数据都是从磁盘（也可能是跨磁盘间）连续读出的，这种做法具有相当强的性能。乐观性的MapR Shuffle并不使用Linux页面缓存，从而避免了与用户应用程序抢占宝贵的内存资源。于是，MapR的Shuffle过程比其他发行版要快三倍。
分布式管理节点。由于其他Hadoop发行版依靠唯一的管理节点来管理整个集群的元数据操作。相反地，MapR的管理节点是分布式的，它的元数据操作遍布整个集群，因而具有更高级别的可伸缩性。
内建压缩机制。MapR对数据进行压缩以节省磁盘和网络I/O，整个过程完全透明。
开发语言。MapR底层是用C/C++进行编写的。除了能够获得更高的效率和性能外，选择这种语言进行开发还能克服其他发行版都头疼的垃圾收集问题。
多网卡支持。如今绝大部分服务器上都配备至少两块网卡（Network Interface Controllers，NICs）。MapR通过绑定网卡可以在每一个节点上使用多个网卡而无需在交换层绑定端口。在网络上的其他机器看来，MapR集群中的任何两块对等网卡只有一个端口是开放的。
最小化CPU或存储空间占用。在集群中MapReduce应用程序运行在相同的节点上并将其视为文件服务器，MapR从基础架构本身着手来最大程度地降低CPU和存储空间占用，从而确保能有充足的CPU、内存和其他资源来运行用户应用程序。此外，所有的MapR服务都作为用户空间进程执行——既提升了性能又不影响系统稳定。

性能特色

不仅仅是先进的架构，MapR的数据位置控制和本地镜像功能还可以让用户对Hadoop应用进行定制，进而使性能得到再次提升。

数据位置控制。MapR可以对数据位置进行控制，而其他发行版却无法控制集群内数据的物理存储位置。面对全部可用节点，数据位置控制可用于对卷设定访问策略使其仅对某一部分节点开放，也可以将某个卷单独绑定到指定机架或数据中心上，亦或是绑定到某些特定硬件配置的机器上。例如，一个需要对会话查询表进行随机和高频访问的应用程序，就可以将查询表所在的MapR的卷专门绑定到那些装配SSD硬盘驱动器的集群节点上，这将使集群性能获得极大的提升。
本地镜像及镜像卷。MapReduce会产生访问相同数据的大量进程。如果使用传统Hadoop技术，对一个文件系统元素的大量并发访问很快就会导致文件服务器的崩溃而使得整体性能下降，特别是在启动新作业时表现的更为明显。MapR中的用户可以使用本地镜像（又称为镜像卷）来创建卷的多个副本。这些副本都采用相同的路径进行访问并可同步更新，系统还能够自动地在这些副本中对读请求进行负载均衡处理。

性能测试

公司已经对MapR发行版进行了多项测试，比如流式I/O、随机I/O及MapReduce性能等，并与其他Apache Hadoop发行版进行比较来评估MapR的性能。结果参见后续小节。

流式I/O性能

作为Hadoop领域内的第一个I/O性能测试基准，DFSIO基准成为了衡量流式I/O性能的有用工具。通过运行一项多mappers和单reducer的MapReduce作业，重点考察mapper平均的转换率（用MB/s表示）。在本测试中，MapR工程师使用10个节点的集群进行测试。如图3所示。

图3 DFSIO测试（数值越大越好）显示MapR比其他发行版快三倍

系统采用10节点集群进行测试，每个节点的主要硬件配置是：两颗四核处理器、24GB内存和12块1TB 7200转SATA硬盘驱动器。正如在图中所示，MapR中的I/O几乎达到硬件设备的物理极限。CPU在测试中基本上处于闲置状态，说明了数据通道是高效的。测试中的写入速度由于校验而稍微有些偏低。

随机I/O性能

有些应用程序需要创建和访问数量众多的文件。为了对这方面性能进行评估，MapR工程师基于NNBench对比测试了MapR和其他发行版的效果，本测试是通过重复如下步骤来进行的：

新建一个文件

向文件中写入100字节

关闭文件

程序运行在10个相同节点的集群上，每个节点同时部署了传统Apache Hadoop发行版和MapR发行版。为了完成测试关闭了传统发行版中的块报告功能。测试的结果如图4所示。

图4 MapR在随机I/O测试中完胜传统发行版

MapR不论是在速度上（纵轴）还是在容量上（横轴）都获得十分出色的结果。实际上，由于差距如此之大以至于传统发行版的结果必须经过放大才能看到。即便关闭了块报告功能，传统发行版最多只能写入150万份文件随后曲线便陡然下降。与此不同，MapR完成9000万份文件写入任务时，速度才从12000份/秒降低到4000份/秒。结果说明MapR的扩展能力是普通发行版的60倍。

MapReduce性能

除了I/O，工程师也想对MapR的数据分析性能进行评估。采用Terasort测试，测验平台仍然是10节点集群进行测试，每个节点的硬件都含有两颗四核处理器、24GB内存和12块1TB 7200转SATA硬盘驱动器。Benchmark测试的结果如图5所示。

图5 在Terasort测试中（越小越好）MapR的性能几乎领先传统发行版近3倍

MapR及其他发行版的扩展性比较

结论

MapR相信不断加深的数据处理危机需要战略性地重视Hadoop平台的选择。虽然已经有许多发行版可以拿来使用，但只有与众不同的MapR发行版才突破了其他发行版的各种不足和限制（如表2所示）。MapR具有其他发行版根本不具备的独特特色和功能，包括：

简易的安装、部署和管理集群，全程可视化，操作简便

企业级的存储访问和存储管理，企业级的可靠性

由于性能的突破，可以通过显著降低硬件需求从而控制成本

MapR的努力和创新让Hadoop变得更加简单、可靠和快速，使其能够满足现今绝大多数应用的需要，而且我们也做好了迎接未来挑战的准备。

MapR及其他发行版的扩展性比较

MapR技术公司打造出了业内最快、最为可靠、也最易用的Aapche Hadoop发行版。本公司致力于推进Hadoop平台及其生态系统，使更多企业能够利用大数据分析的威力获得竞争优势。您可以访问公司网站www.mapr.com来获取更多信息。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop 数据分析 HDFS Linux Hive 大数据 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇随机森林 vs XGBoost vs 决策树：算法选择中的

下一篇图论在大数据分析中的作用！

一文读懂MapR，Apache Hadoop的MapR发行版白皮书

一文读懂MapR，Apache Hadoop的MapR发行版白皮书

概述

战略性的Hadoop

易用的Hadoop

可靠的Hadoop

更快的Hadoop

结论

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析