内容目录
概述
战略性的Hadoop
完整、先进、拥有强力支持的Hadoop发行版
易用的Hadoop
从批处理转向实时数据流
内建数据压缩机制
多集群支持
筹划、搭建和管理集群
MapR的卷
轻松的规模化管理
可靠的Hadoop
避免作业丢失
用于大规模并具有高可用性的分布式管理节点
Hadoop高可用性及直接挂载NFS
使用快照方便地恢复数据
镜像
更快的Hadoop
高性能架构
性能特色
性能测试
结论
现在每天都有2百万人使用着互联网,每一次通话、每一条推特、每一封电子邮件、每一个下载或每一回购物都产生出有价值的信息。企业越来越依赖于使用Hadoop从迅猛增长的数据中发掘潜藏的价值,促进企业利润的增长。仅仅Orbitz这家旅游网站每月就有460万人次的访问量,社交网站Facebook的用户数量从4亿变为5亿只用了不到半年的时间,而社交游戏网站Zynga近来供应了750万份虚拟情人节蛋糕。这些公司有一个共同点:依靠Hadoop处理海量数据从而推动业务的发展。
Hadoop可不是只能分析点击流,诸如传感器输出数据、视频、日志文件、位置数据、基因信息、行为甚至地震分析等数据,这些只是在各种政府机关及各个层次企业中Hadoop所能够大显身手的一小部分数据源而已。不过Hadoop并不完美,用过Hadoop的人就会明白Hadoop所面临的挑战及其不足之处。目前市面上虽有6种不同的Hadoop发行版可供选择,然而这些发行版不但配置方案一样,而且都存在单点故障、数据丢失的风险及性能瓶颈这样的缺陷。
我们为您带来一个更好的新选择——Apache Hadoop的MapR发行版——最简单、最可靠、最快速的Hadoop发行版。
在您的组织对Hadoop发行版进行评估和选择时,应该紧密结合自身实际情况来确定评价标准。与发行版有关的重要问题包括:
易用性如何?
能够多大程度上方便地在集群中移动数据?
集群能否被用户、工作任务和不同地理分布所便捷地共享?
集群是否既能处理大量文件,也可以使拥护轻松应对访问、保护和安全问题?
可靠性如何?
对于生产和商务的关键性数据它能否胜任?
怎样对业务的持续性给予支持?
集群能否用从用户或程序错误中恢复数据?
能否对不同集群间的数据进行镜像?
性能如何?
处理能力是否受到批处理应用程序的限制?
管理节点是否会成为性能瓶颈?
系统能否充分利用硬件资源?
MapR所提出的创新方案将使更多企业可以更好地利用大数据分析的能力,本发行版的诸多新特点令Hadoop更易使用、更可信赖并使其性能得以显著提升,从而极大地拓展了Hadoop的应用和适用范围。
完整、先进、拥有强力支持的Hadoop发行版
大量社区开发者已经作出了杰出的贡献,在此基础上MapR又进行了创新。这些新的重要技术进步,使得MapR将Hadoop打造成为一个处理实时数据流的可信交互系统。
MapR对Apache Hadoop API的兼容性达到100%,如兼容MapReduce、HDFS和HBase的所有API。集MapR公司与社区精英的才智于一体且已打有最新补丁,MapR完整发行版不仅经过全面测试还具有MapR公司的支持。如图1所示,MapR提供完整的Hadoop组件体系,包括:
语言处理组件(Hive和Pig)
数据库组件(HBase)
工作流管理库(Oozie)
应用程序创建库(Mahout)
日志采集系统(Flume)
完整的MapReduce层
底层存储服务功能
MapR突破了其他Hadoop发行版的限制,无论一个还是几万个节点,MapR都能够轻松应对其上PB级的数据量。
为了让更多的用户容易地使用,也为了承载更大的任务量,Hadoop必须能让用户简单地使用、部署、运营和管理。MapR公司致力取得关键性技术突破,这些突破使得在集群中转移数据、扩展集群资源及管理大型Hadoop集群这样的任务不但变得更加容易,而且仅需很少的人力便可完成。
从批处理转向实时数据流
其他发行版采用了较为繁琐的批处理方式来管理数据,从而导致数据处理速度的降低。应用程序首先将数据转运到本地或附加的网络存储中。按照预先设定的时间间隔,数据被分批载入传统Apache Hadoop的一次性写入式文件系统中。最后,分析生成结果并将这些结果分批卸载以待进一步的分析。
标准的批处理方式使得在应用程序数据生成与Hadoop集群数据分析之间形成明显时滞。即使通过提高数据加载频率这样的手段可以最大程度地缩小这个时滞,却同时产生了数量众多的小文件,如此之多的小文件对于传统Hadoop扩展性的极限形成了巨大的挑战。此外,其他的Hadoop发行版也受到Hadoop分布式文件系统(HDFS)的限制,类似于常见的CD-ROM,HDFS也是一次性写入的文件系统,不仅不能够对已写入文件进行修改,也不允许对未关闭的文件进行读取。
与这些Hadoop发行版截然相反,MapR基于行业标准的网络文件系统(Network File System,NFS)协议,使用NFS直接存取技术对数据流进行实时读/写。利用该项技术,不但任一远程客户端都可方便地挂载集群文件系统,各个应用服务器还能够将日志或其他数据直接写入集群,而不必将数据先导入本地或网络存储之中。在MapR的无锁存储服务技术的支持下,MapR直接存取NFS技术让用户可以更快更经济地使用Hadoop:
有别与传统Hadoop一次性写入式的文件系统,MapR允许根据用户需要对文件进行修改、覆盖或读取。MapR无锁存储服务技术支持对任意文件进行多个并发的读/写操作。
用户可以使用图形化的文件浏览器访问和操作集群中的数据。使用文件浏览器,用户可以仅仅是浏览文件,也可以点击鼠标来自动打开有关应用程序,还可以拖拽文件或目录而使其移入或移出集群。
可以使用文本编辑器或集成开发环境(Integrated Development Environments,IDEs)直接编辑集群中的文件。
在MapR中,用户可以直接使用标准的命令行工具、UNIX应用程序及其他工具(如Grep、Sed、Tar、Sort和Tail)来处理集群中的数据。对其他Hadoop发行版而言,用户不是需要再进行开发,就是为了使用标准化工具而把数据从集群中拷贝出来。
如Flume之类的日志采集工具经常需要在每台应用服务器上额外运行代理程序,而MapR大大降低了对日志采集工具的依赖。MapR既允许应用服务器直接向集群中写入数据,也允许使用Rsync这样的标准化工具在本地磁盘和集群间同步数据。
应用程序的二进制代码、库及配置文件可以在直接在集群内部存储和访问,并且操作十分简单。
内建数据压缩机制
虽然一般的Hadoop发行版也可以对数据进行压缩,但实现起来既困难又低效。所以通常的做法是,先手工将数据进行压缩再将其拷入集群,而后执行指定的MapReduce任务对压缩的数据进行索引(假设应用程序需要采用并行处理)。为了达到压缩指标,还需要修改应用程序。
MapR的自动压缩功能在提升了性能的同时又能够对重要的存储进行备份。所以说,MapR压缩方案节省了网络I/O带宽和存储空间的占用。
多集群支持
不论是为了分发不同数据或应用程序,还是为了业务的持续性,亦或是出于性能考虑,企业都经常需要操作多个Hadoop集群。MapR内在的设计使其可以支持多集群作业、直接存取、远程镜像和多集群管理。
直接存取。所有的MapR Hadoop集群都可以让用户简单地在集群内外直接存取数据。假设一家组织拥有“dev”和“test”两个集群,人们可以在/mapr/dev目录下使用dev集群中的文件,也可以在/mapr/test目录下访问test集群中的文件。不管使用Hadoop集群直接访问(hadoop fs -ls /mapr/dev/user/jdoe)还是通过远程NFS方式(ls /mapr/dev/user/jdoe),访问路径都是相同的。除此之外,用户可以通过执行一个简单的命令(cp /mapr/dev/foo.txt /mapr/test/)就能够在不同集群之间拷贝文件,而且配置不同集群间的符号链接也是很容易的事情。
远程镜像。利用MapR镜像工具,用户可以很轻松地配置MapR来为不同集群的数据做镜像。MapR的这个功能不仅能够用于支撑持续性业务(为另一个集群做数据镜像),也能用于保障生产或研究中各个集群间的同步。
多集群管理。使用MapR控制系统(MCS),用户可以看到所有正在运行的MapR集群,也能够轻松地查看和切换可用集群。
筹划、搭建和管理集群
正如数据分析需求的不断增长一样,人们对昂贵的集群资源进行有效管理和利用的需求也在不断增长。不论是定位或存取数据,还是对数据施用策略,都对大规模数据的有效管理提出了一个巨大的挑战。集群的架构必须能够支撑应用程序、用户、部门和管理者对海量文件管理的需求。集群的应用和数据必须既能满足技术需求,又得兼顾企业利益。
企业级的应用方案,通常需要对下述问题进行考察:
需要怎样的CPU处理能力?(现在和将来)
需要怎样的存储能力?(现在和将来)
应用程序是否具有高I/O存储需求?
具有哪些的数据保护需求?
具有哪些业务持续性需求?
需要采用何种安全授权和存取控制的手段?
在MapReduce的环境下,上述问题则对Hadoop发行版全面性和灵活性提出了更高的要求。其他Hadoop发行版都是在文件层面上进行策略(如所有者、复制等)管理,事实上它无法处理可能面对的数以百万计的文件。MapR是企业级发行版,具有先进的数据管理功能,正如文章标题中所称,MapR可以让企业简单、容易而又经济地实现业务层次的各项目标。
MapR的卷
MapR的卷让用户便捷地存取和管理集群中的数据。为了容易被组织、管理和确保安全,MapR采用树状结构把相关的文件和目录都分类汇集起来形成卷。MapR的卷具有如下功能:
轻松的规模化管理
管理大规模的Hadoop集群,可视化和自动化非常必要。管理员的确没有时间对服务器进行逐一排障和管理。在高级的数据管理和自我恢复功能帮助下,仅需一个管理员就能轻松管理上千个节点的MapR集群。
MapR的下述特点令管理变得更加容易:
MapR控制系统(MCS)对集群的资源和对集群的操作实现完全可视化。如图2所示,通过集群拓扑的组织(例如数据中心和机架),MCS所包含的MapR Hadoop Heatmap工具被设计用于对上千的节点进行管理,它能够以可视化的形式展现节点的健康情况、服务状态和资源使用状况。若要了解整个集群的健康情况,MapR Hadoop Heatmap让您一看便知。对于数量众多的节点、文件和卷,用户可以利用过滤器直接选取指定的部分,也可以使用群管理器直接运行管理动作。
可靠性对于业务的持续运营至关重要,企业对系统的可靠性、可用性和存储能力都有着较高要求——对于生产性数据尤其如此。与其他发行版不同,MapR采用了完全分布式的架构来满足企业级集群运行需求,并提供可信的数据存储以确保在共享环境下数据依旧安全:
避免作业丢失
Hadoop利用作业调度器(JobTracker)跟踪遍布集群不计其数的Mapper和Reduce任务。不幸的是其他发行版中的作业调度器仅在一个节点上运行,使得整个集群存在单点故障的可能性。一旦作业调度器失效,所有正在运行的作业都将失效,而且所有进程也将丢失。此外,管理员首先还必须首先能够探查到问题的根源,然后手动重启作业调度器使集群重新恢复正常。
MapR拥有高可用的作业调度器,它在缩减恢复时间的同时还支持集群自我恢复。若是某个作业调度器失效,任务控制器将自动暂停,此时集群中会有另一个节点上的MapR作业调度器自动启动,任务管理器将等待直至重新连接到新启动的作业控制器。整个过程中所有正在运行的作业或任务都将继续运行,而不会出现作业失效或丢失进程的现象。
用于大规模并具有高可用性的分布式管理节点
在Hadoop中,管理节点追踪并记录集群中数据的所在位置。其他发行版里,即使是规模很大的集群,仍然使用单台服务器来运行管理节点,这会产生很多问题。MapR采用分布式管理节点而解决了这些问题。
Hadoop高可用性及直接挂载NFS
MapR的若干创新使NFS的存取更好用也更稳定。通过使用虚拟IP地址保障集群的高可用性,令Hadoop更符合生产环境的要求。很多集群节点(乃至集群中的所有节点)都能作为NFS网关,同时MapR采用了透明的错误管理机制。用户还可以配置负载均衡使得客户端能够均匀地分布到整个NFS网关中。此外,MapR允许NFS客户端控制数据块的大小(如:64MB、128MB、256MB),并能通过隐藏在每个目录下(类似于Linux中的/proc目录)的一个伪文件进行压缩设置。
使用快照方便地恢复数据
由于每天都要收集并处理海量的数据,因此对如此之多的数据原封不动地备份通常都是不现实的。与此同时,一旦遇到应用程序崩溃或操作失误,企业要求系统必须可以还原特定时间点上的数据。数据副本是其他Hadoop发行版提供的唯一数据保护手段,然而遗憾的是,数据副本只能在磁盘和节点失效的情况起作用,却无法应对整个集群处处都可能发生的用户或应用程序出现的错误。许多Hadoop用户正是由于这些错误才导致其重要数据的丢失。
MapR的快照功能允许组织自行创建还原点对象,通过提供时间点还原镜像来保护系统免受用户或程序的错误之苦。MapR快照由MapR控制系统进行管理并对MapR卷进行操作,它可以被设定成定期计划任务也可以根据需要来随时执行。对某个快照进行恢复就如同浏览快照目录或是把目录或文件拷入当前目录中一样简单。用户可以为个别的卷单独建立快照,也可以为不同的卷设定不同的快照任务计划。
MapR同样支持制订复杂的任务计划。例如,“重要”数据的快照计划可能包括:
一天24小时,每小时进行一次快照。
一周7天,每天中午12点整进行一次快照。
每周周日中午12点整进行一次快照,持续12周。
MapR快照具备高性能和低磁盘占用等优势:
速度极快。创建一份快照无需对数据进行拷贝,也就是说PB级别的一份快照在几秒钟内即可完成。
原子操作。快照操作都是原子性的,它具有完整的连续性。
不影响写性能。快照操作对写入操作性能没有任何影响。MapR使用的是直写操作,即系统中的每次写动作都将写入至磁盘的一个新块,直接写入操作比复制写入操作效率更高。
最小化存储占用。如果文件不被修改或删除,快照将不会占用任何磁盘空间。所有未作改动的数据块都同时被快照和卷内的即时读/写镜像所共用。因此,MapR的快照技术能够最低限度地占用磁盘空间,在目标数据块写入性能零损失的基础上还可以提供速度极快的分布式快照。
镜像
很多企业都需要对他们的数据创建时间点的物理备份,MapR的镜像功能能够满足企业的这一需求。MapR镜像有两种明显不同的使用形式:远程镜像(正如本小节所描述)应用于集群间的灾难恢复、研发与测试或是共有云与私有云的集成,本地镜像(参见性能小节)则用于同一集群内的负载均衡或性能增强。远程镜像能够支持众多的用例。
MapR最初就被设计为一款具有十分突出的I/O和性能优势的Hadoop发行版。不论集群规模是大还是小、拥有一个还是上千节点,MapR都能提高集群的性能。
高性能架构
从一开始,为了提升性能MapR公司就已经进行了重新设计,打造出的MapR发行版具有多方面的架构特色,包括:
性能特色
不仅仅是先进的架构,MapR的数据位置控制和本地镜像功能还可以让用户对Hadoop应用进行定制,进而使性能得到再次提升。
性能测试
公司已经对MapR发行版进行了多项测试,比如流式I/O、随机I/O及MapReduce性能等,并与其他Apache Hadoop发行版进行比较来评估MapR的性能。结果参见后续小节。
流式I/O性能
作为Hadoop领域内的第一个I/O性能测试基准,DFSIO基准成为了衡量流式I/O性能的有用工具。通过运行一项多mappers和单reducer的MapReduce作业,重点考察mapper平均的转换率(用MB/s表示)。在本测试中,MapR工程师使用10个节点的集群进行测试。如图3所示。
系统采用10节点集群进行测试,每个节点的主要硬件配置是:两颗四核处理器、24GB内存和12块1TB 7200转SATA硬盘驱动器。正如在图中所示,MapR中的I/O几乎达到硬件设备的物理极限。CPU在测试中基本上处于闲置状态,说明了数据通道是高效的。测试中的写入速度由于校验而稍微有些偏低。
随机I/O性能
有些应用程序需要创建和访问数量众多的文件。为了对这方面性能进行评估,MapR工程师基于NNBench对比测试了MapR和其他发行版的效果,本测试是通过重复如下步骤来进行的:
新建一个文件
向文件中写入100字节
关闭文件
程序运行在10个相同节点的集群上,每个节点同时部署了传统Apache Hadoop发行版和MapR发行版。为了完成测试关闭了传统发行版中的块报告功能。测试的结果如图4所示。
MapR不论是在速度上(纵轴)还是在容量上(横轴)都获得十分出色的结果。实际上,由于差距如此之大以至于传统发行版的结果必须经过放大才能看到。即便关闭了块报告功能,传统发行版最多只能写入150万份文件随后曲线便陡然下降。与此不同,MapR完成9000万份文件写入任务时,速度才从12000份/秒降低到4000份/秒。结果说明MapR的扩展能力是普通发行版的60倍。
MapReduce性能
除了I/O,工程师也想对MapR的数据分析性能进行评估。采用Terasort测试,测验平台仍然是10节点集群进行测试,每个节点的硬件都含有两颗四核处理器、24GB内存和12块1TB 7200转SATA硬盘驱动器。Benchmark测试的结果如图5所示。
MapR相信不断加深的数据处理危机需要战略性地重视Hadoop平台的选择。虽然已经有许多发行版可以拿来使用,但只有与众不同的MapR发行版才突破了其他发行版的各种不足和限制(如表2所示)。MapR具有其他发行版根本不具备的独特特色和功能,包括:
简易的安装、部署和管理集群,全程可视化,操作简便
企业级的存储访问和存储管理,企业级的可靠性
由于性能的突破,可以通过显著降低硬件需求从而控制成本
MapR的努力和创新让Hadoop变得更加简单、可靠和快速,使其能够满足现今绝大多数应用的需要,而且我们也做好了迎接未来挑战的准备。
MapR技术公司打造出了业内最快、最为可靠、也最易用的Aapche Hadoop发行版。本公司致力于推进Hadoop平台及其生态系统,使更多企业能够利用大数据分析的威力获得竞争优势。您可以访问公司网站www.mapr.com来获取更多信息。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16