在进行分布式架构的学习前,首先需进行基础环境准备。众所周知,在单机运算能力无法满足处理海量数据的
运算能力时,人们普遍开始考虑使用分布式运算来代替单机运算,从而实现调动多台物理机的计算资源为一个计算
目标服务这一目标,进而解决单机运算能力瓶颈问题。当然,这也成为了大数据分析和小数据分析最显著的区别之
一——即使用的工具不同。而当前大数据行业标准是使用Hadoop及其生态组件来执行分布式处理,这也是我们的
学习目标。
尽管分布式集群的主要目标在于连接多台的物理机,以达到整理运算能力线性增长的效果,在学习过程中,我们仍
然可以在单台物理机上模拟搭建和运行分布式集群。通常来说,单台物理机上模拟分布式集群有两种方法,其一是
利用Hadoop进行分进程的分布式模拟,即一般意义上的伪分布式,通常用于实验和测试;其二则是利用虚拟化软
件,将一台物理机分为三台虚拟物理机,然后搭建分布式集群。其中后者与实际工作情景无异,只不过在物理机本
身运算能力上有所差别,企业多用服务器级物理机,而在学习过程中个人电脑性能可能稍差。本教程将针对两种分
布式集群搭建方法进行教学,同时也将更加侧重分布式集群的搭建。
尽管Apache Hadoop可适用于Windows、Linux和Mac OS操作系统,但就其稳定性而言,我们首推Linux系统或
Mac OS系统,而二者相比选择Linux系统适用面更为广泛,因此本次教学我们将在Linux系统中安装Hadoop。由
于个人用户普遍使用Windows或Mac OS系统,我们需要在当前操作系统中虚拟一个Linux系统,因此,虚拟化工
具就是我们需要掌握和使用的第一个软件。除此之外,由于将要设计多个虚拟机的统一管理和多个终端的操作,因
此我们还需要掌握一些终端管理软件和文件传输软件的基本操作方法。这些软件将在后面使用过程中进行详细介
绍。
暂无数据