热线电话：13121318867

首页大数据时代大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

2024-10-13

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

Hadoop安装、配置和启动
- 解压缩 Hadoop安装包及设置环境变量
- 创建数据存放目录
- 配置文件设置、环境变量、主从节点指定
- 复制 Hadoop到其它各个节点
- 推荐学习书籍

Hadoop安装、配置和启动

下载Hadoop，我们使用的版本是Hadoop2.7.3

解压缩 Hadoop安装包及设置环境变量

解压缩 Hadoop安装包，并且对安装目录进行重命名

cd /opt/linuxsir
tar -zxvf hadoop-2.7.3.tar.gz 
 
ls
mv hadoop-2.7.3 /opt/linuxsir/hadoop

在192.168.31.131虚拟机上编辑/root/.bashrc文件，然后复制到192.168.31.132、192.168.31.133

echo "" >> /root/.bashrc
echo "export HADOOP_PREFIX=/opt/linuxsir/hadoop" >> /root/.bashrc
echo "export HADOOP_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_COMMON_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop" >> /root/.bashrc
echo "export HADOOP_HDFS_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_MAPRED_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_YARN_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export PATH=$PATH:$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin" >> /root/.bashrc
 
echo "export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"" >> /root/.bashrc
echo "export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native" >> /root/.bashrc
 
echo "export CLASSPATH=$CLASSPATH:/opt/linuxsir/hadoop/lib/*" >> /root/.bashrc
 
cat /root/.bashrc

\在192.168.31.131上，复制/root/.bashrc到132和133
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
\在192.168.31.131上，在131/132/133三台机器上运行/root/.bashrc，刷新环境
cd 
source /root/.bashrc
ssh root@192.168.31.132 source /root/.bashrc
ssh root@192.168.31.133 source /root/.bashrc

创建数据存放目录

cd /opt/linuxsir/hadoop                  \进入/opt/linuxsir/hadoop目录
rm -rf /opt/linuxsir/hadoop/tmp
rm -rf /opt/linuxsir/hadoop/hdfs
mkdir /opt/linuxsir/hadoop/tmp           \创建tmp目录
mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name \创建hdfs的data、name子目录
 
\还要针对hd-slave1,hd-slave2等两个节点上执行上述命令，然后再初始化hdfs
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.132 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name
 
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.133 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name

配置文件设置、环境变量、主从节点指定

对若干配置文件进行设置，保证Hadoop能够正常启动。

(1) 主要的配置文件包括HADOOP_HOME目录下的

etc/hadoop/core-site.xml
etc/hadoop/hdfs-site.xml
etc/hadoop/yarn-site.xml
etc/hadoop/mapred-site.xml等文件

(2) 并且为如下文件配置环境变量

etc/hadoop/hadoop-env.sh
etc/hadoop/yarn-env.sh
etc/hadoop/mapred-env.sh等

(3)master和slave

masters
slaves

配置文件设置

编辑/opt/linuxsir/hadoop/etc/hadoop目录下的core-site.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>hadoop.tmp.dir</name>
    <value>file:///opt/linuxsir/hadoop/tmp</value>
</property>
 
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hd-master:9000</value><!-- NameNode URI -->
</property>
 
<property>
    <name>io.file.buffer.size</name>
    <value>131702</value>
</property>
</configuration>

编辑/opt/linuxsir/hadoop/etc/hadoop目录下的hdfs-site.xml文件，内容如下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/name</value> <!-- 本机name目录for NameNode -->
</property>
 
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///opt/linuxsir/hadoop/hdfs/data</value> <!-- 本机data目录for DataNode -->
</property>
 
<property>
    <name>dfs.replication</name> <!-- 数据块副本数量 -->
    <value>2</value>
</property>
 
<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>
 
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hd-master:9001</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop目录下，复制mapred-site.xml.template到mapred-site.xml，并且进行编辑

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value> <!--yarn or yarn-tez-->
</property>
 
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hd-master:10020</value>
</property>
 
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hd-master:19888</value>
</property>
<property>
    <name>mapreduce.map.memory.mb</name> <!-- memory for map task -->
    <value>64</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name> <!-- memory for reduce task -->
    <value>128</value>
</property>
<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>32</value>
</property>
 
<property>
    <name>mapreduce.map.java.opts</name> <!-- settings for JVM map task -->
    <value>-Xms128m -Xmx256m</value>
</property>
<property>
    <name>mapreduce.reduce.java.opts</name> <!-- settings for JVM reduce task -->
    <value>-Xms128m -Xmx256m</value>
</property>
</configuration>

在/opt/linuxsir/hadoop/etc/hadoop编辑yarn-site.xml文件，对YARN资源管理器的ResourceManager和NodeManagers节点、端口、内存分配等进行配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hd-master</value>
</property>
 
<property>
    <name>yarn.resourcemanager.address</name>
    <value>hd-master:9032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hd-master:9030</value>
</property>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hd-master:9031</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>hd-master:9033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hd-master:9099</value>
</property>
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.resource.mb</name>
    <value>1024</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.command-opts</name>
    <value>-Xms128m -Xmx256m</value>
</property>

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>8</value>
</property>
<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>1</value>
</property>
 
 
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

进入hadoop-env.sh脚本文件所在目录/opt/linuxsir/hadoop/etc/Hadoop

设置环境变量

export JAVA_HOME=/opt/linuxsir/java/jdk

接着，设置/opt/linuxsir/hadoop/etc/hadoop目录下yarn-env.sh脚本文件的JAVA_HOME变量，内容如下

export JAVA_HOME=/opt/linuxsir/java/jdk

如果NodeManager因为内存不足，而启动不起来，那么yarn-env.sh文件需要做如下修改，即JAVA_HEAP_MAX改为3G

JAVA_HEAP_MAX=-Xmx3072m

指定主从节点列表

修改/opt/linuxsir/hadoop/etc/hadoop/masters文件和/opt/linuxsir/hadoop/etc/hadoop/slaves文件，目的是指定主节点和从节点列表。

/opt/linuxsir/hadoop/etc/hadoop/masters文件的内容如下，即主节点为hd-master

hd-master

/opt/linuxsir/hadoop/etc/hadoop/slaves文件的内容如下，即从节点为hd-slave1和hd-slave2

hd-slave1
hd-slave2

复制Hadoop到其它各个节点

从192.168.31.131虚拟机复制Hadoop到其它各个节点，包括192.168.31.132、192.168.31.133。在192.168.31.131上运行如下命令

chmod a+rwx -R /opt/linuxsir \设置/opt/linuxsir的存取权限
ssh root@192.168.31.132 chmod a+rwx -R /opt/linuxsir 
ssh root@192.168.31.133 chmod a+rwx -R /opt/linuxsir
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \复制/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 
scp -r /opt/linuxsir/hadoop hd-slave1:/opt/linuxsir \复制/opt/linuxsir/hadoop
scp -r /opt/linuxsir/hadoop hd-slave2:/opt/linuxsir
 
source ~/.bashrc  \刷新环境变量
ssh root@192.168.31.132 source ~/.bashrc
ssh root@192.168.31.133 source ~/.bashrc

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分，通过该小程序，考生可以享受更便捷的服务。扫码加入CDA小程序，与圈内考生一同学习、交流、进步！

大数据分析师教程-1.2Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验：Hadoop安装、配置文件

Hadoop安装、配置和启动

解压缩Hadoop安装包及设置环境变量

创建数据存放目录

配置文件设置、环境变量、主从节点指定

配置文件设置

设置环境变量

指定主从节点列表

复制Hadoop到其它各个节点

推荐学习书籍

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】金融行业高频SQL场景与实战语句全解析 ...

【CDA干货】一文分清：独立样本t检验与卡方检验的核 ...

CDA数据分析师：串联数据仓库与ETL，构建高质量数据 ...

CDA数据分析师认证考试报名费是多少

CDA中国官网

【CDA干货】Power BI矩阵动态计算平均值全指南：从 ...

【CDA干货】SQL日期转期间全攻略：函数用法、场景实 ...

CDA数据分析师：以数据建模为翼，实现从数据解读到 ...

【CDA干货】数据透视表旁备注列同步难题破解：排序/ ...

【CDA干货】MySQL ADD INDEX：从语法到性能优化的全 ...

CDA数据分析师：以数据分类为基，筑牢数据治理与价 ...

【CDA干货】Tableau驱动同比环比分析：让数据趋势洞 ...

【CDA干货】从数据到价值：用户行为分析系统的核心 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】数据降维与分组的“三叉戟”：析因、聚 ...

【CDA干货】Transformer的“记忆漏洞”：灾难性遗忘 ...

CDA数据分析师：用效应分解法，拆解时间序列背后的 ...

【CDA干货】超小数据集训练Loss的极限探索：非过拟 ...

【CDA干货】数据仓库数据清洗：从“脏数据”到“可 ...

CDA数据分析师：以时间序列为尺，洞察数据动态价值 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

解压缩 Hadoop安装包及设置环境变量