cd /opt/linuxsir
tar -zxvf hadoop-2.7.3.tar.gz
ls
mv hadoop-2.7.3 /opt/linuxsir/hadoop
在192.168.31.131虚拟机上编辑/root/.bashrc文件,然后复制到192.168.31.132、192.168.31.133
echo "" >> /root/.bashrc
echo "export HADOOP_PREFIX=/opt/linuxsir/hadoop" >> /root/.bashrc
echo "export HADOOP_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_COMMON_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop" >> /root/.bashrc
echo "export HADOOP_HDFS_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_MAPRED_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export HADOOP_YARN_HOME=$HADOOP_PREFIX" >> /root/.bashrc
echo "export PATH=$PATH:$HADOOP_PREFIX/sbin:$HADOOP_PREFIX/bin" >> /root/.bashrc
echo "export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"" >> /root/.bashrc
echo "export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native" >> /root/.bashrc
echo "export CLASSPATH=$CLASSPATH:/opt/linuxsir/hadoop/lib/*" >> /root/.bashrc
cat /root/.bashrc
\在192.168.31.131上,复制/root/.bashrc到132和133
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
\在192.168.31.131上,在131/132/133三台机器上运行/root/.bashrc,刷新环境
cd
source /root/.bashrc
ssh root@192.168.31.132 source /root/.bashrc
ssh root@192.168.31.133 source /root/.bashrc
cd /opt/linuxsir/hadoop \进入/opt/linuxsir/hadoop目录
rm -rf /opt/linuxsir/hadoop/tmp
rm -rf /opt/linuxsir/hadoop/hdfs
mkdir /opt/linuxsir/hadoop/tmp \创建tmp目录
mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name \创建hdfs的data、name子目录
\还要针对hd-slave1,hd-slave2等两个节点上执行上述命令,然后再初始化hdfs
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.132 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.132 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 rm -rf /opt/linuxsir/hadoop/hdfs
ssh root@192.168.31.133 mkdir /opt/linuxsir/hadoop/tmp
ssh root@192.168.31.133 mkdir -p /opt/linuxsir/hadoop/hdfs/data /opt/linuxsir/hadoop/hdfs/name
对若干配置文件进行设置,保证Hadoop能够正常启动。
(1) 主要的配置文件包括HADOOP_HOME目录下的
(2) 并且为如下文件配置环境变量
(3)master和slave
编辑/opt/linuxsir/hadoop/etc/hadoop目录下的core-site.xml文件
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:///opt/linuxsir/hadoop/tmp</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hd-master:9000</value><!-- NameNode URI -->
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
</configuration>
编辑/opt/linuxsir/hadoop/etc/hadoop目录下的hdfs-site.xml文件,内容如下
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///opt/linuxsir/hadoop/hdfs/name</value> <!-- 本机name目录for NameNode -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///opt/linuxsir/hadoop/hdfs/data</value> <!-- 本机data目录for DataNode -->
</property>
<property>
<name>dfs.replication</name> <!-- 数据块副本数量 -->
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hd-master:9001</value>
</property>
</configuration>
在/opt/linuxsir/hadoop/etc/hadoop目录下,复制mapred-site.xml.template到mapred-site.xml,并且进行编辑
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value> <!--yarn or yarn-tez-->
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hd-master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hd-master:19888</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name> <!-- memory for map task -->
<value>64</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name> <!-- memory for reduce task -->
<value>128</value>
</property>
<property>
<name>mapreduce.task.io.sort.mb</name>
<value>32</value>
</property>
<property>
<name>mapreduce.map.java.opts</name> <!-- settings for JVM map task -->
<value>-Xms128m -Xmx256m</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name> <!-- settings for JVM reduce task -->
<value>-Xms128m -Xmx256m</value>
</property>
</configuration>
在/opt/linuxsir/hadoop/etc/hadoop编辑yarn-site.xml
文件,对YARN资源管理器的ResourceManager和NodeManagers节点、端口、内存分配等进行配置
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hd-master</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hd-master:9032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hd-master:9030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hd-master:9031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hd-master:9033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hd-master:9099</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.app.mapreduce.am.resource.mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.app.mapreduce.am.command-opts</name>
<value>-Xms128m -Xmx256m</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>8</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
进入hadoop-env.sh脚本文件所在目录/opt/linuxsir/hadoop/etc/Hadoop
export JAVA_HOME=/opt/linuxsir/java/jdk
接着,设置/opt/linuxsir/hadoop/etc/hadoop目录下yarn-env.sh脚本文件的JAVA_HOME变量,内容如下
export JAVA_HOME=/opt/linuxsir/java/jdk
如果NodeManager因为内存不足,而启动不起来,那么yarn-env.sh文件需要做如下修改,即JAVA_HEAP_MAX改为3G
JAVA_HEAP_MAX=-Xmx3072m
修改/opt/linuxsir/hadoop/etc/hadoop/masters文件和/opt/linuxsir/hadoop/etc/hadoop/slaves文件,目的是指定主节点和从节点列表。
/opt/linuxsir/hadoop/etc/hadoop/masters文件的内容如下,即主节点为hd-master
hd-master
/opt/linuxsir/hadoop/etc/hadoop/slaves文件的内容如下,即从节点为hd-slave1和hd-slave2
hd-slave1
hd-slave2
从192.168.31.131虚拟机复制Hadoop到其它各个节点,包括192.168.31.132、192.168.31.133。 在192.168.31.131上运行如下命令
chmod a+rwx -R /opt/linuxsir \设置/opt/linuxsir的存取权限
ssh root@192.168.31.132 chmod a+rwx -R /opt/linuxsir
ssh root@192.168.31.133 chmod a+rwx -R /opt/linuxsir
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \复制/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
scp -r /opt/linuxsir/hadoop hd-slave1:/opt/linuxsir \复制/opt/linuxsir/hadoop
scp -r /opt/linuxsir/hadoop hd-slave2:/opt/linuxsir
source ~/.bashrc \刷新环境变量
ssh root@192.168.31.132 source ~/.bashrc
ssh root@192.168.31.133 source ~/.bashrc
大数据分析师教程-Hadoop安装与HDFS、MapReduce实验:Hadoop安装、配置文件 Hadoop安装、配置和启动解压缩Hadoop安装包及设置环 ...
2024-10-13掌握数据分析原理并从理论到实践全面解析,需要系统地学习和应用多个领域的知识和技能。以下是详细的步骤和建议: 1. 建立基础知 ...
2024-10-12在现代数据分析领域,拥有一个强大且高效的集成开发环境(IDE)是至关重要的。PyCharm,作为一款功能强大的Python IDE,在数据分 ...
2024-10-12在当今信息化社会中,数据无处不在,而数据模型(Data Model)则是理解和管理这些数据的关键工具。数据模型是对现实世界数据特征 ...
2024-10-121.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2024-10-124. 区间估计 还以为你被上节课的内容唬住了~终于等到你,还好没放弃! 本节我们将说明两个问题:总体均值 的区间估计和总体比例 ...
2024-10-12大数据分析是当今世界一些最重要行业进步背后的推动力,包括医疗、政府和金融等领域。了解更多关于如何处理大数据以及开始时使用 ...
2024-10-12作者:鱼仔 某中厂老兵|CDA2级持证人|数据践行者 作为一名数据分析师,很多人都会问,数据分析师究竟是干什么的?这个职 ...
2024-10-12作者:鱼仔 某中厂老兵|CDA2级持证人|数据践行者 作为一名数据分析师,你可能会被朋友或同事问到:“数据分析师到底是干 ...
2024-10-12在大数据领域,有几个职业路径特别值得关注,因为它们不仅需求量大,而且薪资水平较高,发展前景广阔。以下是一些值得关注的大数 ...
2024-10-12大数据(Big Data)是指数据量巨大、类型多样、处理速度快的数据集合。这个概念通常与数据的四个主要特征相关,即所谓的“4V”: ...
2024-10-12大数据管理与应用专业是一个跨学科的专业,结合了管理学、经济学、统计学和计算机科学等多个学科的知识,旨在培养能够适应大数 ...
2024-10-12大数据分析师教程 大数据分析师教程-Hadoop安装与HDFS、MapReduce实验:集群网络配置、JDK安装、无密码登录ssh 新建虚拟机集群逻 ...
2024-10-12作为数据分析师从业者,获得CDA(Certified Data Analyst)认证可以为你的职业发展带来多方面的好处: 专业技能提升:CDA认证涉 ...
2024-10-11CDA认证在多个行业和公司中都非常受欢迎,尤其是在需要数据分析和数字化转型的领域。根据搜索结果,以下是一些特别欢迎CDA认证的 ...
2024-10-11获得CDA认证后,规划职业发展路径时,可以考虑以下几个方向: 技术深化:继续深化数据分析技能,学习Python、R等编程语言,以及 ...
2024-10-11在备考过程中,平衡工作和学习是非常重要的,以避免过度疲劳和压力过大。以下是一些建议,可以帮助你更有效地管理时间和精力: ...
2024-10-11为了制定一个有效的CDA备考计划,你可以遵循以下步骤: 了解考试要求:首先,你需要了解CDA考试的大纲和要求。根据搜索结果,你 ...
2024-10-11大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-11数据分析作为一个跨学科领域,吸引了来自不同专业背景的学生和从业者。随着数据在各个行业的重要性不断增加,数据分析专业的毕业 ...
2024-10-10