热线电话:13121318867

登录
首页大数据时代大数据分析师教程-1.1 Hadoop安装与HDFS、MapReduce实验:集群网络配置、JDK安装、无密码登录ssh
大数据分析师教程-1.1 Hadoop安装与HDFS、MapReduce实验:集群网络配置、JDK安装、无密码登录ssh
2024-10-12
收藏

大数据分析师教程

大数据分析师教程-Hadoop安装与HDFS、MapReduce实验:集群网络配置、JDK安装、无密码登录ssh


新建虚拟机集群逻辑说明

在一台虚拟机上安装了CentOS以后,可以复制该虚拟机(复制虚拟机Image所在目录),并且修改主机名、进行网络配置修改(IP地址),构造3台虚拟机构成的集群

如果通过复制虚拟机Image的方式,建立另外两个虚拟机碰到问题,不好解决。所以最好是新建虚拟机2和虚拟机3,全新安装CentOS和进行相关配置,包括网络配置、Samba、SSHD、Yum等


集群网络配置

vm里面有3台主机,每个主机都是centos系统,上面都安装了Hadoophd-master节点的配置如下

  • ip:192.168.31.131
  • mask:255.255.255.0
  • gateway:192.168.31.2

hd-slave1节点的配置如下

  • ip:192.168.31.132
  • mask:255.255.255.0
  • gateway:192.168.31.2

hd-slave2节点的配置如下

  • ip:192.168.31.133
  • mask:255.255.255.0
  • gateway:192.168.31.2
  • DNS:``

windows的vmnet8配置如下

  • ip:192.168.31.1
  • mask:255.255.255.0
  • gateway:192.168.31.2
  • DNS:``

无线网卡节点的配置如下

  • ip:192.168.1.100
  • mask:255.255.255.0
  • gateway:192.168.1.1
  • DNS:``

介绍Hadoop的安装和配置

安装JDK

为了安装Hadoop,首先需要安装特定版本的JDK 查看安装的JDK信息

rpm -qa | grep java

卸载当前的jdk

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.31-2.b13.el7.x86_64
 
rpm -e --nodeps tzdata-java-2015a-1.el7.noarch
 
rpm -e --nodeps java-1.8.0-openjdk-1.8.0.31-2.b13.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0.x86_64
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.34-1.13.6.1.el7_0.x86_64

下载JDK

将安装包jdk-8u144-linux-x64.tar.gz 传到/opt/linuxsir/java

解压和安装

mkdir -p /opt/linuxsir/java
cd /opt/linuxsir/java
 
tar -zxvf /opt/linuxsir/java/jdk-8u144-linux-x64.tar.gz
ls jdk1.8.0_144
mv jdk1.8.0_144 jdk
 
ls /opt/linuxsir/java/jdk

配置JDK

编辑/root/.bashrc文件,增加如下内容

ls /opt/linuxsir/java/jdk/jre/lib/rt.jar           \查看文件是否存在
ls /opt/linuxsir/java/jdk/lib/dt.jar
ls /opt/linuxsir/java/jdk/lib/tools.jar
 
echo "export JAVA_HOME=/opt/linuxsir/java/jdk" >> /root/.bashrc
echo "export JRE_HOME=$JAVA_HOME/jre" >> /root/.bashrc
echo "export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH" >> /root/.bashrc
      
echo "export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar" >> /root/.bashrc
 
cat /root/.bashrc

重新读取并生效.bashrc

cd                 \进入/root目录,即root用户的主目录
source .bashrc
同步三台虚拟机
scp -r /opt/linuxsir/java/jdk root@192.168.31.132:/opt/linuxsir/java \拷贝jdk
scp -r /opt/linuxsir/java/jdk root@192.168.31.133:/opt/linuxsir/java
 
scp -r /root/.bashrc root@192.168.31.132:/root/.bashrc \拷贝/root/.bashrc
scp -r /root/.bashrc root@192.168.31.133:/root/.bashrc
 

ssh root@192.168.31.132 source ~/.bashrc \刷新环境变量
ssh root@192.168.31.133 source ~/.bashrc
 
ssh root@192.168.31.132 java -version \查看JDK版本
ssh root@192.168.31.133 java -version

配置各个虚拟机别名/etc/hostname

为192.168.31.131、192.168.31.132、192.168.31.133等3台虚拟机配置别名

三台机器的/etc/hostname的内容分别是hd-master、hd-slave1、hd-slave2

比如,在192.168.31.131上

cat /etc/hostname
 
rm -rf /etc/hostname
touch /etc/hostname
 
echo "hd-master" >> /etc/hostname
cat /etc/hostname| grep hd-master

另外2个主机运行类似的命令,注意主机名分别为hd-slave1、hd-slave2。

配置各个虚拟机的/etc/hosts文件

192.168.31.131、192.168.31.132、192.168.31.133三台虚拟机的/etc/hosts内容一样

192.168.31.131 hd-master
192.168.31.132 hd-slave1
192.168.31.133 hd-slave2
 
127.0.0.1 localhost                \ 这行放在最后

在三台虚拟机上执行如下命令

rm -rf /etc/hosts
touch /etc/hosts
 
echo "192.168.31.131 hd-master" >>/etc/hosts
echo "192.168.31.132 hd-slave1" >>/etc/hosts
echo "192.168.31.133 hd-slave2" >>/etc/hosts
echo "127.0.0.1 localhost" >>/etc/hosts
echo "" >>/etc/hosts
 
cat /etc/hosts
无密码ssh登录

Linux虚拟机之间的无密码ssh登录,使得我们可以在hd-master上,方便地启动Hadoop服务进程,这些服务进程包括主节点的进程和从节点的进程

当从主节点启动从节点的进程的时候,系统无需等待用户输入密码

在192.168.31.131、192.168.31.132、192.168.31.133三台虚拟机上执行如下命令,配置sshd

编辑/etc/ssh/sshd_config,去掉以下两行注释,即把行首的#去掉,并且设置AuthorizedKeysFile

#RSAAuthentication yes    # 启用 RSA 认证
#PubkeyAuthentication yes    # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys    # 公钥文件路径(和下面生成的文件同名)

无密码ssh登录 在192.168.31.131、192.168.31.132、192.168.31.133上执行如下命令,生成key

 
whoami
cd
pwd
 
ssh-keygen -t rsa                     \生成密钥文件
ls /root/.ssh/id_rsa                    \文件在/root/.ssh/id_rsa

在192.168.1.131上执行如下命令,从另外两台机器(132/133),合并公钥到authorized_keys文件

cd ~/.ssh
ls authorized_keys
rm -rf authorized_keys
 
cat id_rsa.pub >> authorized_keys
ssh root@192.168.31.132 cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh root@192.168.31.133 cat ~/.ssh/id_rsa.pub >> authorized_keys

从192.168.31.131,复制~/.ssh/authorized_keys和 ~/.ssh/known_hosts两个文件到另外两台机器192.168.31.132、192.3168.1.133

这时候,每台机器(CentOS)均有3台机器的公钥

cd ~/.ssh
scp authorized_keys root@192.168.31.132:~/.ssh
scp authorized_keys root@192.168.31.133:~/.ssh

scp known_hosts root@192.168.31.132:~/.ssh
scp known_hosts root@192.168.31.133:~/.ssh


在192.168.31.131上执行如下命令,修改192.168.31.131/132/133等三台机器上的~/.ssh/authorized_keys权限

cd ~/.ssh
ls authorized_keys
ssh root@192.168.31.132 ls ~/.ssh/authorized_keys
ssh root@192.168.31.133 ls ~/.ssh/authorized_keys
 
cd ~/.ssh
chmod 700 authorized_keys
ssh root@192.168.31.132 chmod 700 ~/.ssh/authorized_keys
ssh root@192.168.31.133 chmod 700 ~/.ssh/authorized_keys

在192.168.31.131、192.168.31.132、192.3168.1.133上执行如下命令,重启sshd

service sshd restart
    \或者用/etc/init.d/sshd restart

测试无密码登录

\在192.168.31.131上,测试无密码登录132/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit
 
\在192.168.31.132上,测试无密码登录131/133
ssh root@192.168.31.131
exit
ssh root@192.168.31.133
exit
 
\在192.168.31.133上,测试无密码登录131/132
ssh root@192.168.31.131
exit
ssh root@192.168.31.132
exit

大数据分析师证书

针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。

  • 1.领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了 解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。

  • 2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不 同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。

  • 3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根 据具体要求,给出问题的具体实施流程和策略。

考试范围

PART 1 大数据基础理论 占比(8% ) 

  • a. 大数据分析基础(1%)

  • b. Python 基础(5%)

  • c. Linux & Ubuntu 操作系统基础(2%)

PART 2 Hadoop 理论 占比(12% )

  • a. Hadoop 安装配置及运行机制解析(2%)

  • b. HDFS 分布式文件系统(2%)

  • c. MapReduce 理论及实战(2%)

  • d. Hadoop 生态其他常用组件(6%)

PART 3 大数据分析之数据库理论及工具 占比(16% )

  • a. 数据库导论(2%)

  • b. MySQL 理论及实战(3%)

  • c. HBase 安装及使用(3%)

  • d. Hive 安装及使用(5%)

  • e. Sqoop 安装及使用(3%)

PART 4 大数据分析数据挖掘理论基础 占比(10% )

PART 5 大数据分析之 Spark 工具及实战 占比(35% )

  • a. Spark 基础理论(2%)

  • b. Spark RDD 基本概念及常用操作(3%)

  • c. Spark 流式计算框架 Spark Streaming、Structured Streaming(5%)

  • d. Spark 交互式数据查询框架 Spark SQL(5%)

  • e. Spark 机器学习算法库 Spark MLlib 基本使用方法(15%)

  • f. Spark 图计算框架 GraphX(5%)

PART 6 大数据分析数据可视化方法 占比(4% )

PART 7 大数据分析实战 占比(15% )

这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。 它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分,通过该小程序,考生可以享受更便捷的服务。 扫码加入CDA小程序,与圈内考生一同学习、交流、进步!

最新资讯
更多
客服在线
立即咨询