Hadoop：伪分布模式启动步骤分解及HDFS基本操作-CDA数据分析师官网

热线电话：13121318867

Hadoop：伪分布模式启动步骤分解及HDFS基本操作

2020-06-03

1、格式化HDFS

在运行伪分布式前，需先对NameNode进行格式化，在命令行中输入

hdfs namenode -format          # 格式化hdfs

若出现successfully formatted字样，则说明格式化成功

2、启动hadoop

然后启动hadoop集群

start-all.sh # 一次性启动所有服务

或使用以下命令单独启动各项服务

start-dfs.sh      #启动hdfs

start-yarn.sh     #启动mapreduce框架yarn

利用jps命令查看是否启动成功，如果出现下述进程，则证明启动成功

Jps

运行后显示有如下进程。

启动完成后，我们可使用Web端口检测集群运行情况，建议使用360或Chrome浏览器。

查看ResourceManager Web界面：

打开主机浏览器，然后输入下述网址：http://192.168.1.618:8088，在该界面我们能查看集群任务运行情况

NameNode HDFS Web界面

打开主机浏览器，然后输入下述网址：http://192.168.152.128:50070，在该界面我们能查看集群hdfs基本运行情况

3、测试运行

接下来，我们仍以grep为例测试其在伪分布式上运行情况。和单机模式不同，伪分布式运行时默认读取hdfs上文件，同时也会将输出结果保存在hdfs上，因此我们要提前在hdfs上创建文件夹，更多关于hdfs的操作会在下文介绍

3.1、HDFS基本操作指令

由于伪分布式运行时，数据从HDFS上进行读取，在上传数据至HDFS之前，我们需要在HDFS中创建用户目录。

hdfs dfs -mkdir -p /user/hduser

接着，我们选取hadoop配置文件夹中的xml文件作为输入文件复制到HDFS系统中。

hdfs dfs -mkdir input

cd ~/hadoop

hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、运行grep例子

伪分布式运行 MapReduce 作业的方式跟单机模式相同，只是读取文件和输出文件保存均在HDFS中。

运行过程中可在8088端口查看mapreduce任务运行情况

运行完成后如下所示

查看保存在HDFS中的运行结果

hdfs dfs -cat output/*

当然，我们也可进一步将结果取回本地

cd ~/hadoop

rm -r ./output # 先删除本地的 output 文件夹（如果存在）

hdfs dfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机

cat ./output/*  #查看所有文件

到这里hadoop伪分布的安装启动就介绍完成了。伪分布的优点是在一台计算机上也可以使用Hadoop命令；缺点也是显而易见的发挥不了Hadoop设计初衷--分布式存储与分布式计算。

在下文中我将给大家介绍多节点的分布式集群搭建教程。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

HDFS Hadoop NameNode 分布式计算分布式存储分布式集群

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Hbase：安装及模式配置指南

下一篇python可视化：matplotlib绘制直方图进阶篇

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Hadoop：伪分布模式启动步骤分解及HDFS基本操作

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA数据分析师：精通统计制图，让数据规律直观可感 ...

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA数据分析师：数据整合实操指南，打破数据孤岛， ...

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载