分布式文件系统HDFS概念及工作机制的简单介绍-CDA数据分析师官网

分布式文件系统HDFS概念及工作机制的简单介绍

2020-07-17

HDFS 全称为Hadoop Distributed File System，是 hadoop 分布式文件系统，具体来说，是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是作为 Hadoop 生态中各系统的存储服务。HDFS是Hadoop项目的核心子项目，为分布式计算中，数据存储管理的基础，HDFS是基于流数据模式访问和处理超大文件的需求被开发出来的，能够在廉价的商用服务器上运行。HDFS 具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征，这些特征使得HDFS为海量数据提供了不怕故障的存储，从而为超大数据集(Large Data Set)的应用处理带来了很多便利。

一、HDFS 特征

高度容错性：HDFS 最核心的架构目标是，错误检测和快速、自动的恢复。数据会自动保存多个副本。它通过增加副本的形式，而且就算某一副本丢失，HDFS也能自动恢复。

支持大规模数据集： HDFS 应用具有很大的数据集，可以支持整体上高的数据传输带宽，并且能够支撑数以千万集的文件。

支持流式读取数据：一次写入，多次读取。而且文件一旦写入，就不能进行修改，只能追加。这样很好的保证了数据的一致性。

高吞吐量：吞吐量是指单位时间内完成的工作量。HDFS通过并行处理数据，从而大大减少了处理时间，实现了高吞吐量。

移动计算而非移动数据：一个应用的请求，如果离它操作的数据越近就会越高效，HDFS会把数据位置暴露给计算框架，提供了将它们自己移动到数据附近的接口。

异构软硬件平台间的可移植性：平台的可移植性，方便用户也方便 HDFS 作为大规模数据应用平台的推广。

二、HDFS 常用命令参数

-help	输出这个命令参数手册
-ls	显示目录信息
-mkdir	在hdfs上创建目录
-moveFromLocal	从本地剪切粘贴到hdfs
-moveToLocal	从hdfs剪切粘贴到本地
--appendToFile	追加一个文件到已经存在的文件末尾
-cat	显示文件内容
-tail	显示一个文件的末尾
-text	以字符形式打印一个文件的内容
-chgrp、-chmod、-chown	同linux文件系统中的用法，对文件所属权限
-copyFromLocal	从本地文件系统中拷贝文件到hdfs路径去
-copyToLocal	从hdfs拷贝到本地
-cp	从hdfs的一个路径拷贝hdfs的另一个路径
-mv	在hdfs目录中移动文件
-get	等同于copyToLocal，就是从hdfs下载文件到本地
-getmerge	合并下载多个文件
-put	等同于copyFromLocal
-rm	删除文件或文件夹
-rmdir	删除空目录
-df	统计文件系统的可用空间信息
-du	统计文件夹的大小信息
-count	统计一个指定目录下的文件节点数量
-setrep	设置hdfs中文件的副本数量

三、HDFS工作机制

1. HDFS集群包括两大角色：NameNode、DataNode

2. NameNode负责管理整个文件系统的元数据

3. DataNode 负责管理用户的文件数据块

4. 文件会按照固定的大小(blocksize)切分成若干块后，分布式存储于若干台datanode上

5. 每一个文件块能够有多个副本，并存放在不同的datanode上

6. Datanode定期会向Namenode汇报自身保存的文件block信息，而namenode就会负责保持文件的副本数量

7. HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是以通过向namenode申请进行的

HDFS文件写入时：首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本

HDFS文件读取：将要读取的文件路径发送给namenode，namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

HDFS 特征 Hadoop NameNode 分布式存储分布式计算大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇你想知道的箱型图的基础知识，都在这里了

下一篇pandas是如何检测和处理缺失数据的？

分布式文件系统HDFS概念及工作机制的简单介绍

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...