HDFS原理 | 一文了解HDFS架构与设计

发布时间：2021-06-05 10:07:45 所属栏目：大数据来源：互联网

导读：1 前言 HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统，是一个高容错的系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件，将数据按块分布式存储到不同机器上，并被设计成适合

1 前言

HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统，是一个高容错的系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件，将数据按块分布式存储到不同机器上，并被设计成适合运行在普通廉价硬件之上。本文根据Hadoop官网HDFS Architecture这一章节提炼而成，加上笔者自己的理解，希望能够帮助读者快速掌握HDFS 。

2 HDFS特点

流式数据访问：这点初学者可能不好理解，流式数据访问模式是HDFS数据访问特点之一，是指收集到部分数据就开始处理，而不是收集到全部数据再处理，否则会导致比较大的延迟，也会消耗大量内存。

大规模数据集：HDFS对大文件存储比较友好，HDFS上的一个典型文件大小一般都在GB至TB级。

一次写入多次读取：HDFS数据访问特点之一，文件经过创建、写入和关闭之后就不能够改变。这也简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。

不支持低延时数据访问：这也是HDFS数据访问的特点，HDFS关系的是高吞吐量，不适合那些低延时数据访问的应用。

单用户写入，不支持任意修改：HDFS的数据以读为主，只支持单个写入者，并且写操作总是以添加的形式在文末追加，不支持在任意位置进行修改。

3 HDFS架构

HDFS采用Master/Slave架构。一个HDFS集群有两个重要的角色，分别是Namenode和Datanode。Namenode是管理节点，负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。Datanode是实际存储数据的节点。HDFS暴露了文件系统的命名空间，用户能够以操作文件的形式在上面操作数据。HDFS架构图如下：

HDFS原理 | 一文读懂HDFS架构与设计

HDFS上的文件是以数据块的形式存放的，这些数据块通常存储在一组Datanode上。Namenode执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求，并在Namenode的统一调度下执行数据块的创建、删除和复制。

4 数据块与副本机制

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，除了最后一个，所有的数据块都是同样大小的。为了容错，文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。HDFS中的文件都是一次性写入的，并且严格要求在任何时候只能有一个写入者。

HDFS原理 | 一文读懂HDFS架构与设计

Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。

5 机架感知与副本存放

（编辑：揭阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

火爆全网的数字人，究	大数据项目可能出错的
挖掘互联网开放数据可	智能虚拟助理如何助力