HDFS

最新推荐文章于 2024-03-23 16:14:31 发布

原创

最新推荐文章于 2024-03-23 16:14:31 发布 · 277 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文深入解析HDFS（Hadoop Distributed File System），包括Block、NameNode、DataNode、副本策略及回收站机制。介绍了HDFS中Block的大小、存储方式，NameNode的元数据管理，DataNode的心跳机制，副本放置策略以及HDFS的读写流程。

简介

HDFS是Hadoop中用于进行数据分布式存储的模块

一、概述

HDFS中，存储数据的时候会将数据进行切块，每一个块称之为Block
HDFS中，主要包含2个重要的进程：NameNode和DataNode
a. NameNode用于管理节点和记录元数据(metadata)
b. DataNode是用于存储数据
HDFS会对数据自动进行备份，称之为副本（replication）。如果不指定，默认情况下副本数量为3(额外复制两次，加上原来的数据构成3个副本)
HDFS仿照Linux设计了一套文件存储系统

二、Block

在HDFS中，数据都是以Block为单位进行存储的
默认情况下，Block的大小是128M，通过dfs.blocksize来调节大小
如果一个文件不足一个Block大小，则这个文件整体作为一个Block存储，并且Block的大小和文件大小是一致的
会给每一个Block一个编号，称之为BlockID，通过BlockID，能够确定Block的顺序
同一个Block的不同副本一定是在不同节点上，但是不同Block的副本可能在一个节点上
Block的意义：
a. 为了能够存储超大文件
b. 为了进行快速备份

三、NameNode

NameNode是HDFS的核心节点，用于管理DataNode以及存储元数据
元数据主要包含：
a. 文件的存储路径
b. 文件权限
c. 文件大小以及块的大小
d. BlockID
e. Block的存储节点
f. 副本数量
NameNode会将元数据存储在内存以及磁盘中
a. 存储在内存中的目的是为了快速查询
b. 存储在磁盘中的目的是为了崩

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。