HDFS源码解析---写数据流程

最新推荐文章于 2025-04-20 08:02:47 发布

请叫我算术嘉

最新推荐文章于 2025-04-20 08:02:47 发布

阅读量1.3k

点赞数 21

CC 4.0 BY-SA版权

文章标签： hdfs java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ssjdoudou/article/details/121673172

本文详细描述了Hadoop分布式文件系统(HDFS)中文件写入的流程，涉及DFSOutputStream创建、DataStreamer的运行、DataNode的参与、pipeline的构建以及数据的分块和确认机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

太长不看版

1、写入（create）创建DFSOutputStream，启动DataStreamer线程run （主线程）

2、setPipeline -> nextBlockOutputStream -> locateFollowingBlock（addBlock）

2、createBlockOutputStream （client -> dn1 -> dn2 -> dn3）启动blockStream（实际用来写数据）

4、new ResponseProcessor 并启动线程run

5、按照packet粒度发送 packet 到datanode

a、writeChunk -> waitAndQueueCurrentPacket -> dataQueue

b、DataStreamer run方法不断从dataQueue队列take出来发送

c、收到ack后放入ackQueue

6、写完一个block 后endBlock -> 关闭response 线程 -> 关闭blockStream 线程

7、写下一个block 重复2 - 6

8、complete

一、总体流程

1、客户端向NameNode发出写文件请求。

　　2、检查是否已存在文件、检查权限。若通过检查，直接先将操作写入EditLog，并返回输出流对象。

　　　　（注：WAL，write ahead log，先写Log，再写内存，因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了，

　　　　由于在真实写操作之前，操作就被写入EditLog中了，故EditLog中仍会有记录）

　　3、client端按128MB的块切分文件。

　　4、client将NameNode返回的DataNode列表和Data数据一同发送给最近的第一个DataNode节点，此后client端和多个DataNode构成pipeline管道。

　　　　client向第一个DataNode写入一个packet，这个packet便会在pipeline里传给第二个、第三个…DataNode。

　　　　在pipeline反方向上,逐个发送ack(命令正确应答),最终由pipeline中第一个DataNode节点将ack发送给client。

　　5、写完数据，关闭输输出流.

　　6、发送完成信号给NameNode。

二、代码细节

1、创建文件

通常情况下，我们在创建文件的时候会新建

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。