- 博客(10)
- 资源 (2)
- 收藏
- 关注
原创 Flume环境搭建
Flume是一个高可用的、高可靠的日志采集系统,它能够将不同数据源的海量日志进行高效采集、汇总和移动,最终将这些日志存储到指定的存储系统(HDFS、HBase等)。Flume在实际应用过程中,不仅仅用于日志的采集,由于Flume采集的数据源是可定制的,所谓数据源可定制是指用户可以根据实际应用场景指定Flume采集的数据,所以Flume还可以用于传输大量的网络流量数据、社交媒体生成的数据和电子邮件等。
2025-06-20 08:16:56
431
原创 HDFS的常见Shell操作
HDFS Shell类似于Linux操作系统中的Shell,都是一种命令语言,可以完成对HDFS上文件和目录的一系列操作。HDFS Shell的语法格式如下。OPTIONS:可选,用来调试Hadoop。SUBCOMMAND:表示HDFS Shell的子命令,用于操作HDFS。SUBCOMMAND OPTIONS:表示HDFS Shell子命令的选项。
2025-06-16 08:16:02
1220
原创 hadoop的Erasure Coding编码技术
在Hadoop 3.x版本中,HDFS新增了Erasure Coding(纠删码),简称EC。Erasure Coding是一种编码技术,它在廉价磁盘冗余阵列(Redundant Arrays of Inexpensive Disks,缩写RAID)中广泛应用,RAID通过条带化技术实现Erasure Coding。条带化技术是一种自动将I/O的负载均衡到多个物理磁盘上的技术,原理就是将逻辑上连续的数据(如文件)划分为较小的单位,并将连续的单位存储到不同的磁盘上。
2025-06-12 11:15:32
295
原创 在linux系统环境下实现软件RAID
独立磁盘冗余阵列,RAID技术将多个单独的物理硬盘以不同的方式组合成一个逻辑盘,提高了硬盘的读写性能和数据安全性,根据不同的组合方式可以分为不同的RAID级别。
2025-06-10 15:15:18
897
原创 Hadoop的Federation机制
HDFS提供了一种Federation机制,该机制允许单个HDFS存在多个NameNode,从而解决了HDFS的存储能力受单个NameNode的内存限制的问题,而且还可以提高HDFS读写数据的效率。
2025-06-09 09:30:16
889
原创 zookeeper搭建
首先得创建3个虚拟机,hadoop1,hadoop2与hadoop3,设置好hosts文件与地址,设置方式,就可以搭zookeeper了。提取码: ybts资源下载ZooKeeper是一个开源的分布式协调服务,目标是将那些复杂且容易出错的分布式应用封装起来,构成一个高效可靠的原语集,并提供一系列简单易用的接口提供给用户使用,主要是就是为了解决分布式系统中单点故障的问题。
2025-06-01 15:04:22
375
原创 hive数据仓库的搭建
HIVE是基于HDFS的数据仓库,要首先搭建好HADOOP的集群才可以正常使用HIVE,HADOOP集运搭建详见Hadoop集群搭建,首先在hadoop1上面搭建hive数据仓库。
2025-05-28 11:16:13
845
原创 用三台Cent-OS 9虚拟机搭建hadoop3.0集群
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档Hadoop集群搭建。
2025-05-23 16:12:31
340
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人