一文带你读懂HBase概念、架构及原理

莫叫石榴姐

已于 2025-01-16 23:26:38 修改

阅读量3.5k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：数字化建设通关指南 # Hive 实战技术文章标签： hbase 大数据分布式架构

于 2020-03-18 21:35:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/godlovedaniel/article/details/104533109

数字化建设通关指南同时被 2 个专栏收录

426 篇文章 ¥79.90 ¥99.00

订阅专栏

Hive 实战技术

70 篇文章 ¥19.90 ¥99.00

订阅专栏

本文深入介绍了HBase，一个分布式、可扩展的NoSQL数据库，特别适合处理海量数据。内容涵盖HBase的定义、逻辑和物理存储结构、与关系型数据库的区别、优势，以及其基本架构、数据写入和读取流程。HBase通过RegionServer、Master、Zookeeper和HDFS协同工作，提供高效、灵活的数据存储。文章详细阐述了数据的写入流程，包括WAL日志的持久化等级和生命周期，以及读取流程中的BlockCache机制。此外，还讨论了HBase的优化策略，如预分区、RowKey设计和内存管理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1.1 Hbase的定义

1.2 Hbase的逻辑结构

1.3 HBase物理存储结构

1.4 HBase数据模型

2 Hbase与关系型数据库之间的对比

3 Hbase的优势

4 Hbase基本架构及原理

4.1 架构角色

4.2 核心模块组成

5. HBase写入数据的流程

5.1 写入流程分析

5.2 刷写时机分析

5.3 合并过程分析

5.4 Region切分分析

5.5 meta存储位置寻找

6. HBase读流程分析

6.1 基本流程

6.2 HBase读取流程的详细流程

6.2.1构建scanner体系--组件施工队

6.2.2 scan查询－层层建楼

7 HBase 常见疑问问题总结

7.1 HBase是如何实现增删改查的？

7.2 一个表要设置多少个列族比较合适？

8.2 RowKey设计

8.3 内存优化

8.4 基础优化

0. 前言

Hbase在大数据领域中起着重要角色，在处理海量数据时候能达到秒级响应，很多公司都有自己的Hbase集群，在存储处理数据方面有着明显的优势。本文从Hbase的基本概念及架构原理进行深入解读，旨在帮助读者能从整体上认识Hbase，并对Hbase基本架构原理有个深入了解。

通过本文你可以获取如下几方面知识：

（1）Hbase是什么
（2）Hbase与关系型数据库之间的区别
（3）Hbase的特点
（4）Hbase架构及原理
（5）Hbase读写流程
（6）storefile合并过程
（7）region切分过程

适合场景：单表超千万，上亿，且高并发！

不适合场景

了解本专栏

莫叫石榴姐

博客等级

码龄11年

697
原创

8251
点赞

9163
收藏

3万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: HBase骚操作之数据加载方式BulkLoad

下一篇：: 一种java死锁故障问题定位分析方法

最新评论

SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
heheha_zj: 石榴姐，如果出现，在业务中，如果出现环比计算为截止到当前日期的环比比如，目前为9号，那就是 5月份1-9 和 6月份 1-9的环比，只能通过自连接的方式吧，还有就是假如5月份没有数据，那我们使用开窗函数的话，环比数据应该不对吧，除非保证上月一定会存在数据
正则表达式元字符总结
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
SQL高级技巧：如何准确求近30天指标？
莫叫石榴姐: 那样属于硬编码，这个是你提前知道是这样，如果过段时间变了呢？

大家在看

最新文章

2025

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。