BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览

阿里云云栖号

于 2019-05-22 11:40:38 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

文章标签：云栖社区分布式系统与计算数据库

本文链接：https://blog.csdn.net/yunqiinsight/article/details/90440097

一、引言

时间到了2019年，数据库也发展到了一个新的拐点，有三个明显的趋势：

越来越多的数据库会做云原生(CloudNative)，会不断利用新的硬件及云本身的优势打造CloudNative数据库，国内以阿里云的Cloud HBase、POLARDB为代表，此块文章会有一定的引述，但不是本文的重点。
NoSQL正在解决BigData领域的问题。根据Forrester NoSQL的报告，BigData NoSQL是提供存储、计算处理、支持水平扩展、Schemaless以及灵活的数据模型，特别提到需要支持复杂计算，一般通过集成Spark或者实现单独的计算引擎实现。Cassandra商业化公司Datastax提供的产品是直接在Cassandra之上集成了Spark，另外ScyllaDB公司首页的宣传语就是The Real-Time Big Data Database。大数据的5V特性，包括 Volume：数据量大，包括采集、存储和计算的量都非常大；Variety：种类和来源多样化，包括结构化、半结构化和非结构化数据；Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵；Velocity：数据增长速度快，处理速度也快，时效性要求高；Veracity：数据的准确性和可信赖度，即数据的质量需要高。5V特性可以使用BigData NoSQL数据库很好的满足，且又能满足实时的写入，分析及展现。
越来越多的公司或者产品都是融合多个能力，Strapdata公司把Cassandra及ElasticSearch的能力融合在一起；Datastax直接在Cassandra之上集成了Spark；SQLServer也是融合了Spark，打造Native Spark满足DB计算能力外延的商业诉求。

阿里云HBase经过公共云两年（单独的HBase在阿里内部已经发展快9年）的发展，融合开源Apache HBase、Apache Phoenix、Apache Spark、Apache Solr等开源项目，再加上一系列自研特性，满足【一体化数据处理平台，提供一站式能力】 , 基本架构如下：

我们是站在Apache巨人的肩膀上，自研了 ApsaraDB Filesystem、HBase冷热分离、SearchIndex、SparkOnX、BDS等模块，优化了HBase、Phoenix、Spark等内核一些patch，并反馈到社区，维护打造了多模服务、数据工作台等一些列的平台能力。自研部分是我们平台核心的核心竞争力，每一层每一个组件都是我们精心打造，满足客户数据驱动业务的实际需求。为了降低客户的准入门槛，我们在Github上提供了Demo支持：aliyun-apsaradb-hbase-demo，欢迎大家关注，并贡献代码。接下来笔者会介绍各层，力求简单通俗，文中有大量的链接以衍生阅读。

二、业务视角及数据流

作为一个存储计算平台，价值在满足不同的业务需求。见下图：
此图描述了数据的来源、通道到沉淀到云HBase平台，再通过平台提供的Spark引擎去挖掘价值反馈给业务系统。此类似一个循环系统，在阿里内部形象称为【业务数据化，再数据业务化】。

结合架构图及业务图，此平台融合了存储（包括实时存储及离线存储）、计算、检索等技术。整个系统都打造在ApsaraDB Filesystem统一文件层之上，把检索通过Phoenix的SearchIndex包装以降低易用性，打造领域引擎满足领域的需求，内置BDS(数据通道)实时归档数据到列存，再通过Spark引擎挖掘价值。
详细参考：【选择阿里云数据库HBase版十大理由】