
大数据学习
文章平均质量分 90
知庸vv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据开发利器:Hadoop(1)
1.1 Hadoop 简介 Hadoop是Apache软件基金会旗下的一个开源分布计算平台,为用户提供底层细节透明的分布式基础架构。 Hadoop是基于JAVA语言开发的,由于JAVA语言的特性,所以具有很好的跨平台,并且可以部署在廉价的计算机集群中。 Hadoop目前有三个版本:hadoop1,Hadoop2.0和Hadoop3.0Alpha1。本文将主要介绍前两个版本的核心组原创 2016-10-09 23:42:22 · 907 阅读 · 0 评论 -
大数据开发利器:Hadoop(11) Hadoop2 HA(High Availability)
本节主要介绍了HDFS HA(High Availability)的原理、主备切换过程以及基于JournalNode的共享存储系统。1. 前言在当初介绍Hadoop2.0时,我们简单提到了Hadoop框架中MapReduce的不足与改进。(即设计了新的资源管理框架YARN)。 那么,Hadoop2.0针对HDFS在Hadoop1.0的存在的问题如何改进了呢? HDFS在Hadoop1.0中主要原创 2016-11-14 12:27:22 · 1145 阅读 · 0 评论 -
HBase协处理器
1. 定义HBase可以让用户的部分逻辑在数据存放端及hbase服务端进行计算的机制(框架)。协处理器允许用户在hbase服务端上运行自己的代码。如SQL里面的求和、排序等操作。 主要有两种类型:Observer Coprocessors 和Endpoint Coprocessor。Observer Coprocessors相当于关系型数据库里面的触发器,而Endpoint类似于存储过程,执行数据原创 2016-11-13 22:42:40 · 699 阅读 · 0 评论 -
大数据开发利器:Hadoop(4)
本节开始将花2-3个章节介绍分布式数据库HBase。1. HBase介绍1.1 HBase定义HBase是一个高可靠、高性能,面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。 HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表 。1.2 HBase底层技术 技术原创 2016-10-31 00:34:18 · 1053 阅读 · 0 评论 -
大数据开发利器:Hadoop(10) HBase进阶第3讲 批量插入Bulkload
本节介绍HBase1.2.3下的批量导入数据BulkLoad 如果我们一次性入库hbase巨量数据,处理速度慢并且占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即hbase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成原创 2016-11-07 12:40:51 · 687 阅读 · 0 评论 -
大数据开发利器:Hadoop(9) HBase进阶第2讲 HBase过滤器
本节介绍几种HBase的过滤器:RowFilter(行过滤器)、QulifierFliter(列名过滤器)和FilterList。1. 准备工作1.1 创建表① 表结构介绍还是以学生成绩表为例,表名为studentScore,行键名为name,列族名为score。行限定符有English,Math, Computer 。 表的逻辑视图如下: name s原创 2016-11-06 15:20:06 · 702 阅读 · 0 评论 -
大数据开发利器:Hadoop(8) HBase进阶第1讲 HBase API使用
本节主要讲解了HBase API的几个原子操作:Append、CheckAndPut、CheckAndDelete、Increment。 即追加、检查并添加、检查并删除以及计数器。1. 本节准备1.1 Hbase表实例这里还是以学生分数表为例: 表名为studentScore,行键为name,列族为grade和average score。 其逻辑视图如下所示: name grad原创 2016-11-05 16:45:51 · 1027 阅读 · 0 评论 -
大数据开发利器:Hadoop(3)
本节开始涉及MapReduce的编程设计。1. MapReduce基础1.1 MapReduce1.0 模型简介MapReduce最早是由Google公司提出的一种面向大规模数据处理的并行计算模型和方法。是Hadoop面向大数据并行处理的计算模型、框架和平台。 ① MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。② 编程容易,不需要掌握分布原创 2016-10-24 01:01:43 · 680 阅读 · 0 评论 -
大数据开发利器:Hadoop(7)MapReduce进阶
本节将以一个实例讲解MapReduce开发。主要涉及点为二次排序、1. 例子介绍1.1 输入数据① 假设有一个网站,有三个不同的页面,分为web1、web2、web3。 ② 有三个用户(jones、lee、oscar)访问了其中几个页面。 ③ 记录了三个用户访问页面的时间。 初始数据如下: name time info jones 100 web1 lee原创 2016-11-03 23:27:10 · 1090 阅读 · 1 评论 -
大数据开发利器:Hadoop(6)-HBase第三讲 Java 开发基础
本节介绍HBase版本号0.96和1.2.3的基本J开发。介绍数据的增删改查。原创 2016-11-03 01:38:37 · 662 阅读 · 0 评论 -
大数据开发利器:Hadoop(2)
使用CentOS 6.8安装Hadoop2.0 - VW12.5 - CentOS release 6.8 64位 lsb_release -a - JDK 1.7.0_25 64位 java -version - Hadoop 2.7.3 hadoop version1.1 使用VW安装CentOS这步骤网络教程较多,不在过多讲解。注意以下几点: - 如果内存小于或等于4G原创 2016-10-12 23:11:16 · 989 阅读 · 0 评论 -
大数据开发利器:Hadoop(5)-HBase第二讲
本节主要介绍HBase安装配置以及HBase shell基本使用。 属于HBase第二节讲解。1. 预先准备1.1 查看依赖关系首先应该安装和配置完成Hadoop,这里不在过多描述。 其次,选择安装版本时,查看官方文档了解各个安装包的依赖关系。链接:官方文档 主要查看以下三个依赖关系: ① HBase与Hadoop版本兼容问题。(Ctrl+f搜索Hadoop Version) ② J原创 2016-11-02 00:18:05 · 650 阅读 · 1 评论