- 博客(20)
- 收藏
- 关注
原创 oozie的安装与使用
oozie的安装与使用 oozie的介绍: oozie是一个任务调度的框架,由cloudera公司开源,所有的调度任务由一个mr程序去启动,主要使用一种有向无环图的方式来管理执行任务,定义的语言使用xml来定义,如果需要单独使用oozie,使用azkaban替换使用,这里可以将oozie和hue整合之后来使用 oozie的架构: 客户端:主要用于提交任务 服务端:主要用于接收任务,准备执行,运行在...
2019-01-03 12:41:08
478
原创 Hue的安装
Hue的安装 Hue的安装支持多种方式,包括rpm包的方式进行安装,tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等,我们这里使用tar.gz包的方式来安装。 下载Hue的压缩包并上传linux解压 Hue的压缩包的下载地址: http://archive.cloudera.com/cdh5/cdh/5/ 我们这里使用的是CDH5.14.0这个对应的版本,具体下...
2018-12-22 21:29:16
275
原创 通过本地yum源安装impala
通过本地yum源安装impala impala的环境准备 需要提前安装好Hadoop和hive这两个框架(可在我的博客中找到CDH版本的hive和hadoop的安装详解)并且hive需要在所有的impala安装的节点上面都要有,因为impala需要引用hive的依赖包,hadoop的框架需要支持C程序访问接口,只要在hadoop的安装目录下的lib目录有libhadoop.so.1.0.0这类文件...
2018-12-22 20:50:11
1589
2
原创 java执行shell命令
java执行shell命令 需求描述:在实际工作中,总会有些时候需要我们通过java代码通过远程连接去linux服务器上面执行一些shell命令,包括一些集群的状态管理,执行任务,集群的可视化界面操作等等,所以我们可以通过java代码来执行linux服务器的shell命令 为了解决上述问题,google公司给提出了对应的解决方案,开源出来了一个jar包叫做sshxcute,通过这个jar包我们可以...
2018-12-19 11:37:43
2082
原创 sqoop数据迁移
sqoop数据迁移 概述: sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 工作机制:是将导入和导出的命令翻译成mapreduce程序来实现,在翻译出的mapreduce中主要对inp...
2018-12-19 10:45:49
632
原创 工作流调度器azkaban
工作流调度器azkaban 官网:https://azkaban.github.io/ 一个完整的数据分析系统,通常都是由大量的任务单元来组成的,各个单元之间存在时间先后顺序以及前后依赖的关系,为了更好的组织这样的计划,需要一个工作流调度系统来调度。 工作流调度的实现方式: 简单的任务调度:直接使用linux的crontab来定义 复杂的任务调度:开发调度平台或使用现成的开源调度系统比如ooize...
2018-12-18 20:53:23
382
原创 Hive调优
Hive调优 1、Fetch抓取(Hive可以避免进行mapreduce) 在hive中对于某些查询,并不需要使用mareduce计算,例如我们在select * from employee,在这种情况下,可以直接去employee的存储目录,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老...
2018-12-17 19:33:53
233
原创 Hive的介绍与使用
Hive介绍与使用 数据仓库的基本介绍 数据仓库的基本概念: 英文是datawarehourse数据仓库,主要用于存储数据和分析性报告以及决策支持,不会产生数据,也不会消费数据 数据仓库的主要特征: 面向主题:有确切的分析目标 集成性:相关的数据都会被放入数据仓库,便于下一步的分析 非易失性:数据一旦进入数据仓库不会轻易的改变 时变性:根据不同的需求,会产生一些不同的分析维度 数据库与数据仓库的区...
2018-12-15 15:16:46
368
原创 mapreduce的join算法编程案例
mapreduce编程案例 map端的join算法 1、原理阐述 适用于关联表中有小表的情形,可以将小表发送到所有的map节点,这样map节点就可以在本地对自己读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度 2、实例: 两表数据: 商品表数据 p0001,小米5,1000,2000 p0002,锤子T1,1000,3000 订单表数据 1001,20150...
2018-12-13 17:15:40
288
原创 MapReduce增强
MapReduce增强 1、分区 在mapreduce中,通过指定分区将一个区的数据发送到同一个reduce中处理,分区数不能大于reduceTask的数量 注意:在进行分区时,只能打成jar包发布到集群上去运行,不能在本地运行 在需要分区时,需要编写一个自定义的partitioner类并且继承Partitioner这个类,传入map阶段的输出结果,重写其中的getPartition方法,通过返回...
2018-12-12 16:41:19
173
原创 分布式计算框架MapReduce入门
分布式计算框架MapReduce入门 mapreduce的核心思想是:分而治之 map:把复杂的任务分解成若干的简单任务来并行执行,前提是这些小任务可以并行计算,彼此之间没有依赖 reduce:对map阶段的结果进行汇总 MapReduce编程规范和示例编写 mapreduce的编程模型 mapreduce的开发一共有八个步骤:其中map阶段分为2个步骤,shuffle阶段四个步骤,reduce阶...
2018-12-12 09:29:21
229
原创 分布式文件系统HDFS
分布式文件系统HDFS HDFS的基础架构 1、NameNode是一个中心服务器,负责管理文件系统的名字空间以及客户端对文件的访问 2、文件操作,namenode是负责文件元数据的数据,datanode负责处理文件的读写请求,跟文件相关的数据流不经过namenode,值询问数据和哪个datanode有联系 3、副本的存放位置由namenode来控制,根据全局情况来决定,读取文件时namenode尽...
2018-12-10 20:20:21
206
原创 centos6.9下安装zookeeper及shell操作
zookeeper介绍及集群环境搭建 zookeeper概述 zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中的应用系统的一致性问题,例如在避免在同时处理同一数据时出现脏读。 zookeeper本质是一个分布式的小文件存储系统,提供类似于文件系统的目录树方式的数据存储,并且对树中的节点进行有效的管理。 zookeeper的架构 zookeeper集群中有:leader,f...
2018-12-08 14:04:15
210
原创 centos6.9下编译CDH版的Hadoop
centos6.9下CDH版本的Hadoop重新编译 由于CDH提供的Hadoop安装包没有提供带C程序访问的接口,所以我们在使用本地库(进行压缩和支持c程序)时会出现问题。 编译环境的准备 编译需要的安装包: 链接:https://pan.baidu.com/s/1htfW8hU5Bj6rxPN7Eap6Kw 提取码:2ac0 准备linux环境 准备一台虚拟机,内存4G或以上,硬盘40G或以上...
2018-12-07 22:50:36
179
原创 Scala编程(三)高级特性
Scala编程(三)高级特性 模式匹配 Scala有一个十分强大功能:模式匹配。类似于java中的switch case 语法,即对一个值进行条件判断,然后针对不同的条件,进行不同的处理。 另外Scala还提供了样例类,对模式匹配进行了优化,可以快速进行匹配。 1.匹配字符串 object matchDemo1 extends App { //定义一个字符串数组 val course = ...
2018-12-03 20:41:45
391
原创 Scala编程(二)面向对象编程
Scala编程(二)面向对象编程 类 1.类的定义 //scala类 class Person { //用val定义的成员变量,只提供了getter方法 val id = "1234" //用var定义的成员变量,提供了setter和getter方法 var name = "jack" var age = 20 //方法 def sleep()={ printl...
2018-12-01 21:22:05
389
原创 Scala编程(一)
Scala编程(一) Scala的特点 Scala是一种多范式的编程语言,其设计的初衷是为了集成面向对象和函数是编程的各种特性,Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序(Scala源代码会被编译成Java字节码,它可以运行于JVM之上,并可以调用现有的Java类库)。 开发环境搭建 1.安装JDK Scala源代码会被编译成Java字节码,它可以运行于JVM之上,并...
2018-11-30 20:41:30
609
1
原创 Flume 的基本使用
Flume 的基本使用 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 当前 Flume 有两个版本。Flume 0.9X 版本的统称 Flume OG(originalgeneration),Flume1.X 版本的统称 Flume NG(next generation)。由于 FlumeNG 经过核心组件、核心配置以及代码架构重构,与 ...
2018-11-26 19:06:23
265
原创 深入MapReduce
深入MapReduce mapreduce的输入和输出 mapreduce运行在<K,V>键值对上,在mapreduce流程中,会有三组键值对 map的运行流程 第一阶段:根据输入目录中的文件的大小,进行逻辑分片(默认情况下,Split size = Block size = 128M Hadoop2.X后的块大小)每个切片由一个maptask处理。 第二阶段:把切片中的每行内容处理...
2018-11-25 23:00:25
222
原创 centos6.5搭建Hadoop集群
centos6.5搭建Hadoop集群 准备工作 CentOS-6.5-x86_64-bin-DVD1.iso linux编译后的Hadoop安装包: hadoop-2.7.4.tar.gz jdk: jdk-8u65-linux-x64.tar.gz 创建三个虚拟机 通过ifconfig | more 命令查看各个虚拟机的ip地址 ifconfig | more 修改主机名和IP的映射...
2018-11-21 15:34:28
396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人