lsy107816-CSDN博客

原创 oozie的安装与使用

oozie的安装与使用 oozie的介绍： oozie是一个任务调度的框架，由cloudera公司开源，所有的调度任务由一个mr程序去启动，主要使用一种有向无环图的方式来管理执行任务，定义的语言使用xml来定义，如果需要单独使用oozie，使用azkaban替换使用，这里可以将oozie和hue整合之后来使用 oozie的架构：客户端：主要用于提交任务服务端：主要用于接收任务，准备执行，运行在...

2019-01-03 12:41:08 478

原创 Hue的安装

Hue的安装 Hue的安装支持多种方式，包括rpm包的方式进行安装，tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等，我们这里使用tar.gz包的方式来安装。下载Hue的压缩包并上传linux解压 Hue的压缩包的下载地址： http://archive.cloudera.com/cdh5/cdh/5/ 我们这里使用的是CDH5.14.0这个对应的版本，具体下...

2018-12-22 21:29:16 275

原创通过本地yum源安装impala

通过本地yum源安装impala impala的环境准备需要提前安装好Hadoop和hive这两个框架(可在我的博客中找到CDH版本的hive和hadoop的安装详解)并且hive需要在所有的impala安装的节点上面都要有，因为impala需要引用hive的依赖包，hadoop的框架需要支持C程序访问接口，只要在hadoop的安装目录下的lib目录有libhadoop.so.1.0.0这类文件...

2018-12-22 20:50:11 1589 2

原创 java执行shell命令

java执行shell命令需求描述：在实际工作中，总会有些时候需要我们通过java代码通过远程连接去linux服务器上面执行一些shell命令，包括一些集群的状态管理，执行任务，集群的可视化界面操作等等，所以我们可以通过java代码来执行linux服务器的shell命令为了解决上述问题，google公司给提出了对应的解决方案，开源出来了一个jar包叫做sshxcute，通过这个jar包我们可以...

2018-12-19 11:37:43 2082

原创 sqoop数据迁移

sqoop数据迁移概述： sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等工作机制：是将导入和导出的命令翻译成mapreduce程序来实现，在翻译出的mapreduce中主要对inp...

2018-12-19 10:45:49 632

原创工作流调度器azkaban

工作流调度器azkaban 官网：https://azkaban.github.io/ 一个完整的数据分析系统，通常都是由大量的任务单元来组成的，各个单元之间存在时间先后顺序以及前后依赖的关系，为了更好的组织这样的计划，需要一个工作流调度系统来调度。工作流调度的实现方式：简单的任务调度：直接使用linux的crontab来定义复杂的任务调度：开发调度平台或使用现成的开源调度系统比如ooize...

2018-12-18 20:53:23 382

原创 Hive调优

Hive调优 1、Fetch抓取（Hive可以避免进行mapreduce）在hive中对于某些查询，并不需要使用mareduce计算，例如我们在select * from employee，在这种情况下，可以直接去employee的存储目录，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老...

2018-12-17 19:33:53 233

原创 Hive的介绍与使用

Hive介绍与使用数据仓库的基本介绍数据仓库的基本概念：英文是datawarehourse数据仓库，主要用于存储数据和分析性报告以及决策支持，不会产生数据，也不会消费数据数据仓库的主要特征：面向主题：有确切的分析目标集成性：相关的数据都会被放入数据仓库，便于下一步的分析非易失性：数据一旦进入数据仓库不会轻易的改变时变性：根据不同的需求，会产生一些不同的分析维度数据库与数据仓库的区...

2018-12-15 15:16:46 368

原创 mapreduce的join算法编程案例

mapreduce编程案例 map端的join算法 1、原理阐述适用于关联表中有小表的情形，可以将小表发送到所有的map节点，这样map节点就可以在本地对自己读到的大表数据进行join并输出最终结果，可以大大提高join操作的并发度，加快处理速度 2、实例：两表数据：商品表数据 p0001,小米5,1000,2000 p0002,锤子T1,1000,3000 订单表数据 1001,20150...

2018-12-13 17:15:40 288

原创 MapReduce增强

MapReduce增强 1、分区在mapreduce中，通过指定分区将一个区的数据发送到同一个reduce中处理，分区数不能大于reduceTask的数量注意：在进行分区时，只能打成jar包发布到集群上去运行，不能在本地运行在需要分区时，需要编写一个自定义的partitioner类并且继承Partitioner这个类，传入map阶段的输出结果，重写其中的getPartition方法，通过返回...

2018-12-12 16:41:19 173

原创分布式计算框架MapReduce入门

分布式计算框架MapReduce入门 mapreduce的核心思想是：分而治之 map：把复杂的任务分解成若干的简单任务来并行执行，前提是这些小任务可以并行计算，彼此之间没有依赖 reduce：对map阶段的结果进行汇总 MapReduce编程规范和示例编写 mapreduce的编程模型 mapreduce的开发一共有八个步骤：其中map阶段分为2个步骤，shuffle阶段四个步骤，reduce阶...

2018-12-12 09:29:21 229

原创分布式文件系统HDFS

分布式文件系统HDFS HDFS的基础架构 1、NameNode是一个中心服务器，负责管理文件系统的名字空间以及客户端对文件的访问 2、文件操作，namenode是负责文件元数据的数据，datanode负责处理文件的读写请求，跟文件相关的数据流不经过namenode，值询问数据和哪个datanode有联系 3、副本的存放位置由namenode来控制，根据全局情况来决定，读取文件时namenode尽...

2018-12-10 20:20:21 206

原创 centos6.9下安装zookeeper及shell操作

zookeeper介绍及集群环境搭建 zookeeper概述 zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中的应用系统的一致性问题，例如在避免在同时处理同一数据时出现脏读。 zookeeper本质是一个分布式的小文件存储系统，提供类似于文件系统的目录树方式的数据存储，并且对树中的节点进行有效的管理。 zookeeper的架构 zookeeper集群中有：leader，f...

2018-12-08 14:04:15 210

原创 centos6.9下编译CDH版的Hadoop

centos6.9下CDH版本的Hadoop重新编译由于CDH提供的Hadoop安装包没有提供带C程序访问的接口，所以我们在使用本地库（进行压缩和支持c程序）时会出现问题。编译环境的准备编译需要的安装包：链接：https://pan.baidu.com/s/1htfW8hU5Bj6rxPN7Eap6Kw 提取码：2ac0 准备linux环境准备一台虚拟机，内存4G或以上，硬盘40G或以上...

2018-12-07 22:50:36 179

原创 Scala编程（三）高级特性

Scala编程（三）高级特性模式匹配 Scala有一个十分强大功能：模式匹配。类似于java中的switch case 语法，即对一个值进行条件判断，然后针对不同的条件，进行不同的处理。另外Scala还提供了样例类，对模式匹配进行了优化，可以快速进行匹配。 1.匹配字符串 object matchDemo1 extends App { //定义一个字符串数组 val course = ...

2018-12-03 20:41:45 391

原创 Scala编程（二）面向对象编程

Scala编程（二）面向对象编程类 1.类的定义 //scala类 class Person { //用val定义的成员变量，只提供了getter方法 val id = "1234" //用var定义的成员变量，提供了setter和getter方法 var name = "jack" var age = 20 //方法 def sleep()={ printl...

2018-12-01 21:22:05 389

原创 Scala编程（一）

Scala编程（一） Scala的特点 Scala是一种多范式的编程语言，其设计的初衷是为了集成面向对象和函数是编程的各种特性，Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序（Scala源代码会被编译成Java字节码，它可以运行于JVM之上，并可以调用现有的Java类库）。开发环境搭建 1.安装JDK Scala源代码会被编译成Java字节码，它可以运行于JVM之上，并...

2018-11-30 20:41:30 609 1

原创 Flume 的基本使用

Flume 的基本使用 Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。当前 Flume 有两个版本。Flume 0.9X 版本的统称 Flume OG（originalgeneration），Flume1.X 版本的统称 Flume NG（next generation）。由于 FlumeNG 经过核心组件、核心配置以及代码架构重构，与 ...

2018-11-26 19:06:23 265

原创深入MapReduce

深入MapReduce mapreduce的输入和输出 mapreduce运行在<K,V>键值对上，在mapreduce流程中，会有三组键值对 map的运行流程第一阶段：根据输入目录中的文件的大小，进行逻辑分片（默认情况下，Split size = Block size = 128M Hadoop2.X后的块大小）每个切片由一个maptask处理。第二阶段：把切片中的每行内容处理...

2018-11-25 23:00:25 222

原创 centos6.5搭建Hadoop集群

centos6.5搭建Hadoop集群准备工作 CentOS-6.5-x86_64-bin-DVD1.iso linux编译后的Hadoop安装包: hadoop-2.7.4.tar.gz jdk: jdk-8u65-linux-x64.tar.gz 创建三个虚拟机通过ifconfig | more 命令查看各个虚拟机的ip地址 ifconfig | more 修改主机名和IP的映射...

2018-11-21 15:34:28 396

lsy107816的博客