
Haoop
文章平均质量分 60
yc_hen
为了让明天的我 超越昨天的我,所以今天的我需要努力
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop-初识hadoop
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。(2)Hadoop就是一个分布式计算的解决方案。Hadoop模块包括common,hdfs,yarn,MapReduce,ozone五个Hadoop Common:支持其他Hadoop模块的常用实用程序。...原创 2018-12-03 18:34:20 · 428 阅读 · 0 评论 -
HDFS-HA搭建(基于完全分布式)
hadoop HA(高可用)Quorum Journal Manager:以共享活动和备用NameNode之间的编辑日志影响了HDFS集群(导致namenode发生故障)对于计划外事件(例如计算机崩溃),在操作员重新启动NameNode之前,群集将不可用。计划维护事件(如NameNode计算机上的软件或硬件升级)将导致群集停机时间窗口。注意:必须至少有3个JournalNode守护进程...原创 2019-02-12 14:32:07 · 521 阅读 · 1 评论 -
FLUME-KAFKA-SPARK STREAMING -实时计算框架搭建
首先,我们需要一个模拟实时数据,用来生成日志文件File ctoFile = new File(args[0]); File dest=new File(args[1]); InputStreamReader rdCto = new InputStreamReader(new FileInputStream(ctoFile)); OutputStreamWriter writer=new...原创 2019-02-17 19:25:38 · 360 阅读 · 1 评论 -
HIVE-Hive搭建
文章目录Hive安装mysql安装hiveserver2搭建与可视化客户端安装Hive安装先决条件java1.7及以上hadoop 2.X以上下载地址http://archive.apache.org/dist/hive/下载版本:1.2.1 上传到linux系统并解压tar -zxvf apache-hive-xxxxx创建软连接ln -s apache-hive-1.2...原创 2019-02-17 10:54:20 · 641 阅读 · 0 评论 -
HIVE-Hive的简单概述
什么是Hive?Hive是一种构建数据仓库的工具。里面有表的概念。在Mysql里从表中插入的数据,会放在磁盘上。再打开这个表的时候,会把磁盘上的数据规整到一个表格里显示。但是计算机不会自己规整成表格,所以在Hive中需要一份元数据这份元数据包括:元数据(行的分隔符(这样在映射成表的时候知道能映射成几行)字段分隔符(这样在映射成表的时候知道能映射成几列)字段的类型字段的名称)...原创 2019-02-17 10:19:11 · 336 阅读 · 0 评论 -
MAP/REDUCE-shuffle流程简单概述
我简单地将shuffle流程分成以下两部分:map task程序会根据InputFormat将输入文件分割成splits,每个split会作为一个map task的输入,每个map task会有一个内存缓冲区,输入数据经过map阶段处理后的中间结果会写入内存缓冲区(环形缓冲区,这个暂时就不深入了),并且决定数据写入到哪个partitioner,当写入的数据到达内存缓冲区的的阀值(默认是0.8...原创 2019-02-11 11:12:26 · 519 阅读 · 0 评论 -
MAP/REDUCE-map-reduce详解
MapReduce是什么?Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词:一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。MapReduce做什么?MapReduce擅...原创 2019-02-11 10:34:55 · 1340 阅读 · 0 评论 -
HDFS-剖析文件写入(写流程)
写流程解析public static void main(String[] args) throws Exception { //加载本地指定目录下的文件 InputStream is = new BufferedInputStream(new FileInputStream("D:/123/word.txt")); //获取配置文件 Configuration ...原创 2019-02-10 15:39:20 · 646 阅读 · 0 评论 -
HDFS-HDFS体系架构
一、体系架构HDFS 采用的是master/slaves主从结构模型来管理数据,这种结构模型主要由四个部分组成:Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNamenode(第二名称节点,辅助Namenode)。一个真正的HDFS集群包括一个Namenode和若干数目的Datanode。Namenode是一个中心服务器,负责管理文件系统...原创 2019-02-08 11:11:02 · 4317 阅读 · 0 评论 -
HDFS-完全分布式搭建(从伪分布到完全分布式)
请先搭建[伪分布式]文章目录1、克隆虚拟机2、修改主机名3、修改ip地址4、修改ip和主机映射5、验证ssh6、配置hadoop配置文件7、初始化hdfs1、克隆虚拟机关闭要克隆的虚拟机(否则无法进行克隆操作)克隆两台机器选中要克隆的虚拟机->管理->克隆->下一步->下一步->创建完成克隆->下一步->起虚拟机名字->完成2、修改主机名...原创 2019-01-16 15:28:22 · 844 阅读 · 1 评论 -
HDFS-伪分布搭建
文章目录伪分布安装步骤(1)开启sudo(2)修改主机名(3)配置静态IP(4)配置主机与IP的映射(5)修改配置文件(可参照官网)(6)设置免密登录(ssh)(7)初始化namenode伪分布安装步骤(1)开启sudo方便起见,我们在使用linux系统配置伪分布前,可以先配置一下sudo。其作用为,为了单次使用root权限切换到root用户编辑/etc/sudoers复制一次roo...原创 2019-01-16 13:59:03 · 450 阅读 · 0 评论 -
HDFS-本地模式的搭建
文章目录本地模式安装步骤(1)安装linux操作系统(2)安装java(如果存在系统自带java,请先卸载)(3)安装hadoop本地模式安装步骤(1)安装linux操作系统1.虚拟机VMware-workstation模拟一台计算机硬件环境,可以在此环境下安装操作系统2.虚拟机的安装(1)查询计算机是否禁止使用虚拟技术去bios里查看Inter Virtualizatio...原创 2019-01-09 10:48:51 · 972 阅读 · 0 评论 -
HDFS-HDFS的设计理念
HDFS简介首先,什么是HDFS呢?HDFS,即hadoop distributed file system(hadoop分布式文件系统),在非正式文档或旧文档及配置文件中,有时也简称DFS,这都是一样的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX(Portable Operating...原创 2019-01-24 12:57:47 · 1022 阅读 · 1 评论 -
HBASE-HBase概述
什么是HBase?HBase是一种非关系型数据库(NoSQL)。 “NoSQL"是一个通用词表示数据库不是RDBMS(关系型数据库管理系统),后者支持 SQL 作为主要访问手段。有许多种 NoSQL 数据库: BerkeleyDB 是本地 NoSQL 数据库例子, 而 HBase 是大型分布式数据库。 从技术上来说, HBase 更像是"数据存储(Data Store)” 多于 “数据库(Dat...原创 2019-02-12 16:22:28 · 420 阅读 · 0 评论