自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 基于Hadoop的数据仓库之Hive

Hive的基本概念 1.1、Hive 简介 什么是 Hive,Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方...

2019-07-20 11:56:03 295

原创 Hbase的shell操作

Hbase的shell操作 1.Hbase中的DDL操作 1)建表 语法1. create "namespace:表名","family column","family column" 语法2. {表的一些属性 必须包含列族} create "namespace:表名",{NAME=> “”,VERSIONS => 3,TTL =>},{NAME =&gt...

2019-07-15 20:52:49 173

原创 HBase数据库原理介绍

1、HBase 数据库 1.1、产生背景 自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop 的限...

2019-07-15 19:54:13 426

原创 Java虚拟机——JVM的垃圾回收

1. JVM的垃圾回收 1.1. 垃圾回收算法 标记清除算法 最基础的收集算法是“标记-清除”(Mark-Sweep)算法,此方法分为两个阶段:标记、清除。 标记要清除的对象,统一清除; 不足有两个: 一个是效率问题,标记和清除两个过程的效率都不高; 另一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时,无法找到...

2019-07-13 15:44:36 161

原创 Java虚拟机——JVM

1.What is Jvm? 我们大家知道jvm,全程:Java Virtual Machine。我们知道java具有跨平台,一次编译到处执行。每一种操作系统,执行相关程序的时候,因为操作环境不同,会造成代码不能跨平台执行。而java可以做到,原因在哪里?就在于不同操作系统有不同版本jvm。 语言的执行过程: 源代码(.java)----->编译(字节码 ...

2019-07-13 15:05:11 107

原创 MapReduce之Shuffle执行原理

MapReduce 的 Shuffle 机制 1.1、概述 1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle 2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,分组,局部聚合,缓存,拉取,再合并 排序) 3、具体来说:就是将 MapTask 输出的处理结果数...

2019-07-12 19:59:41 247

原创 Hadoop-分布式计算框架MapReduce

虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。 在此,本人总结一篇关于MapReduce编程的中的程序运行原理,便于大家查阅学习。 1、MapReduce之WordCount热门案例 ...

2019-07-03 20:35:54 146

原创 Hadoop之hdfs的文件上传原理与文件下载原理

#Hadoop之hdfs的文件上传,文件下载与元数据合并原理 我们知道Hdfs有两大核心分别是文件上传与文件下载 ---------------------------------------------------------------------------------------------------------------------------------------...

2019-07-03 20:13:17 1349

原创 Hadoop之hdfs详解

@TOC@(Scala入门—) Hadoop之hdfs详解 海量数据存储的 就是一个文件系统 分布式文件系统 hdfs的设计思: 假设有一个超级大的文件10T 服务器多台 ,每一个3T 超级大的文件如何存储呢? 存储方案:将超级大的文件 切分 每一个小文件进行存储在不同的节点上 分而治之的思想 (block) ,对文件进行分块存储 这个时候需要一个切分标准: 2.5T 合理吗? 切分...

2019-07-02 16:54:46 391

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除