【免费】大数据技术之Hadoop(优化&新特性).doc资源-CSDN下载

需积分: 0 124 浏览量更新于2021-03-03 收藏 2.14MB DOCX 举报

在大数据处理领域，Hadoop 是一个关键的开源框架，它为海量数据的存储和计算提供了高效、可扩展的解决方案。本文将重点讨论Hadoop在大数据处理中的优化与新特性，特别是关于数据压缩的方面。 Hadoop 提供了多种数据压缩格式，包括 DEFLATE、Gzip、Bzip2、LZO 和 Snappy。每种压缩算法都有其特点。DEFLATE 是一种通用的压缩算法，可以直接使用，但压缩文件不可切分，不适用于并行处理。Gzip 也是直接可用的，但其压缩率较高，同时压缩和解压缩速度相对较慢。Bzip2 的压缩率最高，但速度最慢。LZO 压缩速度快，解压速度更快，但需要额外的索引步骤。Snappy 是 Google 开发的高速压缩库，具有极高的压缩和解压缩速度，尤其适合大规模数据处理场景。在Hadoop中，不同的压缩格式对应不同的编码/解码器，例如 DEFLATE 对应 DefaultCodec，Gzip 对应 GzipCodec，Bzip2 对应 BZip2Codec，LZO 对应 LzopCodec，而 Snappy 对应 SnappyCodec。这些编码器使得Hadoop能够支持多种压缩算法，从而可以根据实际需求进行选择。在选择压缩方式时，需要考虑性能和压缩率的平衡。Gzip适合对压缩比有较高要求但对速度不太敏感的应用；Bzip2则适合需要极高压缩比的场景；LZO和Snappy则更适合需要快速压缩和解压缩的情况，尤其是在MapReduce作业中，它们能提高整体处理效率。压缩可以在MapReduce的各个阶段启用，包括输入数据、mapper输出以及reducer输出。启用压缩可以通过配置Hadoop的相关参数实现。例如，`io.compression.codecs` 参数可以指定支持的编解码器列表，`mapreduce.map.output.compress` 控制mapper输出是否压缩，`mapreduce.map.output.compress.codec` 设定mapper输出的压缩格式，`mapreduce.output.fileoutputformat.compress` 和 `mapreduce.output.fileoutputformat.compress.codec` 分别用于控制reducer输出是否压缩及压缩格式。此外，`mapreduce.output.fileoutputformat.compress.type` 可以设置SequenceFile的压缩类型，如 NONE 或 BLOCK。 Hadoop的数据压缩机制提供了一种有效的手段来减少数据存储和传输的成本，同时通过优化压缩算法和配置，可以在不影响处理性能的前提下，提高大数据处理的效率。对于内存优化，Hadoop也提供了如MapReduce任务内存管理、数据本地性和缓存策略等方法，这些将在其他章节中详细探讨。通过对Hadoop的深入理解和优化，我们可以更好地应对大数据带来的挑战，提升数据处理的性能和效率。

—————————————————————————————————————

大数据技术之 Hadoop（优化&新特性）

版本：V3.0

第 1 章 Hadoop 数据压缩

1.1 概述

—————————————————————————————————————

1.2 MR 支持的压缩编码

压缩格式



自带？算法文件扩展名是否可切分换成压缩格式后，原来的程序是否需要修改



是，直接使用

 

否和文本处理一样，不需要修改



是，直接使用

 

否和文本处理一样，不需要修改



是，直接使用

 

是和文本处理一样，不需要修改



否，需要安装

 

是需要建索引，还需要指定输入格式



否，需要安装

 

否和文本处理一样，不需要修改

为了支持多种压缩/解压缩算法，Hadoop 引入了编码/解码器，如下表所示。

压缩格式对应的编码



解码器

  !"#

  #

  $#

   #

  #

压缩性能的比较

压缩算法原始文件大小压缩文件大小压缩速度解压速度

 %&$ '%$ '()*$ )%*$

 %&$ ''$ +*$ ,)*$

 %&$ ,$ +,&*$ (+-*$

http://google.github.io/snappy/

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250

MB/sec or more and decompresses at about 500 MB/sec or more.

—————————————————————————————————————

图 MapReduce 数据压缩

1.5 压缩参数配置

要在 Hadoop 中启用压缩，可以配置如下参数：

参数默认值阶段建议

 ...

（在

/0 

中配置）

 !"#

1.

 #

1.

 $#



输入压缩

2

使用文件扩展名判断是否支

持某种编解码器

" "" 

（在

/0 

中配置）

!



输出这个参数设为

"

启用压缩

" "" 

（在

/0 

中配置）

 !"#





输出企业多使用



或



编解码器

在此阶段压缩数据

"""3""!  



（在

/0 

中配置）

!

"

输出这个参数设为

"

启用压缩

"""3""!  



（在

/0 

中配置）

 .

!"#

"

输出使用标准工具或者编解码器，如



和



"""3""!  



（在

/0 

中配置）

4#4

"

输出

5"

输出使用的压缩类

型：

66

和

$#7

剩余32页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源评论

一个写湿的程序猿

粉丝: 1w+

大数据技术之Hadoop(优化&新特性).doc

大数据与Hadoop.doc

大数据技术之Hadoop.docx

Hadoop(3.x)之优化&amp;新特性.pdf

大数据Hadoop相关技术

大数据技术_Hadoop

1大数据技术之Hadoop（入门）.doc

大数据技术与应用专业调研报告.doc

Netflix基于AWS的大数据平台Hadoop架构解析.doc

2023年Hadoop试题试题库完整.doc

大数据技术Hadoop笔试题.doc.pdf

大数据技术Hadoop笔试题.doc.docx

大数据技术之Hadoop（入门）.doc

尚硅谷大数据技术之Hadoop

大数据技术之Hadoop.xmind

hadoop-3.3.1-aarch64.tar.gz

大数据平台技术框架选型资料.doc

大数据技术和应用.doc

5大数据技术之HBase.doc

大数据存储架构和算法研究综述.doc

7-0大数据技术之Hadoop（HDFS）

2-大数据技术之Hadoop（入门）

3大数据技术之Hadoop（MapReduce）.doc

大数据技术之Hadoop（MapReduce）.doc

Hadoop生态系统及其版本演化.doc

hbase-0.98.17-hadoop2-bin.tar.gz

大数据入门资源.doc

大数据应用解决方案报告书.doc

H3C大数据产品技术白皮书.doc

防抖节流理解与应用场景

电力95598工单数据集完整版（200M，10万条）.zip

最新资源

Hadoop(3.x)之优化&新特性.pdf