Impala高性能探秘之HDFS数据访问

最新推荐文章于 2023-12-12 15:27:58 发布

教练_我要踢球

最新推荐文章于 2023-12-12 15:27:58 发布

阅读量9k

点赞数 6

分类专栏： OLAP impala 文章标签： impala hdfs olap SQL 数据处理

本文链接：https://blog.csdn.net/yu616568/article/details/74996897

版权

本文深入探讨Impala如何高效地访问HDFS数据，包括数据分区、任务分发、HdfsScanNode的实现、数据解析和处理、数据压缩等关键环节。Impala将数据读取与扫描线程分离，利用元数据进行分区剪枝，优化任务分配，确保数据本地性和任务均衡。此外，介绍了Scanner线程如何处理数据，以及数据压缩在性能优化中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Impala是一个高性能的OLAP引擎，Impala本身只是一个OLAP-SQL引擎，它访问的数据存储在第三方引擎中，第三方引擎包括HDFS、Hbase、kudu。对于HDFS上的数据，Impala支持多种文件格式，目前可以访问Parquet、TEXT、avro、sequence file等。对于HDFS文件格式，Impala不支持更新操作，这主要限制于HDFS对于更新操作的支持比较弱。本文主要介绍Impala是如何访问HDFS数据的，Impala访问HDFS包括如下几种类型：1、数据访问（查询）；2、数据写入（插入）；3、数据操作（重命名、移动文件等）。本文将详细介绍Impala是如何在查询执行过程中从HDFS获取数据,也就是Impala中HdfsScanNode的实现细节。

本文是Impala系列文章的一篇，关于Impala的介绍相关的文章可以参考：Impala查询详解第一篇——简介和大数据时代快速SQL引擎-Impala

数据分区

Impala执行查询的时首先在FE端进行查询解析，生成物理执行计划，进而分隔成多个Fragment（子查询），然后交由Coordinator处理任务分发，Coordinator在做任务分发的时候需要考虑到数据的本地性，它需要依赖于每一个文件所在的存储位置（在哪个DataNode上），这也就是为什么通常将Impalad节点部署在DataNode同一批机器上的原因，为了揭开Impala访问HDFS的面纱需要先从Impala如何分配扫描任务说起。

众所周知，无论是MapReduce任务还是Spark任务，它们执行的之前都需要在客户端将输入文件进行分割，然后每一个Task处理一段数据分片，从而达到并行处理的目的。Impala的实现也是类似的原理，在生成物理执行计划的时候，Impala根据数据所在的位置将Fragment分配到多个Backend Impalad节点上执行，那么这里存在两个核心的问题：