Apache Iceberg 中三种操作表的方式

最新推荐文章于 2025-05-20 15:38:58 发布

mojolang

最新推荐文章于 2025-05-20 15:38:58 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据湖文章标签： apache hive hadoop Iceberg

原文链接：https://blog.csdn.net/shudaqi2010/article/details/122818041

数据湖专栏收录该内容

6 篇文章

订阅专栏

Apache Iceberg提供了使用HiveCatalog和HadoopCatalog创建表的方法。HiveCatalog借助Hive的MetaStore，而HadoopCatalog直接使用HDFS。此外，还有HadoopTables用于在HDFS目录中存储表，但不支持表的重命名操作。Apache Iceberg的元数据存储是可插拔的，允许自定义存储方式，如AWS将其存储到Glue中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在 Apache Iceberg 中有很多种方式可以来创建表，其中就包括使用 Catalog 方式或者实现 org.apache.iceberg.Tables 接口。下面我们来简单介绍如何使用。.

使用 Hive catalog

从名字就可以看出，Hive catalog 是通过连接 Hive 的 MetaStore，把 Iceberg 的表存储到其中，它的实现类为 org.apache.iceberg.hive.HiveCatalog，下面是通过 sparkContext 中的 hadoopConfiguration 来获取 HiveCatalog 的方式：

import org.apache.iceberg.hive.HiveCatalog;
Catalog catalog = new HiveCatalog(spark.sparkContext().hadoopConfiguration());

Catalog 接口里面定义了操作表的方法，比如 createTable, loadTable, renameTable, 以及 dropTable。如果想创建表，我们需要定义 TableIdentifier，表的 Schema 以及分区的信息，如下：

import org.apache.iceberg.Table;
import org.apache.iceberg.catalog.TableIdentifier;
import org.apache.iceberg.PartitionSpec;
import org.apache.iceberg.Schema;
TableIdentifier name = TableIdentifier.of("default", "iteblog");
Schema schema = new Schema(
Types.NestedField.required(1, "id", Types.IntegerType.get()),
Types.NestedField.optional(2, "name", Types.StringType.get()),
Types.NestedField.required(3, "age", Types.IntegerType.get()),
Types.NestedField.optional(4, "ts", Types.TimestampType.withZone())
);
PartitionSpec spec = PartitionSpec.builderFor(schema).year("ts").bucket("id", 2).build();
Table table = catalog.createTable(name, schema, spec);

使用 Hadoop catalog

Hadoop catalog 不依赖 Hive MetaStore 来存储元数据，其使用 HDFS 或者类似的文件系统来存储元数据。注意，文件系统需要支持原子的重命名操作，所以本地文件系统（local FS）、对象存储（S3、OSS等）来存储 Apache Iceberg 元数据是不安全的。下面是获取 HadoopCatalog 例子：

import org.apache.hadoop.conf.Configuration;
import org.apache.iceberg.hadoop.HadoopCatalog;
Configuration conf = new Configuration();
String warehousePath = "hdfs://www.iteblog.com:8020/warehouse_path";
HadoopCatalog catalog = new HadoopCatalog(conf, warehousePath);

和 Hive catalog 一样，HadoopCatalog 也是实现 Catalog 接口的，所以其也实现了表的各种操作方法，包括 createTable, loadTable, 以及 dropTable。下面是使用 HadoopCatalog 来创建 Iceberg 的例子：

import org.apache.iceberg.Table;
import org.apache.iceberg.catalog.TableIdentifier;
TableIdentifier name = TableIdentifier.of("logging", "logs");
Table table = catalog.createTable(name, schema, spec);

使用 Hadoop tables

Iceberg 也支持存储在 HDFS 目录中的表。和 Hadoop catalog 一样，文件系统需要支持原子的重命名操作，所以本地文件系统（local FS）、对象存储（S3、OSS等）来存储 Apache Iceberg 元数据是不安全的。这种方式存储的表并不支持表的各种操作，比如不支持 renameTable。下面是获取 HadoopTables 的例子：