【大数据入门核心技术-Iceberg】（五）Iceberg与Spark基本Shell操作

forest_long

已于 2023-10-17 19:49:00 修改

阅读量320

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据技术入门到21天通关文章标签：大数据 spark 分布式 icebrg hudi 数据湖

于 2023-10-17 18:03:12 首次发布

本文链接：https://blog.csdn.net/forest_long/article/details/133889758

大数据技术入门到21天通关专栏收录该内容

174 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何使用SQL操作Apache Iceberg表，包括创建（分区）表、删除表、修改表属性、插入和查询数据、使用存储过程。同时，文章还讨论了在Spark Shell中遇到的错误'Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLauncher'的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、SQL操作

1、创建表

use hadoop_prod;
create database default;
use default;

CREATE TABLE hadoop_prod.default.sample1 (
    id bigint COMMENT 'unique id',
    data string)
USING iceberg;

>PARTITIONED BY (partition-expressions) ：配置分区
>LOCATION '(fully-qualified-uri)' ：指定表路径
>COMMENT 'table documentation' ：配置表备注
>TBLPROPERTIES ('key'='value', ...) ：配置表属性
表属性：https://iceberg.apache.org/docs/latest/configuration/
对Iceberg表的每次更改都会生成一个新的元数据文件（json文件）以提供原子性。默认情况下，旧元数据文件作为历史文件保存不会删除。

如果要自动清除元数据文件，在表属性中设置write.metadata.delete-after-commit.enabled=true。这将保留一些元数据文件（直到write.metadata.prev

了解本专栏