使用Flink与Hive构建实时流批一体数仓

PDF文件

下载需积分: 50 | 1.57MB | 更新于2024-07-09 | 138 浏览量 | 举报 1 收藏

立即下载

"这篇文章主要探讨了如何利用Flink on Hive构建流批一体的实时数仓，阐述了Flink与Hive的集成，特别是在Hive维表JOIN和Flink读写Hive表的方法上的应用。" 在大数据处理领域，Flink和Hive是两个关键组件。Flink是一个强大的流处理框架，而Hive则是一个基于Hadoop的数据仓库工具，常用于离线批处理。随着实时数据分析需求的增长，将两者结合可以实现流批一体的实时数仓，提高数据处理的效率和实时性。 Flink on Hive的集成使得用户能够利用Flink的实时处理能力处理Hive中的数据，同时保持Hive的存储和查询优势。这意味着Flink不仅可以作为Hive的批处理引擎，还可以处理Hive中的流数据，从而为实时数仓提供实时计算和存储的能力。在Flink中，HiveCatalog被用来管理Hive元数据，允许Flink程序以批或流的方式访问Hive表。这为实时数仓的建设提供了灵活性，因为可以实时地读取和写入数据，同时进行批量处理，实现数据的全生命周期管理。文章特别提到了Flink的Hive维表JOIN（Temporal Table Join）功能。这是一种将Flink的流数据与Hive中的静态维表进行关联的方法，它允许在流处理过程中动态地引用Hive中的最新维表数据，从而实现对实时数据的精细化分析。 Flink写入Hive表的过程，支持批处理和流处理两种模式。在批处理模式下，Flink会将整个数据集作为一个完整的批次写入Hive，而在流处理模式下，Flink则可以持续地将流数据分片写入Hive，实现持续的数据更新和存储。此外，Flink还提供了多种写入Hive表的策略，如全量写入、追加写入和Upsert操作，以适应不同的业务需求。这些特性使得Flink能够在实时数仓中有效地处理数据的插入、更新和删除操作，确保数据的一致性和完整性。总结来说，Flink on Hive的集成为构建流批一体的实时数仓提供了强大的工具，通过Flink的实时处理能力和Hive的批处理与存储能力，企业能够更高效地处理和分析大规模数据，实现对业务的实时洞察。这对于现代大数据架构来说是一个重要的进步，尤其在实时分析、决策支持和智能应用等领域具有广泛的应用前景。

5/13/2021

Flink on Hive构建流批一体实时数仓

https://mp.weixin.qq.com/s?__biz=Mzg3NjIyNjQwMg==&mid=2247501137&idx=1&sn=77ca5f487e7bdf4fa996801db4f1d91c&chksm=cf37f75cf8407e4a584265b392040a958a992fe3ac68b45100b81d673971b8f428d

…

4/19

'sink.partition-commit.trigger'='partition-time',

'sink.partition-commit.delay'='0S',

'sink.partition-commit.policy.kind'='metastore,success-file'

);

-- 使用默认SQL方言

Flink SQL> SET table.sql-dialect=default;

-- 创建一张kafka数据源表

CREATE TABLE user_behavior (

`user_id` BIGINT, -- 用户id

`item_id` BIGINT, -- 商品id

`cat_id` BIGINT, -- 品类id

`action` STRING, -- 用户行为

`province` INT, -- 用户所在的省份

`ts` BIGINT, -- 用户行为发生的时间戳

`proctime` AS PROCTIME(), -- 通过计算列产生一个处理时间列

`eventTime` AS TO_TIMESTAMP(FROM_UNIXTIME(ts, 'yyyy-MM-dd HH:mm:ss')), -- 事件时间

WATERMARK FOR eventTime AS eventTime - INTERVAL '5' SECOND -- 定义watermark

) WITH (

'connector' = 'kafka', -- 使用 kafka connector

'topic' = 'user_behaviors', -- kafka主题

'scan.startup.mode' = 'earliest-offset', -- 偏移量

'properties.group.id' = 'group1', -- 消费者组

'properties.bootstrap.servers' = 'kms-2:9092,kms-3:9092,kms-4:9092',

'format' = 'json', -- 数据源格式为json

'json.fail-on-missing-field' = 'true',

'json.ignore-parse-errors' = 'false'

剩余18页未读，继续阅读

cycgs

粉丝: 1

使用Flink与Hive构建实时流批一体数仓

Flink X Hologres构建企业级一站式实时数仓.pdf

基于 Flink 的典型 ETL 场景实现-实时数仓篇.pdf

实时数仓VS离线数仓.pdf

Flink实时数仓.xmind

Flink电商实时数仓.html

基于 Flink 的滴滴实时数仓实践.pdf

数据仓库实时数仓.rar

Flink Table Store：流批一体存储.pdf

基于Flink DataStream API的流批一体处理.pdf

flink实时数仓5.0flink实时数仓5.0flink实时数仓5.0flink实时数仓5.0

最新资源