FLINK SQL&Table API 的基本概念及常用API

本文链接：https://blog.csdn.net/mqiqe/article/details/142806107

基本概念

SQL和Table API是Apache Flink提供的两个关系型API，它们被设计用于统一的流和批处理。以下是关于SQL和Table API的基本概念及常用API的详细介绍：

一、基本概念

Table API

定义：Table API是一个为Java、Scala和Python提供的语言集成查询API。它允许用户以非常直观的方式组合来自关系操作符（如选择、过滤和连接）的查询。
特点：Table API是SQL语言的超集，并专门为Apache Flink设计。与常规SQL中将查询指定为字符串不同，Table API查询是以Java、Scala或Python中的语言嵌入样式来定义的，具有IDE支持（如自动完成和语法检测）。

SQL API

定义：SQL API是基于SQL标准的Apache Calcite框架实现的。用户可以使用纯SQL来开发和运行一个Flink任务。
特点：无论输入是连续的（流处理）还是有界的（批处理），在SQL API中同一条查询语句具有相同的语义并且会产出相同的结果。

二、常用API

Table API常用操作

创建表环境：TableEnvironment是Table API的入口点，用于执行SQL查询、注册表、注册用户定义函数等。可以通过调用TableEnvironment.create()方法来创建一个TableEnvironment实例。
从DataStream创建Table：可以使用fromDataStream()方法将DataStream转换为Table。
选择数据：使用select()方法从Table中选择特定的字段。
过滤数据：使用filter()方法对Table中的数据进行过滤。
连接操作：可以使用join()方法将两个Table进行连接。
窗口聚合：可以使用窗口函数对Table中的数据进行聚合操作，如统计每段时间内的数据数量等。

SQL API常用语句

SELECT语句：用于从表中查询数据。例如，SELECT a, COUNT(b) AS cnt FROM Orders GROUP BY a。
INSERT语句：用于将数据插入到表中。例如，INSERT INTO target SELECT a, COUNT(b) AS cnt FROM Orders GROUP BY a。
CREATE TABLE语句：用于创建表。可以指定表的名称、字段、数据类型等。
DROP TABLE语句：用于删除表。

三、Table API与SQL API的集成与转换

Table API和SQL API集成在一个联合API中，这个API的核心概念是一个表（Table），它作为查询的输入和输出。用户可以在Table API和SQL API之间轻松切换，例如，可以使用Table API进行复杂的数据转换和处理，然后使用SQL API进行简单的查询和分析。同时，也可以将DataStream转换为Table，或者将Table转换为DataStream，以实现与DataStream API的无缝集成。

注意事项

在使用Table API和SQL API时，需要确保已经正确配置了Flink的依赖项和环境。

Table API和SQL API的查询语句在流处理和批处理模式下具有相同的语义和结果，因此用户可以在不修改查询语句的情况下在两种模式之间切换。

在进行复杂查询和处理时，建议充分利用Table API和SQL API提供的丰富功能和操作符来提高查询效率和准确性。

一个SQL/Table API任务的代码结构

一个基于SQL或Table API的Flink任务通常具有清晰且结构化的代码布局。以下是一个典型的Flink SQL/Table API任务的代码结构概述：

1. 环境设置与依赖

首先，需要确保项目中包含了Flink的依赖。这通常在构建文件（如Maven的pom.xml或Gradle的build.gradle）中完成。

2. 初始化Flink执行环境

// 创建执行环境（BatchTableEnvironment或StreamTableEnvironment）  
// 注意：对于流处理，使用StreamTableEnvironment；对于批处理，使用BatchTableEnvironment  
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

3. 注册数据源

在Flink中，需要将数据源注册为表，以便在SQL查询中使用。

// 假设有一个DataStream<Row>类型的数据流  
DataStream<Row> dataStream = ...; // 数据流的创建和转换逻辑  
  
// 将DataStream转换为Table并注册  
tableEnv.fromDataStream(dataStream, "schema-string-or-TypeInfo");  
// 或者使用createTemporaryView注册为视图  
tableEnv.createTemporaryView("source_table", dataStream, "schema-string-or-TypeInfo");

注意："schema-string-or-TypeInfo"定义了表的模式，包括字段名称和类型。

4. 编写SQL查询

使用Table API或纯SQL编写查询逻辑。

// 使用Table API  
Table resultTable = tableEnv.sqlQuery("SELECT a, SUM(b) AS total_b FROM source_table GROUP BY a");  
  
// 或者使用纯SQL（如果已注册了表或视图）  
Table resultTable = tableEnv.executeSql("SELECT a, SUM(b) AS total_b FROM source_table GROUP BY a");

5. 执行查询并获取结果

对于批处理任务，查询执行是隐式的，当调用execute()方法时，整个程序会运行到完成。
对于流处理任务，需要将Table转换回DataStream（如果需要处理结果流），然后调用execute()方法来启动Flink作业。

// 将Table转换回DataStream（如果需要）  
DataStream<Row> resultStream = tableEnv.toAppendStream(resultTable, Row.class);  
  
// 添加对结果流的处理（例如，打印到控制台或写入外部系统）  
resultStream.print();  
  
// 执行Flink作业  
env