自定义 Flink SQL 函数-CSDN博客

FlinkSQL自定义函数开发指南本文详细介绍了FlinkSQL中三种自定义函数的实现方法：1)标量函数（单行输入输出单值），用于数据清洗和转换；2)聚合函数（多行输入输出单值），用于统计分析；3)表函数（单行输入输出多行），用于数据拆分。指南包含每类函数的典型应用场景、实现步骤、增强代码示例和复杂使用案例，并提供了函数注册管理、性能优化、测试调试等高级技巧。通过本指南，开发者可掌握扩展Flink功能的核心方法，构建高效的数据处理解决方案。

自定义 Flink SQL 函数完整指南

自定义 Flink SQL 函数是扩展 Flink 功能的重要方式，允许用户根据业务需求实现特定的数据处理逻辑。本指南详细介绍了三种函数类型及其实现方法。

函数类型概述

1. 标量函数（Scalar Functions）

作用：对输入的一行数据执行计算，返回单个值。 典型应用场景：

数据清洗：如字符串格式化、空值处理
业务计算：如根据订单金额计算折扣
类型转换：如将时间戳转换为特定格式的日期字符串

2. 聚合函数（Aggregate Functions）

作用：对多行数据进行聚合计算，返回单个值。 典型应用场景：

自定义统计指标：如计算加权平均值
复杂聚合：如计算中位数或百分位数
状态跟踪：如会话窗口内的用户行为统计

3. 表函数（Table Functions）

作用：对输入的一行数据执行计算，返回多行数据（类似 LATERAL TABLE 操作）。 典型应用场景：

数据分解：如JSON/XML解析为多行
数据扩展：如将数组拆分为多行记录
关联查询：如根据输入生成多个关联结果

标量函数实现指南

详细实现步骤

创建类：继承 org.apache.flink.table.functions.ScalarFunction
实现eval方法：
- 可定义多个eval方法实现函数重载
- 支持各种Java类型作为参数和返回值
可选方法：
- open()：初始化函数资源
- close()：清理函数资源
注册使用：
- 临时函数：仅当前会话可用
- 系统函数：所有会话可用

增强示例代码

import org.apache.flink.table.functions.ScalarFunction;
import org.apache.flink.table.annotation.DataTypeHint;
import org.apache.flink.table.annotation.InputGroup;

// 增强版自定义函数：增加输入验证和日志记录
public class EnhancedUpperCaseAndTruncate extends ScalarFunction {
    
    // 主eval方法
    public @DataTypeHint("STRING") String eval(
        @DataTypeHint(inputGroup = InputGroup.ANY) Object input, 
        int length) {
        
        if (input == null) {
            return null;
        }
        
        String str = input.toString();
        if (str.isEmpty()) {
            return "";
        }
        
        int validLength = Math.max(0, Math.min(length, str.length()));
        return str.toUpperCase().substring(0, validLength);
    }
    
    // 重载eval方法，支持默认长度
    public String eval(String str) {
        return eval(str, 10); // 默认截取前10个字符
    }
}

复杂使用示例

-- 注册函数
CREATE TEMPORARY FUNCTION enhanced_truncate AS 'com.example.EnhancedUpperCaseAndTruncate';

-- 复杂查询示例
SELECT 
    user_id,
    enhanced_truncate(user_name, 5) AS short_name,
    enhanced_truncate(description) AS default_desc
FROM user_profiles
WHERE enhanced_truncate(user_name, 3) = 'JOH';

聚合函数实现指南

详细实现步骤

创建类：继承 org.apache.flink.table.functions.AggregateFunction
定义累加器：包含中间计算结果
实现关键方法：
- createAccumulator()：初始状态
- accumulate()：更新状态
- getValue()：最终结果
可选方法：
- retract()：回撤处理（用于有界OVER窗口）
- merge()：会话窗口合并
- resetAccumulator()：重置状态

增强示例代码

import org.apache.flink.table.functions.AggregateFunction;
import org.apache.flink.table.annotation.DataTypeHint;

// 增强版字符串长度聚合函数：支持忽略空值配置
public class ConfigurableAvgStringLength extends AggregateFunction<Double, ConfigurableAvgStringLength.Accumulator> {
    
    public static class Accumulator {
        public long totalLength = 0;
        public long count = 0;
        public boolean ignoreNulls = true;
    }
    
    @Override
    public Accumulator createAccumulator() {
        return new Accumulator();
    }
    
    public void accumulate(Accumulator acc, String value, boolean ignoreNulls) {
        acc.ignoreNulls = ignoreNulls;
        if (value == null) {
            if (!ignoreNulls) {
                acc.count++;
            }
            return;
        }
        acc.totalLength += value.length();
        acc.count++;
    }
    
    @Override
    public Double getValue(Accumulator acc) {
        return acc.count == 0 ? null : (double) acc.totalLength / acc.count;
    }
    
    // 支持重载
    public void accumulate(Accumulator acc, String value) {
        accumulate(acc, value, true);
    }
}

复杂使用示例

-- 注册函数
CREATE FUNCTION config_avg_length AS 'com.example.ConfigurableAvgStringLength';

-- 复杂聚合示例
SELECT 
    department,
    config_avg_length(name) AS default_avg,
    config_avg_length(name, false) AS include_nulls_avg
FROM employees
GROUP BY department;

-- 窗口聚合示例
SELECT 
    window_start,
    config_avg_length(comment) AS avg_comment_length
FROM TABLE(
    TUMBLE(TABLE comments, DESCRIPTOR(comment_time), INTERVAL '1' HOUR)
)
GROUP BY window_start;

表函数实现指南

详细实现步骤

创建类：继承 org.apache.flink.table.functions.TableFunction
实现eval方法：通过 collect() 输出多行
定义返回类型：可使用注解或显式指定
注册使用：配合 LATERAL TABLE 或 JOIN LATERAL TABLE 语法

增强示例代码

import org.apache.flink.table.functions.TableFunction;
import org.apache.flink.table.annotation.DataTypeHint;
import org.apache.flink.table.annotation.FunctionHint;
import org.apache.flink.types.Row;

// 增强版拆分函数：支持返回多列
@FunctionHint(output = @DataTypeHint("ROW<position INT, item STRING>"))
public class AdvancedSplitString extends TableFunction<Row> {
    
    public void eval(String str, String delimiter) {
        if (str == null || delimiter == null) {
            return;
        }
        
        String[] parts = str.split(delimiter);
        for (int i = 0; i < parts.length; i++) {
            collect(Row.of(i + 1, parts[i]));
        }
    }
    
    // 重载方法：默认使用逗号分隔
    public void eval(String str) {
        eval(str, ",");
    }
}

复杂使用示例

-- 注册函数
CREATE FUNCTION advanced_split AS 'com.example.AdvancedSplitString';

-- 基本使用
SELECT order_id, t.position, t.item
FROM orders, 
LATERAL TABLE(advanced_split(items)) AS t(position, item);

-- 带过滤的JOIN
SELECT o.order_id, o.customer_id, t.item
FROM orders o
JOIN LATERAL TABLE(advanced_split(o.items, '|')) AS t(position, item)
ON t.item LIKE '%SPECIAL%';

-- 窗口函数结合
SELECT 
    window_start,
    COUNT(DISTINCT t.item) AS unique_items
FROM TABLE(
    TUMBLE(TABLE orders, DESCRIPTOR(order_time), INTERVAL '1' HOUR)
),
LATERAL TABLE(advanced_split(items)) AS t(position, item)
GROUP BY window_start;

高级注册与管理

1. 函数注册方式对比

注册方式	作用域	持久性	适用场景
CREATE TEMPORARY FUNCTION	当前会话	临时	开发测试、临时分析
CREATE FUNCTION	当前目录	持久	生产环境常用函数
CREATE SYSTEM FUNCTION	所有目录	持久	系统级通用函数
Table API注册	程序生命周期	临时	程序内使用

2. 配置自动注册示例

# sql-client-defaults.yaml
functions:
  - name: std_upper
    from: classpath
    class: com.example.StandardUpperCaseFunction
  
  - name: geo_distance
    from: jar
    jar: hdfs:///functions/geo.jar
    class: com.example.GeographyFunctions

3. 函数依赖管理

打包注意事项：
- 将依赖项打包到Uber JAR中
- 避免依赖冲突
类加载隔离：
- 使用child-first类加载
- 配置方式：table.exec.loader.classloader-parent-first-patterns.additional

性能优化建议

减少对象创建：
- 重用对象实例
- 使用基本数据类型

合理使用RuntimeContext：

@Override
public void open(FunctionContext context) {
    this.cache = context.getDistributedCache().getFile("dictionary");
}

数据类型提示：

@FunctionHint(
    input = {@DataTypeHint("STRING"), @DataTypeHint("INT")},
    output = @DataTypeHint("BOOLEAN")
)

异步函数实现：

@FunctionHint(
    output = @DataTypeHint(value = "RAW", bridgedTo = CompletableFuture.class)
)
public class AsyncLookupFunction extends TableFunction<CompletableFuture<String>> {
    // 实现异步eval方法
}

测试与调试

单元测试框架：

@Test
public void testScalarFunction() {
    ScalarFunction func = new MyFunction();
    assertEquals("EXPECTED", func.eval("input"));
}

集成测试步骤：
1. 启动本地Flink环境
2. 创建测试表
3. 注册测试函数
4. 执行测试SQL
5. 验证结果
调试技巧：
- 使用日志输出：LOG.info("Processing: {}", input);
- 利用Flink UI检查函数行为
- 使用远程调试连接TaskManager