巧用Hive自定义函数，拓展查询功能边界-CSDN博客

本文链接：https://blog.csdn.net/erliu1995/article/details/147070482

一、引言

在大数据分析场景下，Hive作为基于Hadoop的数据仓库工具，凭借其强大的分布式数据处理能力，为海量数据的存储、管理和查询提供了便利。尽管Hive内置了丰富的函数，能够满足大部分常规的数据处理需求，但在实际应用中，面对多样化、个性化的数据格式和业务逻辑，内置函数往往显得力不从心。这时，Hive自定义函数（User-Defined Function，UDF）就成为了突破功能限制、拓展查询边界的有力武器。本文将深入探讨如何巧用Hive自定义函数，解锁更多高级查询技能。

二、Hive自定义函数基础概述

Hive支持三种类型的自定义函数：UDF（一进一出）、UDAF（多进一出，用于聚合操作）和UDTF（一进多出）。

• UDF：最常见的类型，用于对单个数据进行处理和转换。例如，将字符串转换为特定格式、对数值进行复杂运算等。开发UDF需要继承org.apache.hadoop.hive.ql.exec.UDF类，并实现evaluate方法。

• UDAF：用于对一组数据进行聚合计算，如自定义的复杂统计指标。开发UDAF需要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDAFResolver类，并实现相关的聚合逻辑方法。

• UDTF：用于将一条输入记录拆分成多条输出记录，比如解析JSON数组字段为多行数据。开发UDTF需要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF类，并实现process、close等方法。

三、开发与使用UDF实战

（一）简单字符串处理UDF

假设我们有一个业务需求，需要将输入的字符串首字母大写，其余字母小写。以Java开发为例，代码如下：
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class CapitalizeUDF extends UDF {
public Text evaluate(Text input) {
if (input == null) {
return null;
}
String str = input.toString();
if (str.isEmpty()) {
return input;
}
String result = str.substring(0, 1).toUpperCase() + str.substring(1).toLowerCase();
return new Text(result);
}
}
将上述代码打包成JAR文件后，在Hive中注册并使用：
-- 添加JAR包到Hive环境
ADD JAR /path/to/capitalize-udf.jar;

-- 注册UDF
CREATE TEMPORARY FUNCTION capitalize AS 'CapitalizeUDF';

-- 使用UDF
SELECT capitalize(name) FROM employees;
（二）复杂日期处理UDF

当处理日期相关的复杂业务逻辑时，Hive内置函数可能无法满足需求。例如，计算两个日期之间的工作日天数。
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;

public class WorkingDaysUDF extends UDF {
private static final SimpleDateFormat DATE_FORMAT = new SimpleDateFormat("yyyy-MM-dd");

public IntWritable evaluate(Text startDateStr, Text endDateStr) {
if (startDateStr == null || endDateStr == null) {
return null;
}
try {
Date startDate = DATE_FORMAT.parse(startDateStr.toString());
Date endDate = DATE_FORMAT.parse(endDateStr.toString());
if (startDate.after(endDate)) {
return new IntWritable(0);
}

Calendar startCalendar = Calendar.getInstance();
startCalendar.setTime(startDate);
Calendar endCalendar = Calendar.getInstance();
endCalendar.setTime(endDate);

int workingDays = 0;
while (startCalendar.getTime().before(endCalendar.getTime()) || startCalendar.getTime().equals(endCalendar.getTime())) {
int dayOfWeek = startCalendar.get(Calendar.DAY_OF_WEEK);
if (dayOfWeek != Calendar.SATURDAY && dayOfWeek != Calendar.SUNDAY) {
workingDays++;
}
startCalendar.add(Calendar.DAY_OF_MONTH, 1);
}
return new IntWritable(workingDays);
} catch (ParseException e) {
return null;
}
}
}
注册和使用该UDF：
ADD JAR /path/to/working-days-udf.jar;
CREATE TEMPORARY FUNCTION working_days AS 'WorkingDaysUDF';

SELECT working_days(start_date, end_date) FROM projects;
四、UDAF实现高级聚合功能

（一）自定义加权平均值聚合函数

假设我们有一个数据集，包含数值和对应的权重，需要计算加权平均值。实现一个UDAF如下：
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFResolver;
import org.apache.hadoop.hive.serde2.io.DoubleWritable;

@Description(name = "weighted_avg", value = "_FUNC_(value, weight) - returns the weighted average of value")
public class WeightedAverageUDAF extends UDAF {
public static class WeightedAverageEvaluator implements UDAFEvaluator {
private double sumWeightedValues;
private double sumWeights;

public WeightedAverageEvaluator() {
reset();
}

@Override
public void reset() {
sumWeightedValues = 0;
sumWeights = 0;
}

public boolean iterate(DoubleWritable value, DoubleWritable weight) {
if (value == null || weight == null) {
return true;
}
sumWeightedValues += value.get() * weight.get();
sumWeights += weight.get();
return true;
}

public DoubleWritable terminatePartial() {
if (sumWeights == 0) {
return null;
}
return new DoubleWritable(sumWeightedValues / sumWeights);
}

public boolean merge(DoubleWritable other) {
if (other == null) {
return true;
}
sumWeightedValues += other.get() * sumWeights;
sumWeights += sumWeights;
return true;
}

public DoubleWritable terminate() {
if (sumWeights == 0) {
return null;
}
return new DoubleWritable(sumWeightedValues / sumWeights);
}
}

public static class WeightedAverageResolver extends GenericUDAFResolver {
@Override
public UDAFEvaluator getEvaluator(TypeInfo[] parameters) throws SemanticException {
return new WeightedAverageEvaluator();
}
}
}
在Hive中使用：
ADD JAR /path/to/weighted-average-udaf.jar;
CREATE TEMPORARY FUNCTION weighted_avg AS 'WeightedAverageUDAF.WeightedAverageResolver';

SELECT weighted_avg(value, weight) FROM data_with_weights;
五、UDTF用于数据解析与展开

（一）解析JSON数组为多行数据

假设有一个表，其中一个字段存储JSON数组格式的数据，需要将其展开为多行。以解析包含商品列表的JSON数组为例：
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.*;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.json.JSONArray;
import org.json.JSONException;
import org.json.JSONObject;

import java.util.ArrayList;
import java.util.List;

@Description(name = "json_array_expand", value = "_FUNC_(json_array_string) - expands a JSON array string into multiple rows")
public class JsonArrayExpandUDTF extends GenericUDTF {
private StandardStructObjectInspector outputOI;
private PrimitiveObjectInspector inputOI;

@Override
public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {
if (args.length != 1) {
throw new UDFArgumentException("json_array_expand only takes one argument");
}
inputOI = (PrimitiveObjectInspector) args[0];
if (inputOI.getPrimitiveCategory() != PrimitiveObjectInspector.PrimitiveCategory.STRING) {
throw new UDFArgumentException("json_array_expand only takes a string as argument");
}

List<String> fieldNames = new ArrayList<>();
List<ObjectInspector> fieldOIs = new ArrayList<>();
fieldNames.add("product_name");
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

outputOI = ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
return outputOI;
}

@Override
public void process(Object[] args) throws HiveException {
String jsonArrayStr = (String) inputOI.getPrimitiveJavaObject(args[0]);
try {
JSONArray jsonArray = new JSONArray(jsonArrayStr);
for (int i = 0; i < jsonArray.length(); i++) {
JSONObject jsonObject = jsonArray.getJSONObject(i);
String productName = jsonObject.getString("product_name");
forward(new Object[]{productName});
}
} catch (JSONException e) {
throw new HiveException(e);
}
}

@Override
public void close() throws HiveException {}
}
在Hive中使用：
ADD JAR /path/to/json-array-expand-udtf.jar;
CREATE TEMPORARY FUNCTION json_array_expand AS 'JsonArrayExpandUDTF';

SELECT json_array_expand(json_products) FROM products_table;
六、自定义函数的管理与优化

• 函数注册与生命周期管理：临时函数只在当前会话有效，适合测试和临时使用；持久化函数可通过CREATE FUNCTION...USING JAR语句创建，在集群中全局可用，但更新时需谨慎处理版本兼容性。

• 性能优化：尽量减少自定义函数中的复杂计算和I/O操作，避免在函数内部进行大规模的数据读取或网络请求。合理利用Hive的分布式计算能力，将复杂逻辑分解为多个简单步骤，利用中间结果缓存提升性能。

七、总结

Hive自定义函数极大地拓展了Hive查询的功能边界，使数据处理能够更好地贴合复杂多变的业务需求。通过开发和使用UDF、UDAF和UDTF，数据分析师和工程师可以灵活实现各种个性化的数据转换、聚合和解析操作。在实际应用中，掌握自定义函数的开发技巧和性能优化方法，将为大数据分析工作带来更高的效率和更强的灵活性，挖掘出数据中更多有价值的信息。