自定义UDF-集合交集、并集、差集

        最近有这样一个需求,表A有一列集合Array,表B有一列集合Array,然后如果A中的集合和B中的集合有重复的项就保留,换言之就是要求表A中的集合和表B中集合的交集。

例如:

输入>>: select array_intersect(array('a','b'),array('b','c'))
输出>>: ['b']

        据了解,hive没有现成的对集合做交集的函数。因此自定义了对集合的交集、并集、差集的函数。代码及注册如下。

1、数组交集

package com.star.hive;

import org.apache.hadoop.hive.ql.exec.UDF;

import java.util.ArrayList;
import java.util.HashSet;
import java.util.Set;

public class ArrayIntersect extends UDF {

    public ArrayList<String> evaluate(ArrayList<String> input1, ArrayList<String> input2) {

        if (input1 == null || input2 == null) {
            return new ArrayList<>();
        }

        Set<String> set1 = new HashSet<>(input1);
        Set<String> set2 = new HashSet<>(inp
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值