JAVA之布隆过滤器（Bloom Filter）

最新推荐文章于 2025-07-30 11:18:28 发布

原创

最新推荐文章于 2025-07-30 11:18:28 发布 · 4.9k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#java

本文介绍了布隆过滤器的基本概念、优缺点和误识别率公式，展示了如何使用Guava和Redisson实现布隆过滤器，并通过实际代码比较了两者的误判率。此外，还探讨了自定义Redis实现布隆过滤器的方法，以及其在缓存穿透、在线人数统计和URL去重等场景的应用。

一、布隆过滤器概念

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。

布隆过滤器（Bloom Filter）优缺点

优点：

时间复杂度低，增加及查询元素的时间复杂度都是O(k),（k为hash函数的个数）
占用储存空间小，布隆过滤器相对于其他数据结构非常节省空间（例如Set、Map）

缺点：

存在误判，只能证明一个元素一定不存在或者可能存在，返回结果是概率性的，但是可以通过调整参数来降低误判比例
删除困难，一个元素映射到bit数组上的k个位置为1，删除的时候不能简单的直接置为0，可能会影响到其他元素的判断

布隆过滤器（Bloom Filter）公式

误识别率公式：
$\approx (1 - e^{ \underline {-kn} \atop m}) ^k$
公式变换：
${\underline {n \ln p} \atop {(\ln 2}) ^2}$
${\underline n \atop m} \ln 2$
p 误报率
k 哈希的次数
m 布隆过滤器的长度（如比特数组的大小）
n 是已经添加元素的数量

布隆过滤器（Bloom Filter）应用场景

解决缓存穿透问题
统计在线人数
爬虫url去重等

二、guava工具实现布隆过滤器

guava由谷歌公司提供，里面提供了布隆过滤器的实现。

# 添加依赖
<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>30.1.1-jre</version>
</dependency>

# guava过滤器实现
public static void main(String[] args) {
   
   
    BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(StandardCharsets.UTF_8), 1000000, 0.01);
    int n = 1000000;
    for (int i = 0; i < n; i++) {
   
   
        bloomFilter.put(String.valueOf(i));
    }
    int count = 0;
    for (int i = 0; i < (n*2); i++) {
   
   
        if (bloomFilter.mightContain(String.valueOf(i))) {
   
   
            count++;
        }
    }
    System.out.println("过滤器误判率：" + (count - n)/Double.valueOf(n)); 
}