JAVA之布隆过滤器(Bloom Filter)

本文介绍了布隆过滤器的基本概念、优缺点和误识别率公式,展示了如何使用Guava和Redisson实现布隆过滤器,并通过实际代码比较了两者的误判率。此外,还探讨了自定义Redis实现布隆过滤器的方法,以及其在缓存穿透、在线人数统计和URL去重等场景的应用。

一、布隆过滤器概念

布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

布隆过滤器(Bloom Filter)优缺点

优点:

  • 时间复杂度低,增加及查询元素的时间复杂度都是O(k),(k为hash函数的个数)
  • 占用储存空间小,布隆过滤器相对于其他数据结构非常节省空间(例如Set、Map)
缺点:
  • 存在误判,只能证明一个元素一定不存在或者可能存在,返回结果是概率性的,但是可以通过调整参数来降低误判比例
  • 删除困难,一个元素映射到bit数组上的k个位置为1,删除的时候不能简单的直接置为0,可能会影响到其他元素的判断

布隆过滤器(Bloom Filter)公式

误识别率公式:
p≈(1−e−kn‾m)k p \approx (1 - e^{ \underline {-kn} \atop m}) ^k p(1emkn)k
公式变换:
m=−nln⁡p‾(ln⁡2)2 m = - {\underline {n \ln p} \atop {(\ln 2}) ^2} m=(ln2)2nlnp
k=n‾mln⁡2 k = {\underline n \atop m} \ln 2 k=mnln2
p 误报率
k 哈希的次数
m 布隆过滤器的长度(如比特数组的大小)
n 是已经添加元素的数量

布隆过滤器(Bloom Filter)应用场景

  • 解决缓存穿透问题
  • 统计在线人数
  • 爬虫url去重等

二、guava工具实现布隆过滤器

guava由谷歌公司提供,里面提供了布隆过滤器的实现。

# 添加依赖
<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>30.1.1-jre</version>
</dependency>
# guava过滤器实现
public static void main(String[] args) {
   
   
    BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(StandardCharsets.UTF_8), 1000000, 0.01);
    int n = 1000000;
    for (int i = 0; i < n; i++) {
   
   
        bloomFilter.put(String.valueOf(i));
    }
    int count = 0;
    for (int i = 0; i < (n*2); i++) {
   
   
        if (bloomFilter.mightContain(String.valueOf(i))) {
   
   
            count++;
        }
    }
    System.out.println("过滤器误判率:" + (count - n)/Double.valueOf(n)); 
}
# 与上述设定的误判断
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值