一、布隆过滤器概念
布隆过滤器(Bloom Filter)
是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。
布隆过滤器(Bloom Filter)
优缺点
优点:
- 时间复杂度低,增加及查询元素的时间复杂度都是O(k),(k为hash函数的个数)
- 占用储存空间小,布隆过滤器相对于其他数据结构非常节省空间(例如Set、Map)
- 存在误判,只能证明一个元素一定不存在或者可能存在,返回结果是概率性的,但是可以通过调整参数来降低误判比例
- 删除困难,一个元素映射到bit数组上的k个位置为1,删除的时候不能简单的直接置为0,可能会影响到其他元素的判断
布隆过滤器(Bloom Filter)
公式
误识别率公式:
p≈(1−e−kn‾m)k p \approx (1 - e^{ \underline {-kn} \atop m}) ^k p≈(1−em−kn)k
公式变换:
m=−nlnp‾(ln2)2 m = - {\underline {n \ln p} \atop {(\ln 2}) ^2} m=−(ln2)2nlnp
k=n‾mln2 k = {\underline n \atop m} \ln 2 k=mnln2
p
误报率
k
哈希的次数
m
布隆过滤器的长度(如比特数组的大小)
n
是已经添加元素的数量
布隆过滤器(Bloom Filter)
应用场景
- 解决缓存穿透问题
- 统计在线人数
- 爬虫url去重等
二、guava工具实现布隆过滤器
guava由谷歌公司提供,里面提供了布隆过滤器的实现。
# 添加依赖
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>30.1.1-jre</version>
</dependency>
# guava过滤器实现
public static void main(String[] args) {
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(StandardCharsets.UTF_8), 1000000, 0.01);
int n = 1000000;
for (int i = 0; i < n; i++) {
bloomFilter.put(String.valueOf(i));
}
int count = 0;
for (int i = 0; i < (n*2); i++) {
if (bloomFilter.mightContain(String.valueOf(i))) {
count++;
}
}
System.out.println("过滤器误判率:" + (count - n)/Double.valueOf(n));
}
# 与上述设定的误判断