海量数据处理技巧与Bloomfilter详解 - CSDN文库

PDF文件

下载需积分: 50 | 216KB | 更新于2024-10-09 | 66 浏览量 | 举报 1 收藏

立即下载

"这篇文章除了介绍大数据量处理的重要性，还主要讲解了一种常见用于处理海量数据的算法——Bloom Filter，以及它的变种Counting Bloom Filter和Spectral Bloom Filter，适合准备IT公司面试的人员学习。" 文章中提到的大数据量处理是现代IT行业中的一个重要议题，尤其在互联网巨头如百度、谷歌、腾讯等公司，处理海量数据的能力是衡量技术实力的关键指标。大数据量的处理涉及到一系列技术和算法，Bloom Filter是其中的一种高效数据结构，常用于解决数据判重和集合操作。 Bloom Filter的核心思想是使用位数组和多个独立的哈希函数。当插入元素时，通过哈希函数将元素映射到位数组中相应的位并设置为1。查询时，如果所有哈希函数对应的位都是1，那么可能存在该元素，但不保证一定存在，因为可能会发生误判（False Positive）。由于Bloom Filter不支持删除操作，为了解决这个问题，可以使用Counting Bloom Filter，用计数器数组替代位数组，使得删除成为可能。错误率是Bloom Filter的一个关键参数，它由位数组的大小（m）和哈希函数的数量（k）共同决定。当k=(ln2)*(m/n)时，错误率最小。若要求错误率不大于E，m至少应为n*lg(1/E)，并且为了保持位数组中大部分位为0，实际m应该更大，大约为nlg(1/E)的1.44倍。例如，如果错误率为0.01，那么m大约是n的13倍，k大概是8个。由于单个元素通常占用多bit空间，因此Bloom Filter在内存效率方面有优势。文章还提到了Bloom Filter的两个变种。Counting Bloom Filter扩展了基础版本，支持元素的删除操作，每个位变为一个计数器。Spectral Bloom Filter（SBF）则进一步关联了元素出现的次数，通过计数器中的最小值近似表示元素的出现频率，这在需要统计频率的场景中很有用。在面试或笔试中，这类问题可能会以实际问题的形式出现，例如给定两个集合A和B，如何使用Bloom Filter或其他数据结构有效地判断它们的交集或并集，或者进行元素去重。理解并掌握Bloom Filter及其变种，可以帮助应聘者在面试中展示出对大规模数据处理的理解和应用能力。

大数据量，海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如 baidu google 腾讯这样的一些涉及

到海量数据的公司经常会问到。

下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全

覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题

基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨

论。

1.Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集

基本原理及要点：

对于原理来说很简单，位数组+k 个独立 hash 函数。将 hash 函数对应的值的位数组置 1，查找时

如果发现所有 hash 函数对应位都是 1 说明存在，很明显这个过程并不保证查找的结果是 100%

正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键

字。所以一个简单的改进就是 counting Bloom filter，用一个 counter 数组代替位数组，就

可以支持删除了。

还有一个比较重要的问题，如何根据输入元素个数 n，确定位数组 m 的大小及 hash 函数个数。

当 hash 函数个数 k=(ln2)*(m/n)时错误率最小。在错误率不大于 E 的情况下，m 至少要等于

n*lg(1/E)才能表示任意 n 个元素的集合。但 m 还应该更大些，因为还要保证 bit 数组里至少一

半为 0，则 m 应该>=nlg(1/E)*lge 大概就是 nlg(1/E)1.44 倍(lg 表示以 2 为底的对数)。

举个例子我们假设错误率为 0.01，则此时 m 应大概是 n 的 13 倍。这样 k 大概是 8 个。

注意这里 m 与 n 的单位不同，m 是 bit 为单位，而 n 则是以元素个数为单位(准确的说是不同元

素的个数)。通常单个元素的长度都是有很多 bit 的。所以使用 bloom filter 内存上通常都是

节省的。

扩展：

Bloom filter 将集合中的元素映射到位数组中，用 k（k 为哈希函数个数）个映射位是否全 1 表

示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个

counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现

次数关联。SBF 采用 counter 中的最小值来近似表示元素的出现频率。

问题实例：给你 A,B 两个文件，各存放 50 亿条 URL，每条 URL 占用 64 字节，内存限制是 4G，让

你找出 A,B 文件共同的 URL。如果是三个乃至 n 个文件呢？

根据这个问题我们来计算下内存的占用，4G=2^32 大概是 40 亿*8 大概是 340 亿，n=50 亿，如果

按出错率 0.01 算需要的大概是 650 亿个 bit。现在可用的是 340 亿，相差并不多，这样可能会

下载后可阅读完整内容，剩余6页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

left

成为会员后, 你将解锁

right

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

ischarles

粉丝: 16

最新资源