数据流挖掘_Flajolet-Martin算法_flajilot martin算法-CSDN博客

本文链接：https://blog.csdn.net/llwszjj/article/details/25629009

Flajolet-Martin(FM)算法是一种用于估算数据流序列中独立元素数目的方法，尤其适用于内存有限的情况。它通过哈希函数和计算元素二进制表示末尾连续0的个数来估算，只需O(n)时间和O(log(m))空间复杂度。虽然结果是估计值，但可以通过使用多个哈希函数来提高精度。在实际应用中，如统计独立Cookie、URL或邮箱地址，FM算法提供了一种有效的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在实际应用中，我们经常碰到这种情况，即要统计某个对象或者事件独立出现的次数。对于较小的数据量，这很容易解决，我们可以首先在内存中对序列进行排序，然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n))，扫描时间复杂度为O(n)，所以总的时间复杂度为O(n*log(n))。当内存非常充裕时，我们还可以考虑使用哈希，将时间复杂度降到O(n)。尤其是当元素只能取有限范围的整数值时，我们还可以使用BitMap节约内存。但是在处理数据流序列时，比如，google的独立访问IP统计，由于序列非常长，元素取值范围可能比较广，单个元素占用内存可能比较多，导致内存中无法容纳整个序列，甚至无法容纳整个独立元素集合。此时，不论是基于排序还是基于哈希的方法都不具备可行性。

Flajolet-Martin(FM)算法能够较好地解决估算数据流序列中独立元素数目的问题。

假设我们有1万个int型数字（可重复的），我们想找出这个数字集合中不重复的数字的个数。怎么办呢？很简单，将这1万个数字读进内存，存放到hashset中，那么hashset的size就是不重复数字的个数。接下来，问题变得更加的复杂，有100亿个数字，怎么办? 全部读取到内存中可能会有问题，如果这其中有1亿个不重复的数字，那么至少需要内存 100M * sizeof(int)，内存也许不够。 FM算法就是为了解决这个问题。假设n个object，其中有m个唯一的，那么FM算法只需要log(m)的内存占用（实际操作中会是k*log(m)），以及O(n)的运算时间。当然，FM的问题是，它的结果只是一个估计值，不是精确结果。

具体思路如下：