一.哈希算法的定义
1.哈希算法又叫散列算法,是将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。它的原理其实很简单,就是把一段交易信息转换成一个固定长度的字符串。
2.散列表是基于快速存取的角度设计的,是一种典型的空间换时间的做法,
二.从set/map谈到hash_set/hash_map
1.set/map都是基于RB-tree之上,所以有自动排序的功能;hash_set/hash_map都是基于hashtable之上,所以不含有自动排序的功能
三.针对遇到的海量数据问题进行分析,一般有下列三类问题
1.数据量大,内存小的情况(分而治之+Hash映射)
2.判断数据是否在集合中(布隆过滤器+BitMap)
3.各种TopN(存储和各种排序)
四.经典面试题
1.寻找前K个热门查询
[1]如果所有数据量的字节数小于内存限制,可以考虑将数据都放入内存
[2]hash统计,使用hash_map构建一个以查询字符串为键,出现的次数为值的hashtable
[3]采用堆排序找出前k个热门查询
2.怎么在海量数据中找出重复次数最多的一个?
1)先做hash映射,求模将大文件中的内容映射到小文件中
2)然后hash统计,求出每个小文件中重复次数最多的一个,并记录重复次数。
3)最后快速排序/堆排序/归并排序,找出上一步求出的数据中重复次数最多的一个就是所求
3.有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
解决方案:(1G=5000*200k,将文件分成5000个小文件,每个文件200k)
1)分而治之/hash映射:顺序读文件中,对于每个词x,取hash(x)%5000,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右,并且每个文件存放的都是具有一样hash值的词。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。
2)hash统计:对每个小文件,采用hash_map等统计每个文件中出现的词以及相应的频率。
3)堆/归并排序:取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。最后就是把这5000个文件进行归并(类似于归并排序)的过程了。
- 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
1)分而治之/hash映射:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件中。这样每个小文件的大约为300M。遍历文件b,采取和a相同的方式将url分别存储到1000小文件中。这样处理后,所有可能相同的url都在对应的小文件中然后我们只要求出1000对小文件中相同的url即可。
2)hash统计:求每对小文件中相同的url时,可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了
6在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。
采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32 * 2 bit=1 GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。
7、腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
方案一: 申请512M的内存,一个bit位代表一个unsigned int值。读入40亿个数,设置相应的bit位,读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在
方案二:位图法: 按照集合中最大元素max创建一个长度为max+1的新数组,然后再次扫描原数组,遇到几就给新数组的第几位置上1,如遇到5就给新数组的第六个元素置1