Hash算法应用场景

最新推荐文章于 2025-06-17 16:00:29 发布

AI-Candy

最新推荐文章于 2025-06-17 16:00:29 发布

阅读量746

点赞数

CC 4.0 BY-SA版权

分类专栏： # 算法文章标签： hash

本文链接：https://blog.csdn.net/ys_1991/article/details/88369407

算法专栏收录该内容

4 篇文章

订阅专栏

一.哈希算法的定义
1.哈希算法又叫散列算法，是将任意长度的二进制值映射为较短的固定长度的二进制值，这个小的二进制值称为哈希值。它的原理其实很简单，就是把一段交易信息转换成一个固定长度的字符串。
2.散列表是基于快速存取的角度设计的，是一种典型的空间换时间的做法，

二.从set/map谈到hash_set/hash_map
1.set/map都是基于RB-tree之上，所以有自动排序的功能；hash_set/hash_map都是基于hashtable之上，所以不含有自动排序的功能

三.针对遇到的海量数据问题进行分析，一般有下列三类问题
1.数据量大，内存小的情况(分而治之+Hash映射)
2.判断数据是否在集合中(布隆过滤器+BitMap)
3.各种TopN(存储和各种排序)

四.经典面试题
1.寻找前K个热门查询
[1]如果所有数据量的字节数小于内存限制，可以考虑将数据都放入内存
[2]hash统计，使用hash_map构建一个以查询字符串为键，出现的次数为值的hashtable
[3]采用堆排序找出前k个热门查询

2.怎么在海量数据中找出重复次数最多的一个？
1）先做hash映射，求模将大文件中的内容映射到小文件中
2）然后hash统计，求出每个小文件中重复次数最多的一个，并记录重复次数。
3）最后快速排序/堆排序/归并排序，找出上一步求出的数据中重复次数最多的一个就是所求

3.有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
解决方案：（1G=5000*200k，将文件分成5000个小文件，每个文件200k）
1）分而治之/hash映射：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右，并且每个文件存放的都是具有一样hash值的词。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
2）hash统计：对每个小文件，采用hash_map等统计每个文件中出现的词以及相应的频率。
3）堆/归并排序：取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（类似于归并排序）的过程了。

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
1）分而治之/hash映射：遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件中。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000小文件中。这样处理后，所有可能相同的url都在对应的小文件中然后我们只要求出1000对小文件中相同的url即可。
2）hash统计：求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了

6在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。
采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。

7、腾讯面试题：给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？
方案一: 申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在
方案二：位图法：按照集合中最大元素max创建一个长度为max+1的新数组，然后再次扫描原数组，遇到几就给新数组的第几位置上1，如遇到5就给新数组的第六个元素置1