散列
5.1 基本概念
散列函数: 一个把查找表中关键字映射成该关键字对应的地址的函数,记为Hash(Key)=Addr。
冲突: 散列函数可能把两个或两个以上不同关键字映射到同一个地址,称为冲突。
同义词: 发生冲突的不同关键词称为同义词。
散列表: 根据关键字直接进行访问的数据结构。散列表建立了关键字和存储地址之间的直接映射。
散列: 散列表的实现常常叫做散列(Hashing)。
理想情况下对散列表查找时间复杂度为O(1)。
5.2 散列函数构造方法
构造散列函数注意事项: 散列函数目标是尽量降低产生冲突的可能性。
(1)散列函数定义域必须包含全部关键字,值域依赖于散列表大小和地址的范围。
(2)计算出来的地址应该等概率、均匀地分布在地址空间,从而减少冲突发生。
(3)散列函数应该尽量简单,容易算。
下面为常用散列函数。
(1) 直接定址法
直接取关键字的某个线性函数值为散列地址。 H(key)=a*key+b (a,b为常数)
优点: 计算最简单,且不会发生冲突。适合关键字的分布基本连续的情况。
缺点: 当关键字分布不连续时,会造成空位较多,存储空间浪费的情况。
(2) 除留余数法
H(key)=key%p
选好p是关键,尽量减少冲突的可能性。
一般选取一个不大于散列表表长m但接近于或等于m的质数p。
(3) 数字分析法
设关键字是 r进制数(如十进制数),事先知道关键字的集合,且每个关键字的位数比哈希表的地址码位数多时,可以从关键字中选出分布比较均匀的若干位,构成哈希地址。
(4) 平方取中法
取关键字的平方值的中间几位作为散列地址,具体取多少位视实际情况定。
适用于关键字的每位取值都不够均匀或均小于散列地址所需要的位数。
5.3 处理冲突方法
Hi表示处理冲突中第i次探测到散列地址。
5.3.1 开放定址法
公式:Hi=(H(key)+di)%m
H(key)为散列函数,m表示散列表表长,di为增量序列。
开放定址法 | di增量变化格式 | 缺点 |
---|---|---|
线性探测法 | di=0,1,2,3… | 造成大量元素堆积,降低查找效率 |
平方探测法 | di |