IT狗工作室数据结构和算法分析

第12篇:C++ 哈希表 -散列函数的构造方法

2020-04-09  本文已影响0人  铁甲万能狗

我们前面已经简单说过散列函数的相关概念,阅读了之前哈希表的系列随笔后,想必你对哈希表有个大概的了解。下面会基于前面的基础深入探讨一下散列函数常用的构造方法,因为一个设计良好的散列函数实现,必须满足以下几点指导原则

数字关键字的散列函数构造

直接定址法

就是按照线性函数的表达式计算数字关键的散列值,如下表达式


例如:下面,我们需要将下表的以年份为键,将每年的销售额数据散列到哈系表中,那么直接情况就比较简单,我们可以取年份中的地一个年份作为一个常数,这里显然另常数A=1,B=-2010,可以让年份关键字转换为更小的整数,这样做有助于节省哈希表的内存空间

取模运算法

这这方法也叫除留余数法,一般表达式


其中N通常是哈希表的尺寸,并且N是素数,因为与数字关键字与取模会最大限度减少散列冲突的发生,取模运算后的值作为插入元素的地址,下面就是一个示例,通常在使用开放寻址方案实现的哈希表,经常使用到取模运算法
无标题.gif

反例演示

对于数字关键字,使用取模运算方法有个致命的弱点,考虑一下上面的示例,我们假设哈系表的尺寸N=11
那么h(k)=k mod 11,探测函数使用的是线性探测p(x)=x,那么要插入哈希表的集合中有某个数字关键字的散列值达到哈系表的最大索引值,并且还与集合中其他元素的散列数值冲突,若计算递增x,那么该数字关键字重算的散列已经发生哈系表溢出的情况,
例如下面这个示例,下表中数字关键字383的初始散列数值为9与关键字42冲突,按照线性探测的逻辑就是这么样:

于是,在好些资料你甚至会发现有人对取莫运算的散列函数表达式,做了一些修改,例如这样:

h(x)=k mod N的修订版本
其实,这条表达式的思想是,假若k mod N计算的值达到了哈系表的最大索引(高地址的边界),用N减去k mod N令最终的散列函数的结果跳转到哈希表的低地址查找可用存储桶。但事实上做法仍然会导致哈系表溢出的情况,于事无补的。因为当k mod N=0时,h(k)=N,此时就是哈希表溢出。

通过上面的例子,我们看到取模运算法实现的散列函数的缺陷在于,当作为传入数据源的关键字集合的个数m和哈系表的初始尺寸N,但N-m这个绝对值不够大的话,会容易导致关键字插入哈希表溢出冲突次数的发生概率会增大。

数字分析法

当给定的数字关键字由很多位组成,有些位是相对固定,而有些位会随机变化,数字分析法的主要思想就是从这些关键字中提取随机变化的部分组合一起作为这些数字关键字的地址,从而达到映射均匀的目地。

例如:我们的身份证号18位,如下图特征

我们可以将随机变动的位提取出来组合成一个数字,例如下图,

最终h1(k)是对应本示例中对应身份证号码的主散列函数(Primary Hash Function),而h2(k)我们称为辅助函数(Secondary Hash Function),一个主散列函数可以有多个解决子问题的辅助散列函数.

备注:数字分析法经常用到进制位以及ASCII转换为整数这两项基础知识,若不熟悉的读者,请自行恶补这方面的知识。

折叠法

更新中......

上一篇下一篇

猜你喜欢

热点阅读