数据结构与算法21-平衡二叉树以及散列查找
一、平衡二叉树
定义:是一种二叉排序树,其中每个结点的左子树和右子树的高度差至多为1。
高度平衡:要么它是一颗空树,要么它的左子树和右子树都是平衡二叉树,且左子树和右子树的深度之差的绝对值不超过1;我们将二叉树上结点的左子树深度减去右子树深度的值称为平衡因子BF(Balance Factr)
距离插入点最近的,且平衡因子的绝对值大于1的结点为根的子树,我们称为最小不平衡子树
平衡二叉树构建的基本思想:
就是在构建二叉排序树的过程中,每当插入一个结点时,先检查是否因插入二破坏了树的平衡性。若是,则找到最小不平衡子树.在保持二叉排序树特性的前提下,调整最小不平衡子树中各结点之前的链接关系,进行相应的旋转,使之成为新的平衡子树
1、二叉树的二叉链表结点结构定义
//结点结构
typedef struct BiTNode{
//结点数据
int data;
//结点的平衡因子
int bf;
//结点左右孩子指针
struct BiTNode *lchild,*rchild;
}BiTNode,*BiTree;
2、右旋
- P 做为右旋的根结点
- L的右子树 成为了P的左子树
- P成为了L的右子树
- L替换了P成为二叉排序树新的根结点
void R_Rotate(BiTree *p){
BiTree L;
//① L是p的左子树;
L = (*p)->lchild;
//② L的右子树作为p的左子树
(*p)->lchild = L->rchild;
//③ 将p作为L的右子树
L->rchild = (*p);
//④ 将L替换原有p的根结点位置
*p = L;
}
3、左旋
- P 做为左旋的根结点
- R的左子树 成为了P的右子树
- P成为了R的左子树
- R替换了P成为二叉排序树新的根结点
void L_Rotate(BiTree *p){
BiTree R;
//① R是p的右子树
R = (*p)->rchild;
//② R的左子树作为R的右子树
(*p)->rchild = R->lchild;
//③ 将p作为R的左子树;
R->lchild = (*p);
//④ 将R替换原有p的根结点的位置
*p = R;
}
4、平衡二叉树结点左平衡旋转处理函数实现
define LH +1 /* 左高 */
define EH 0 /* 等高 */
define RH -1 /* 右高 */
1)左平衡树失衡处理
对指针T所指结点为根的二叉树作左平衡旋转处理,算法结束后,指针T指向平衡处理后新的根结点
void LeftBalance(BiTree *T)
{
BiTree L,Lr;
//1.L指向T的左子树根结点
L=(*T)->lchild;
//2.检查T的左子树的平衡度,并作相应平衡处理
switch(L->bf)
{
//① 新结点插入在T的左孩子的左子树上,要作单右旋处理(如图1-平衡二叉树右旋解释图)
case LH:
//L的平衡因子为LH,即为1时,表示它与根结点BF符合相同,则将它们(T,L)的BF值都改为EH(0)
(*T)->bf=L->bf=EH;
//对最小不平衡子树T进行右旋;
R_Rotate(T);
break;
//② LH的平衡因子为RH(-1)时,它与跟结点的BF值符合相反.此时需要做双旋处理(2次旋转处理)
// 新结点插入在T的左孩子的右子树上,要作 双旋处理
case RH:
//Lr指向T的左孩子的右子树根
Lr=L->rchild;
//修改T及其左孩子的平衡因子
switch(Lr->bf)
{
case LH:
(*T)->bf=RH;
L->bf=EH;
break;
case EH:
(*T)->bf=L->bf=EH;
break;
case RH:
(*T)->bf=EH;
L->bf=LH;
break;
}
Lr->bf=EH;
//对T的左子树作左旋平衡处理
L_Rotate(&(*T)->lchild);
//对T作右旋平衡处理
R_Rotate(T);
}
}
2). 右平衡树失衡处理
对以指针T所指结点为根的二叉树作右平衡旋转处理
本算法结束时,指针T指向新的根结点
void RightBalance(BiTree *T)
{
BiTree R,Rl;
//1.R指向T的右子树根结点
R=(*T)->rchild;
//2\. 检查T的右子树的平衡度,并作相应平衡处理
switch(R->bf)
{
//① 新结点插入在T的右孩子的右子树上,要作单左旋处理
case RH:
(*T)->bf=R->bf=EH;
L_Rotate(T);
break;
//新结点插入在T的右孩子的左子树上,要作双旋处理
case LH:
//Rl指向T的右孩子的左子树根
Rl=R->lchild;
//修改T及其右孩子的平衡因子
switch(Rl->bf)
{
case RH:
(*T)->bf=LH;
R->bf=EH;
break;
case EH:
(*T)->bf=R->bf=EH;
break;
case LH:
(*T)->bf=EH;
R->bf=RH;
break;
}
Rl->bf=EH;
//对T的右子树作右旋平衡处理
R_Rotate(&(*T)->rchild);
//对T作左旋平衡处理
L_Rotate(T);
}
}
5.平衡二叉树的插入实现
若在平衡的二叉排序树T中不存在和e有相同关键字的结点,则插入一个数据元素为e的新结点,并返回1,否则返回0。若因插入而使二叉排序树失去平衡,则作平衡旋转处理,布尔变量taller反映T长高与否。
思路:
- 如果T为空时,则创建一个新结点;
- 如果T不为空,判断是否存在相同的结点.如果二叉树中存在相同结点,则不需要插入;
- 如果新结点值e小于T的根结点值,则在T的左子树查找;
如果能在左子树中查找到,则不插入进去.返回False; 如果没有找到,则插入
插入成功taller为TRUE,说明新结点e已经插入进去; 此时需要判断T的平衡因子;
如果平衡因子是1,则说明左子树高于右子树,那么需要调用leftBalance进行左平衡旋转处理;
如果为0或者-1,则说明新插入的结点没有让整颗二叉排序树失去平衡性,只需要修改BF值即可; - 如果新结点值e大于T的根结点值,则在T的右子树查找;
如果能在右子树中查找到,则不插入进去.返回False; 如果没有找到,则插入;
插入成功taller为TRUE,说明新结点e已经插入进去; 此时需要判断T的平衡因子;
如果平衡因子是-1,则说明右子树高于左子树,那么需要调用RightBalance进行右平衡旋转处理;
如果为0或者1,则说明新插入的结点没有让整颗二叉排序树失去平衡性,只需要修改BF值即可;
Status InsertAVL(BiTree *T,int e,Status *taller)
{
if(!*T)
{ //1.插入新结点,树“长高”,置taller为TRUE
//① 开辟一个新结点T;
*T=(BiTree)malloc(sizeof(BiTNode));
//② 对新结点T的data赋值,并且让其左右孩子指向为空,T的BF值为EH;
(*T)->data=e;
(*T)->lchild=(*T)->rchild=NULL;
(*T)->bf=EH;
//③ 新结点默认"长高"
*taller=TRUE;
}
else
{
if (e==(*T)->data)
{ //2.树中已存在和e有相同关键字的结点则不再插入
*taller=FALSE;
return FALSE;
}
if (e<(*T)->data)
{
//3.应继续在T的左子树中进行搜索
if(!InsertAVL(&(*T)->lchild,e,taller))
//未插入
return FALSE;
//4.已插入到T的左子树中且左子树“长高”
if(*taller)
//5.检查T的平衡度
switch((*T)->bf)
{
case LH:
//原本左子树比右子树高,需要作左平衡处理
LeftBalance(T);
*taller=FALSE;
break;
case EH:
//原本左、右子树等高,现因左子树增高而使树增高
(*T)->bf=LH;
*taller=TRUE;
break;
case RH:
//原本右子树比左子树高,现左、右子树等高
(*T)->bf=EH;
*taller=FALSE;
break;
}
}
else
{ //6.应继续在T的右子树中进行搜索
//未插入
if(!InsertAVL(&(*T)->rchild,e,taller))
return FALSE;
//已插入到T的右子树且右子树“长高”
if(*taller)
// 检查T的平衡度
switch((*T)->bf)
{
//原本左子树比右子树高,现左、右子树等高
case LH:
(*T)->bf=EH;
*taller=FALSE;
break;
//原本左、右子树等高,现因右子树增高而使树增高
case EH:
(*T)->bf=RH;
*taller=TRUE;
break;
// 原本右子树比左子树高,需要作右平衡处理
case RH:
RightBalance(T);
*taller=FALSE;
break;
}
}
}
return TRUE;
}
6、二叉排序树查找
Status SearchBST(BiTree T,int key,BiTree f, BiTree *p){
if (!T) /* 查找不成功 */
{
*p = f;
return FALSE;
}
else if (key==T->data) /* 查找成功 */
{
*p = T;
return TRUE;
}
else if (key<T->data)
return SearchBST(T->lchild, key, T, p); /* 在左子树中继续查找 */
else
return SearchBST(T->rchild, key, T, p); /* 在右子树中继续查找 */
}
二、散列查找
1、定义
散列技术是记录的存储位置和它的关键字之间建立一个确定的对应关系f,使得每个关键字key对应一个存储位置f(key)。查找时,根据这个对应关系找到给定值key的映射f(key)。若查找集合中存在这个记录,则必定在f(key)的位置上。
存储位置 = f (关键字)
我们把这种对应关系f称为散列函数,又称为哈希(Hash)函数。
采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为散列表或者哈希表。
关键字对应的记录存储位置我们称为散列地址。
2、散列查找步骤
- 在存储时,通过散列函数计算记录的散列地址,并按此散列地址存储该记录。
- 当查找记录时,我们通过同样的散列函数计算记录的散列地址,按此散列地址访问该记录。
散列技术既是一种存储方法,也是一种查找方法。
与线性表、树、图等结构不同的是,线性表、树、图数据元素之间存在某种逻辑关系,可以用连线图表示出来,而散列技术记录的数据元素之间不存在什么逻辑关系,它只与关键字有关联。
我们时常会碰到两个关键字key1不等于key2,但是却有f(key1)=f(key2),这种现象我们称为冲突,并把key1和key2称为这个散列函数的同义词。
3、散列函数的构造方法
- 直接定址法
我们可以取关键字的某个线性函数值为散列地址:
f(key) = akey+b(a、b为常数)*
优点:简单、均匀、也不会产生冲突。
缺点:需要事先知道关键字的分布情况。
适用范围:查找表较小且连续的情况。
- 数字分析法
使用关键字的一部分来计算散列存储位置的方法,如电话号码存储,可抽取电话号码的中间几位进行反转/右移/左移等操作,然后将关键字分配到散列表的各位置。
适用范围:通常用于处理关键字位数比较大的情况。
- 平方取中法
这个方法计算比较简单,假设关键字1234,那么它的平方为1522756,再抽取中间3位就是227,用做散列地址。再比如4321,那么它的平方为18671041,抽取中间3位就可以是671,也可以是710用做散列地址。
适用范围:不知道关键字分布情况,而且位数又不是很大的情况。
- 折叠法
将关键字从左到右分割成位数相等的几部分(最后一部分位数不够时可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位做为散列地址。
适用范围:事先不需要知道关键字的分布,适合关键字位数较多的情况。
- 除留余数法
对于散列表长为m的散列函数公式为:
f(key) = key mod p(p<=m)
其中mod是取模的意思。
事实上,这个方法不仅可以对关键字取模,也可以在折叠、平方取中后再取模。
此方法的关键在于如何选择p,p如果选不好,则可能很容易产生同义词。通常p为小于或等于表长的最小质数或不包含小于20质因子的合数。
- 随机数法
选择一个随机数,取关键字的随机函数值为它的散列地址。
f(key) = random(key)
适用范围:关键字长度不等时,可采用此方法。
4、处理散列冲突的办法
- 开放定址法
开放定址法是一旦发生了冲突,就去寻找下一个空的散列地址,只要散列表足够大,空的散表地址总能被找到,并将记录存入。
f(key) = (f(key)+d) mod m (d=1,2,3...m-1)
这种解决冲突的开放定址法称为线性探测法。
- 再散列函数法
每当发生散列冲突的时候,就换一个散列函数计算,相信总有一个会把冲突解决掉。
f(key) = RH(key)
其中RH是另一个散列函数。
- 链地址法
将所有关键字的同义词的记录存储在一个单链表中,我们称这种表为同义词子表,在散列表中只存储所有同义词子表的头指针。
此时已经完全不存在冲突问题,无论有多少个冲突,都只是在当前位置给单链表增加结点而已。
链地址法对于可能会造成很多冲突的散列函数来说,提供了绝对不会出现找不到地址的保障,但是查找时需要遍历单链表,增加了性能损耗。
5、散列表查找实现
typedef int Status;
#define OK 1
#define ERROR 0
#define TRUE 1
#define FALSE 0
#define MAXSIZE 100 //存储空间初始分配量
#define SUCCESS 1
#define UNSUCCESS 0
//定义散列表长为数组的长度
#define HASHSIZE 12
#define NULLKEY -32768
typedef struct
{
//数据元素存储基址,动态分配数组
int *elem;
//当前数据元素个数
int count;
}HashTable;
int m=0; /* 散列表表长,全局变量 */
//1.初始化散列表
Status InitHashTable(HashTable *H)
{
int i;
//① 设置H.count初始值; 并且开辟m个空间
m=HASHSIZE;
H->count=m;
H->elem=(int *)malloc(m*sizeof(int));
//② 为H.elem[i] 动态数组中的数据置空(-32768)
for(i=0;i<m;i++)
H->elem[i]=NULLKEY;
return OK;
}
//2\. 散列函数
int Hash(int key)
{
//除留余数法
return key % m;
}
//3\. 插入关键字进散列表
void InsertHash(HashTable *H,int key)
{
//① 求散列地址
int addr = Hash(key);
//② 如果不为空,则冲突
while (H->elem[addr] != NULLKEY)
{
//开放定址法的线性探测
addr = (addr+1) % m;
}
//③ 直到有空位后插入关键字
H->elem[addr] = key;
}
//4\. 散列表查找关键字
Status SearchHash(HashTable H,int key,int *addr)
{
//① 求散列地址
*addr = Hash(key);
//② 如果不为空,则冲突
while(H.elem[*addr] != key)
{
//③ 开放定址法的线性探测
*addr = (*addr+1) % m;
//④H.elem[*addr] 等于初始值或者循环有回到了原点.则表示关键字不存在;
if (H.elem[*addr] == NULLKEY || *addr == Hash(key))
//则说明关键字不存在
return UNSUCCESS;
}
return SUCCESS;
}
int main(int argc, const char * argv[]) {
// insert code here...
printf("Hello, World!\n");
int arr[HASHSIZE]={12,67,56,16,25,37,22,29,15,47,48,34};
int i,p,key,result;
HashTable H;
//1.初始化散列表
InitHashTable(&H);
//2.向散列表中插入数据
for(i=0;i<m;i++)
InsertHash(&H,arr[i]);
//3.在散列表查找key=39
key=39;
result=SearchHash(H,key,&p);
if (result)
printf("查找 %d 的地址为:%d \n",key,p);
else
printf("查找 %d 失败。\n",key);
//4.将数组中的key,打印出所有在散列表的存储地址
for(i=0;i<m;i++)
{
key=arr[i];
SearchHash(H,key,&p);
printf("查找 %d 的地址为:%d \n",key,p);
}
return 0;
}