HashMap源码分析

2018-12-06 本文已影响0人 Bamboo_a67a

1.HashMap的底层实现图示

hash表结构图

如上图所示：

HashMap底层是由数组+（链表）=（红黑树）组成，每个存储在HashMap中的键值对都存放在一个Node节点之中，其中包含了Key-Value之外，还包括hash值（key.hashCode()) ^ (h >>> 16））以及执行下一个节点的指针next。

2.源码分析

2.1几个重要常量

static final int DEFAULT_INITIAL_CAPACITY =1 <<4; HashMap的默认容量，16

static final int MAXIMUM_CAPACITY =1 <<30; HashMap的最大支持容量，2^30

static final float DEFAULT_LOAD_FACTOR =0.75f; HashMap的默认加载因子

static final int TREEIFY_THRESHOLD =8; Bucket中链表长度大于该默认值，转化为红黑树

static final int UNTREEIFY_THRESHOLD =6; Bucket中红黑树存储的Node小于该默认值，转化为链表

static final int MIN_TREEIFY_CAPACITY =64; 桶中的Node被树化时最小的hash表容量。（当桶中Node的数量大到需要变红黑树时，若hash表容量小于MIN_TREEIFY_CAPACITY时，此时应执行resize扩容操作这个MIN_TREEIFY_CAPACITY的值至少是TREEIFY_THRESHOLD的4倍。）

transient Node[] table; 存储元素的数组，总是2的n次幂

transient Set>entrySet; 存储具体元素的集

transient int size; HashMap中存储的键值对的数量

transient int modCount; HashMap扩容和结构改变的次数。

int threshold; 扩容的临界值，=容量*填充因子

final float loadFactor; 填充因子

2.2几个重要方法

1）无参构造方法

public HashMap() {

this.loadFactor =DEFAULT_LOAD_FACTOR;// all other fields defaulted

}

无参构造方法，设定了负载因子为0.75的默认值

2）指定容量的构造方法

public HashMap(int initialCapacity) {

this(initialCapacity,DEFAULT_LOAD_FACTOR);

}

这种构造方法，最后会调用3中的指定容量和负载因子的构造方法，将负载因子设置为默认值

3）指定容量和负载因子的构造方法

public HashMap(int initialCapacity,float loadFactor) {

if (initialCapacity <0)

throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);

if (initialCapacity >MAXIMUM_CAPACITY)

initialCapacity =MAXIMUM_CAPACITY;

if (loadFactor <=0 || Float.isNaN(loadFactor))

throw new IllegalArgumentException("Illegal load factor: " + loadFactor);

this.loadFactor = loadFactor;

this.threshold =tableSizeFor(initialCapacity);

}

这个构造方法来确定负载因子和扩容临界值，最后调用tableSizeFor方法来计算扩容临界值

4）根据键值对数量获取HashMap容量方法 tableSizeFor

static final int tableSizeFor(int cap) {

int n = cap -1;

n |= n >>>1;

n |= n >>>2;

n |= n >>>4;

n |= n >>>8;

n |= n >>>16;

return (n <0) ?1 : (n >=MAXIMUM_CAPACITY) ?MAXIMUM_CAPACITY : n +1;

}

tabSizeFor方法，主要根据传入的键值对容量，来返回大于容量的最小的二次幂数值。

算法如下：

将传入的容量-1：至于这里为什么需要减1，是为了防止cap已经是2的幂。如果cap已经是2的幂, 又没有执行这个减1操作,则执行完后面的几条无符号右移操作之后,返回的capacity将是这个cap的2倍。

假设原始n: 0001 xxxx xxxx xxxx

第一次右移1位+或运算：二进制序列出现至少两个连续的1，如 0001 1xxx xxxx xxxx；

第二次右移2位+或运算：二进制序列出现至少四个连续的1，如 0001 111x xxxx xxxx；

第三次右移4位+或运算：二进制序列出现至少八个连续的1, 如 0001 1111 1111 xxxx;

第四次右移8位+或运算：二进制序列至少出现16个连续的1，如 0001 1111 1111 1111;

第五次右移16位+或运算：二进制序列至少出现32个连续的1，如 0001 1111 1111 1111;

上述运算中，若出现右移后为0，则或运算得到的结果和原始值一致，则后续推导过程可以忽略。

此时可以保证，原始序列从包含1的最高位，到最低位，全部都变成了1.

最后+1，返回的结果就是大于原值的最小二次幂数。

5）hash方法

static final int hash(Object key) {

int h;

return (key ==null) ?0 : (h = key.hashCode()) ^ (h >>>16);

}

hash方法用传入的key的hashCode和hashCode无符号右移16位的结果，做异或运算后作为hash值返回。

注：之所以获取hashCode后，还需要和右移16位的hashCode做异或运算，原因是：在根据hash值获取键值对在bucket数组中的下标时，采用的算法是：index=h & (length-1）,当数组的length较小时，只有低位能够参与到“与”运算中，但是将hashCode右移16位再与本身做异或获取到的hash，可以使高低位均能够参与到后面的与运算中。

下面图说明：

6）插入方法 putVal

final V putVal(int hash,K key,V value,boolean onlyIfAbsent,boolean evict) {

Node<K,V>[] tab; Node<K,V> p;int n, i; //存储Node节点的数组tab,单个Node节点p,HashMap的容量n

if ((tab =table) ==null || (n = tab.length) ==0) //初始化数组桶table （首次进入初始化）

n = (tab = resize()).length;

if ((p = tab[i = (n -1) & hash]) ==null) //如果数组桶中不包含要插入的元素，将新键值对作为新Node存入数组（当前tab中无冲突元素）

tab[i] = newNode(hash, key, value,null);

else { //桶中包含要插入的元素（tab中已有元素，发生冲突）

Node<K,V> e;K k; //e用来保存当前key已存在时的节点

if (p.hash == hash &&((k = p.key) == key || (key !=null && key.equals(k)))) //如果key和链表第一个元素p的key相等

e = p;

else if (pinstanceof TreeNode) //若p是TreeNode类型，则使用红黑树的方法插入到树中

e = ((TreeNode)p).putTreeVal(this, tab, hash, key, value);

else { //键值对的引用不在链表的第一个节点，此时需要遍历链表

for (int binCount =0; ; ++binCount) {

if ((e = p.next) ==null) { //将p.next指向e，并判断p是否为最后一个节点，若是插入新节点，此时e==null

p.next = newNode(hash, key, value,null);

if (binCount >=TREEIFY_THRESHOLD -1)// -1 for 1st ，若链表长度大于等于8，变红黑树，退出遍历

treeifyBin(tab, hash);

break;

}

if (e.hash == hash &&((k = e.key) == key || (key !=null && key.equals(k)))) //找到与当前key值相同的节点

break; //退出遍历（此时，e指向与当前key值相同的旧节点）

p = e; //将e指向p,便于下次遍历e = p.next

}

if (e !=null) {// existing mapping for key 当e非空时，说明e是原来HashMap中的元素，具有和新节点一样的key值

V oldValue = e.value;

if (!onlyIfAbsent || oldValue ==null) //onlyIfAbsent 表示是否仅在 oldValue 为 null 的情况下更新键值对的值

e.value = value;

afterNodeAccess(e); //空实现，LinkedHashMap用

return oldValue;

}

++modCount; //HashMap结构更改，modCount+1

if (++size >threshold) //判断是否需要扩容

resize();

afterNodeInsertion(evict); //空实现，LinkedHashMap用

return null;

}

HashMap中进行存储的入口方法是：put（K，V），但是核心方法是putVal方法，该方法一共有以下步骤：

1.初始化数组桶

2.判断数组桶中对应下标是否无元素存在，是，就直接存入

3.若数组桶中对应下标有元素存在，则开始遍历，根据长度将元素存入链表尾部或树中。

4.判断是否需要扩容

7）扩容方法 resize

final Node[] resize() {

Node[] oldTab =table;

int oldCap = (oldTab ==null) ?0 : oldTab.length; //原HashMap的容量

int oldThr =threshold; //原HashMap的扩容临界值

int newCap, newThr =0;

if (oldCap >0) { //case1 : odlCap>0,说明桶数组已经初始化过

if (oldCap >=MAXIMUM_CAPACITY) { //原HashMap的越界检查

threshold = Integer.MAX_VALUE;

return oldTab;

}

else if ((newCap = oldCap <<1) < MAXIMUM_CAPACITY && oldCap >=DEFAULT_INITIAL_CAPACITY) //容量扩大一倍后的越界检查

newThr = oldThr <<1;// double threshold

}

//case2：oldCap=0 && oldThr >0，桶数组尚未初始化,当调用带初始化容量的构造函数时会发生该情况

else if (oldThr >0)// initial capacity was placed in threshold

newCap = oldThr; //在前面HashMap的初始化中，将Initial capcity暂存在threshold中,新的阀值按照下面newThr==0中的公式进行计算

//case3：oldCap=0 && oldThr = 0，当调用无参构造函数时会发生该情况，此时使用默认容量初始化

else {// zero initial threshold signifies using defaults

newCap =DEFAULT_INITIAL_CAPACITY; //默认容量

newThr = (int)(DEFAULT_LOAD_FACTOR *DEFAULT_INITIAL_CAPACITY); //默认扩容临界值

}

if (newThr ==0) { //case2中，调用Initial capcity构造方法时，该阀值为0，需计算阀值

float ft = (float)newCap *loadFactor;

newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? 35(int)ft : Integer.MAX_VALUE);

}

threshold = newThr;

@SuppressWarnings({"rawtypes","unchecked"})

Node[] newTab = (Node[])new Node[newCap]; //上面获取到的新的Capcity，来创建一个新的桶数组 newTab，并指向table

table = newTab;

if (oldTab !=null) { //若oldTab非空，则需要将原来桶数组的元素取出来放到新的桶数组中

for (int j =0; j < oldCap; ++j) {

Node e;

if ((e = oldTab[j]) !=null) {

oldTab[j] =null; //将原桶数组的元素占用的空间释放，便于GC

if (e.next ==null) //若桶中元素的next为空，获取index后直接将其放入新桶数组中

newTab[e.hash & (newCap -1)] = e;

else if (einstanceof TreeNode) //若桶中元素的next是树节点

((TreeNode)e).split(this, newTab, j, oldCap); //采用树的方式插入

else {// preserve order 若桶中元素的next是链表节点

Node loHead =null, loTail =null;

Node hiHead =null, hiTail =null;

Node next;

do {

next = e.next;

if ((e.hash & oldCap) ==0) { //若e.e.hash & oldCap 结果为0，则下标在新桶数组中不用改变，此时，将元素存放在loHead为首的链表中

if (loTail ==null)

loHead = e;

else

loTail.next = e;

loTail = e;

}

else { //若e.e.hash & oldCap 结果不为0，则下标在新桶数组等于原下标+oldCap，此时，将元素存放在hiHead为首的链表中

if (hiTail ==null)

hiHead = e;

else

hiTail.next = e;

hiTail = e;

}

}while ((e = next) !=null);

if (loTail !=null) { //将小于原来容量的头节点放入原来数组中位置

loTail.next =null;

newTab[j] = loHead;

}

if (hiTail !=null) { //将大于原来容量的头节点放入（原来数组+扩容大小）中位置

hiTail.next =null;

newTab[j + oldCap] = hiHead;

}

return newTab;

}

/*原始链表中的元素，在resize之后，其下标有两种可能，一种是在原来下标处，另一种是原来下标+oldCap处

*举例说明：若原来的容量 -1后只有n位，低位有n个1，去下标公式为：i = (oldCap - 1) & hash，若hash值只有低n为有值，则与运算后获得的值和

*扩容前是一样的，若hash不止第n位有值，那采用与运算后，结果比原来刚好大oldCap。下面有图片示例）

　　上述代码分析较长，总结如下：

1.获取不同情况下的新的容量和新的扩容临界值

2.根据新容量创建新的桶数组tab。

3.根据节点类型，树节点和链表节点分别采用对应方法放入新的桶数组

8）查找元素方法 getNode

final Node getNode(int hash, Object key) {

Node[] tab; Node first, e;int n;K k;

if ((tab =table) !=null && (n = tab.length) >0 && (first = tab[(n -1) & hash]) !=null) { //根据hash值，获取对应下标的第一个元素first

if (first.hash == hash && ((k = first.key) == key || (key !=null && key.equals(k))))// always check first node 如果first的key和待查询的key相等，返回first

return first;

if ((e = first.next) !=null) { //若first不是待查询的元素

if (firstinstanceof TreeNode) //若first是树节点，采用树节点的方式获取

return ((TreeNode)first).getTreeNode(hash, key);

do {

if (e.hash == hash && ((k = e.key) == key || (key !=null && key.equals(k)))) //first是链表节点头，使用循环获取

return e;

}while ((e = e.next) !=null);

}

return null;

}

查询元素的入口方法是：public V get(Object key)，返回值是node的value，核心方法是getNode(int hash, Object key)。

9）删除元素 removeNode方法

final Node removeNode(int hash, Object key, Object value, boolean matchValue,boolean movable) {

Node[] tab; Node p;int n, index;

//通过hash值获取下标，下标对应的节点p不为空

if ((tab =table) !=null && (n = tab.length) >0 && (p = tab[index = (n -1) & hash]) !=null) {

Node node =null, e;K k;V v;

if (p.hash == hash && ((k = p.key) == key || (key !=null && key.equals(k)))) //若节点p的key和待移除的节点key相等

node = p; //将p指向待移除节点

else if ((e = p.next) !=null) { //p的key和待移除的节点key不相等，遍历p作为头的链表或者树

if (pinstanceof TreeNode) //采用树节点方式获得要移除的节点

node = ((TreeNode)p).getTreeNode(hash, key);

else { //p是链表的头节点

do {

//采用循环，当p.next不为空，比对它和传入的key，直到找到相等的key

if (e.hash == hash && ((k = e.key) == key || (key !=null && key.equals(k)))) {

node = e; //找到后，将节点指向node

break; //将e指向待移除节点，此时相当于p.next就是待移除的节点node

}

p = e;

}while ((e = e.next) !=null);

}

//若node非空，传入的matchValue参数为flase或 node的value等于传入value

if (node !=null && (!matchValue || (v = node.value) == value || (value !=null && value.equals(v)))) {

if (nodeinstanceof TreeNode) //若node是树节点

((TreeNode)node).removeTreeNode(this, tab, movable);

else if (node == p) //若待移除节点是链表头，将其指向待移除元素的next，移除对node的引用

tab[index] = node.next;

else //待移除元素是链表中的元素，此时其等于p.next

p.next = node.next; //将p.next指向node.next，移除了对node的引用

++modCount;

--size;

afterNodeRemoval(node);

return node;

}

return null;

}

移除节点的入口方法是： public V remove(Object key) ，其核心方法是removeNode，主要做了以下几个工作：

1.通过用key获取的hash，来获取下标。

2.若下标对应处无元素，返回null。

3.若下标对应处有元素，判断是树或者链表，采用对应方法移除。

3.常见问题

3.1HashMap的容量为什么必须是2的n次幂？

1.由上述实例可以看出，当HashMap容量为2的n次幂的时候，length-1，可以使得在计算index的"&"运算过程中，hash值的对应位都能参与到计算；若HashMap容量不等于2的n次幂，leng-1后必然有一些位是等于0的，那么在计算index的"&"运算过程中，对应位的数字无论是0或者1，都未能参与到运算中。导致Hash冲突概率增大。

2.初次之外，若HashMap容量不为2的n次幂，无论Hash值如何变化，始终有一些下标值无法取得，因为"&"运算过程中，必然有一些位置结果始终为0，如实例所示，其最低位始终为0，因此下标 1（二进制0000 0001）、3（二进制0000 0011）、5（二进制0000 0101）、7（二进制0000 0111）等下标、永远都获取不了。造成了容量的浪费

综上: 当容量是2的n次幂时，不同的key获取在桶数组中的下标相同的概率减小，发生Hash碰撞几率减少，元素分布更加均匀，见下图。

3.2 HashMap的时间复杂度？

O(1)或者O(log(n))或O(n),分析如下:

根据第一节的内容可知，根据HashMap的数据结构，可能有以下三种情况：

1.无链表和红黑树，理想状态。每个桶只有一个或0个元素，不存在Hash冲突，此时时间复杂度为O(1);但此时耗费的内存空间较大。

2.只有链表，此时因为需要循环链表来获取元素，时间复杂度为O(n)

3.只有红黑树，此时时间复杂度为红黑树查找的时间复杂度，O(log(n)).

4.链表和红黑树均有，此时时间复杂度依据红黑树的层数和链表长度而定。为O(n)或者O(log(n)).

3.3 负载因子LoadFactor为何默认值为0.75。

当负载因子过大时，Hash冲突概率增加、读写的时间复杂度也大大增加，当负载因子过小时，Hash冲突概率较小，时间复杂度较低，但占用内存空间较大。至于为什么默认值是0.75，这是一个基于时间和空间复杂度的综合考虑的结果，可以参考这篇文章：HashMap的loadFactor为什么是0.75？

3.4 作为HasHMap的key有什么条件？

使用HashMap，若用int/String等作为key值，因为Integer类和String类都以及重写了equals()和hashCode()方法.但是如果key是自定义的类，就必须重写hashcode()和equals()。理由如下：

//在插入元素中，根据hash值后，与length-1做&运算获取下标

//获取hash

static final int hash(Object key) {

int h;

return(key ==null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

}

//获取下标p = tab[i = (n - 1) & hash]

//用equals方法比对key值和节点的key值，来确认是否遍历到所需元素(key !=null&& key.equals(k)))

//对比hash值，如果不重写hashCode方法，那么采用Object类的默认的hash方法是获取内存地址，此时即使两个key对象相等，但其内存地址不可能相等，所以必须重写hashCode方法

//equals方法若不重写，采用的Object的equals方法，比对的是内存地址，如果不重写，会造成两个一样的key值都插入，存在重复元素*/

//同理，在查找过程中，在第二节putVal方法中有分析，会用到hash值，以及用到key.equals方法，因此如果不重写equals()和hashCode()，会造成虽然元素存在，但是因内存地址不一致，差找不到对应元素。

3.5HashMap key允许为空吗？，最多几个？

允许但只允许一个key值为空。当key值为空时，其hash值为0，因此在桶数组中位置是0，即第一个元素。

那么为什么不能有两个key值为null呢，原因是两个key为null，是一样的，后面put进去的(null,value2)会覆盖先put进去的(null,value1)

摘自：https://www.cnblogs.com/LearnAndGet/p/9971526.html

HashMap源码分析

1.HashMap的底层实现图示

2.源码分析

2.1几个重要常量

2.2几个重要方法

3.常见问题

3.1HashMap的容量为什么必须是2的n次幂？

3.2 HashMap的时间复杂度？

3.3 负载因子LoadFactor为何默认值为0.75。

3.4 作为HasHMap的key有什么条件？

3.5HashMap key允许为空吗？，最多几个？

猜你喜欢

热点阅读