HashMap解析

2018-12-27 本文已影响18人 jxiang112

注：本文是以Android中的HashMap进行讲解

问题：

1、HashMap采用的是什么数据结构？
2、HashMap默认容量多少？
3、HashMap最大容量多大？
4、HashMap每次扩容多大？
5、HashMap扩容的阈值是多少？默认阈值加载因子是多少？
6、HashMap的hash函数是怎么实现的？还有哪些实现方式？
7、HashMap get的工作原理是什么？
8、HashMap put的工作原理是什么？
9、HashMap如果解决冲突的？
10、HashMap是否是线程安全？如果不是该如何实现线程安全？
11、HashMap使用怎么类型作为key更优？

下面我们带着这些问题，借助源码一一解析HashMap。

问题1：HashMap采用的是什么数据结构？

HashMap基于哈希表的原理，采用数组+链表的数据结构实现的。
哈希表：hashtable，也叫散列表，是根据键而直接访问在内存存储位置的数据结构。它通过计算一个关于键值的函数，将所需查询的数据映射到表中的一个位置来访问记录。这个映射行数叫散列函数，存放记录的数组叫散列表。
简单的理解哈希表就是一种存储键-值对的数据结构，根据键可以快速访问到对应的值。
我们看下HashMap中关于数据结构的代码：

// Node数组表示哈希表
transient Node<K,V>[] table;
// Node类数据结构
static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;
        //...省略
}

通过上面的代码验证了HashMap采用的是数组+链表的数据结构，其中数组时Node数组，而Node采用的单向链表结构。
可以想一想为什么采用数组+链表的数据结构？后面我们会解答此问题。

问题2：HashMap默认容量多少？

HashMap默认容量是16，我们直接看代码：

/**
     * The default initial capacity - MUST be a power of two.
     */
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

定义了默认的容量为16，且其注释中还明确了必须是2的多次方。

问题3：HashMap最大容量多大？

HashMap实际最大容量是Integer.MAX_VALUE，我们看下其源码的对最大容量的定义：

/**
     * The maximum capacity, used if a higher value is implicitly specified
     * by either of the constructors with arguments.
     * MUST be a power of two <= 1<<30.
     */
    static final int MAXIMUM_CAPACITY = 1 << 30;

明明人家定义最大值是2^30，为什么你说是Integer.MAX_VALUE？我们来看下当HashMap扩容时的一段代码：

final Node<K,V>[] resize() {
    //...省略
    if (oldCap >= MAXIMUM_CAPACITY) {
              threshold = Integer.MAX_VALUE;
              return oldTab;
    }
    //...省略
}

上述代码已经很明确了，如果容量大于MAXIMUM_CAPACITY，那么是允许扩容到Integer.MAX_VALUE的。

问题4：HashMap每次扩容多大？

我们先看下HashMap中每次扩容的实现部分的代码：

//HashMap扩容实现方法
final Node<K,V>[] resize() {
        //当前散列表
        Node<K,V>[] oldTab = table;
        //当前散列表容量大小
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        //当前散列表扩容阈值
        int oldThr = threshold;
        //分别是新的容量大小和新的扩容阈值
        int newCap, newThr = 0;

        if (oldCap > 0) {
            //如果当前容量大于0

            if (oldCap >= MAXIMUM_CAPACITY) {
                //如果当前容量大于MAXIMUM_CAPACITY值直接扩容到 Integer.MAX_VALUE
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                //正常情况下，扩容到原来的1倍；阈值也增加到原来的1倍
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            // 如果当前容量为0，则容量=阈值
            newCap = oldThr;
        else {               // zero initial threshold signifies using defaults
            /** 如果容量为0，并且阈值为0，则设置容量为默认容量16，阈值=默认容量*默认加载因子=0.75*16
            */
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        
        if (newThr == 0) {
            /**
              如果新的阈值为0，则设置为容量*加载因子
            */
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        //...省略
}

通过上面的代码可以知道，HashMap每次扩容可能是不一样的，总结为：

如果当前容量的大于预设最大值MAXIMUM_CAPACITY ，则取值为Integer.MAX_VALUE
如果DEFAULT_INITIAL_CAPACITY<当前容量2 <MAXIMUM_CAPACITY,则新的容量和新的阈值设置为当前容量2
如果当前容量为0并且当前阈值大于0，则新的容量=当前阈值
如果当前容量为0并且当前阈值也未0，则新的容量=默认容量的值=16
同时，通过上面的代码可以知道每次扩容，阈值的值均为重新设置为新容量加载因子，默认情况下即新容量0.75

问题5：HashMap扩容的阈值是多少？默认阈值加载因子是多少？

通过问题4中列出的源码知道，扩容的阈值=新容量加载因子，默认情况下即新容量0.75。阈值用于判断是否进行扩容，当散列表的容量大于阈值或者容量为0时就进行扩容操作。默认的阈值加载因子=0.75，我来看默认加载因子的代码定义：

/**
     * The load factor used when none specified in constructor.
     */
static final float DEFAULT_LOAD_FACTOR = 0.75f;

问题6：HashMap的hash函数是怎么实现的？还有哪些实现方式？

hash函数就是散列函数，用于计算键相关的函数，可以理解计算为记录的映射地址。看源码实现：

static final int hash(Object key) {
      int h;
      return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

如果key为空，则hash的值为0；如果不为0则值为key的hashCode值亦或上key的hashCode右移16位之后的值。
HashMap 散列函数属于直接定址法，散列函数的实现方式还有：数字分析法、折叠法、随机数法、除留余数法。下面对这几中方式做个简单的说明：

直接定址法：取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b，其中a和b为常数（这种散列函数叫做自身函数）。若其中H(key）中已经有值了，就往下一个找，直到H(key）中没有值了，就放进去。
数字分析法：分析一组数据，比如一组员工的出生年月日，这时我们发现出生年月日的前几位数字大体相同，这样的话，出现冲突的几率就会很大，但是我们发现年月日的后几位表示月份和具体日期的数字差别很大，如果用后面的数字来构成散列地址，则冲突的几率会明显降低。因此数字分析法就是找出数字的规律，尽可能利用这些数据来构造冲突几率较低的散列地址。
平方取中法：当无法确定关键字中哪几位分布较均匀时，可以先求出关键字的平方值，然后按需要取平方值的中间几位作为哈希地址。这是因为：平方后中间几位和关键字中每一位都相关，故不同关键字会以较高的概率产生不同的哈希地址。
折叠法：将关键字分割成位数相同的几部分，最后一部分位数可以不同，然后取这几部分的叠加和（去除进位）作为散列地址。数位叠加可以有移位叠加和间界叠加两种方法。移位叠加是将分割后的每一部分的最低位对齐，然后相加；间界叠加是从一端向另一端沿分割界来回折叠，然后对齐相加。
随机数法：选择一随机函数，取关键字的随机值作为散列地址，通常用于关键字长度不同的场合。
除留余数法：取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p,p<=m。不仅可以对关键字直接取模，也可在折叠、平方取中等运算之后取模。对p的选择很重要，一般取素数或m，若p选的不好，容易产生同义词。

问题7：HashMap get的工作原理是什么？

首先我们先看下HashMap中get的实现代码：

public V get(Object key) {
        Node<K,V> e;
        //通过getNode的方式实现取值
        return (e = getNode(hash(key), key)) == null ? null : e.value;
}
/**
hash: 经过散列函数计算key得到值
key: 键值
*/
final Node<K,V> getNode(int hash, Object key) {
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (first = tab[(n - 1) & hash]) != null) {
            // tab即散列表，通过(n - 1) & hash计算出映射的地址，即下标
            //
            if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
                 // 如果查出的第一个记录hash值相等并且key地址相等或者值相等，则直接放回记录中的值
                return first;
            // 遍历链表，知道找到匹配的hash或者key
            if ((e = first.next) != null) {
                if (first instanceof TreeNode)
                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
                do {
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
        // 如果散列表为空或者根据hash查找到的记录为空，则返回空
        return null;
}

通过上述源码，get的实现是：
1、通过hash函数算出键的hash值
2、接着对hash进行(n - 1) & hash位运算，得出散列表的下标
3、通过散列表的下标得到链表表头
4、在链表中遍历查找，直到找到匹配的记录，最后返回找到的记录的值。匹配查找的条件是：hash值相等并且key地址相等或者值相等

问题8：HashMap put的工作原理是什么？

我们也是先看put的源码，借助源码来了解其实现原理：

public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
}

/**
hash: 对键进行hash()操作之后的值
key：键
value: 键对应的值
onlyIfAbsent：true: 原来的值不为空时，则不改变值
evict：false: 散列表处于创建模式，HashMap用不到，LinkedHashMap才有用到，此处不做说明
*/
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
         //当前散列表
        Node<K,V>[] tab; 
        //匹配的链表对象
        Node<K,V> p; 
        //分别是散列表的大小、匹配的散列表的下标值
        int n, i;
       
        if ((tab = table) == null || (n = tab.length) == 0)
             // 如果散列表为空，则进行扩容处理
            n = (tab = resize()).length;
      
        // 通过（n - 1）& hash取得链表所在散列表的下标
        if ((p = tab[i = (n - 1) & hash]) == null)
            // 如果匹配的链表为空，则创建链表
            tab[i] = newNode(hash, key, value, null);
        else {
            // 如果匹配的链表不为空，则遍历链表，找到链表中匹配的节点，然后替换其中的值
            // e：链表中的节点；k： 节点的键
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                // 链表的表头节点等于要找的节点
                e = p;
            else if (p instanceof TreeNode)
                // 如果链表是树形结构，则使用树形结构的方式实现put,此处不做这块的说明
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                // 开始遍历链表
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        /**遍历到表尾还没找到，则代表是一个新的节点，则进行创建新节点操作，并加入
                        链表的表尾
                        */
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    // 判断当前节点是否已经存在于链表中
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            // 如果原来的已经存在节点，则更改节点值
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                // 返回旧值
                return oldValue;
            }
        }
        // HashMap修改次数加1
        ++modCount;
        // HashMap大小加1，如果HashMap的大小大于阈值则进行扩容操作
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

根据put源码，我们可以总结HashMap的put操作的原理为：
1、如果散列表为空，则先创建默认容量的散列表
2、通过(n - 1) & hash 计算的散列表的下标，根据下标获取散列表中的链表
3、如果链表为空，代表插入新的节点，则创建新的链表（节点）插入散列表中
4、如果链表不为空，则遍历链表，判断是否已经存在节点：如果链表中不存在节点，则创建新节点插入链表的表尾；如果链表中已经存在节点则更改原来节点的值
5、如果是插入节点操作，HashMap的大小进行加1处理；如果是更新节点值操作，则不加1处理，并返回旧值
6、如果HashMap的大小加1了，判断HashMap的大小是否大于阈值，如果大于，则进行扩容处理

问题9：HashMap如果解决哈希表冲突的？

首先我们先看下哈希表冲突是什么鬼：对于不同的key经过散列函数计算之后，得到同一散列地址，这种现象称为冲突。试想一些如果哈希表采用的是一维数组，key经过hash()操作之后的值作为下标，value作为数组的值，那么就会出现key不同而下标相同，就会导致前面添加的键值对被后面添加的键值对覆盖的现象。
搞懂了什么是哈希表冲突，那么HashMap是怎么解决这个问题的呢？认真阅读的你，会在前面的问题中找到答案。
没错，通过问题8中put操作的源码，知道当key经过hash()操作，再经过(n -1） & hash得到散列表的下标，即便key计算得到的下标下同，是可以通过链表得到解决的。
总结来说HashMap解决哈希表冲突的方案是链址法，即使用一维数组作为散列表，单链表作为数组的值，当出现冲突时，将值插入链表中即可。

问题10：HashMap是否是线程安全？如果不是该如何实现线程安全？

答案可定不是线程安全的，明显通过上述get和put的源码可以看到，读写操作没有任务的同步、加锁操作，所以HashMap并非线程安全。
那么怎么实现线程安全呢？
1、使用HashTable
2、使用Collections.synchronizeMap处理Hashmap:
Map m = Collections.synchronizeMap(hashMap);
3、使用ConcurrentHashMap
1和2性能较差，推荐使用第三种，ConcurrentHashMap使用的是CAS轻量级锁，性能更好。至于为什么后面为用专门的章节来讲解。

问题10：HashMap使用怎么数据类型作为key更优？

这个是涉及HashMap优化处理的部分，没有做过这方面优化的同学估计一脸懵逼，还有这讲究？
首先我们知道哈希表存在冲突的情况，较少冲突碰撞的概率，提高查找效率；再者get和put的操作会出现频繁的调用key的hashcode()、equal。所以对key进行优化就变得更会重要，首先要解决的较少冲突、接着提高hashcode()和equal的操作。哪些数据类型先天有这方面的优势呢？答案是String和基本数据的wrapper对象（比如Integer、Short、Long等）。为什么呢，看过源码的同学应该能很快知道答案，原因是：
1、这些类是不可变的，都是final，不可继承，没有子类可以改变其实现，而且这些类的值都是不可变的，都有final类型修饰。不可变性是必要的，因为为了要计算hashCode()，就要防止键值改变，如果键值在放入时和获取时返回不同的hashcode的话，那么就不能从HashMap中找到你想要的对象
3、这些类都重写了hashcode()和equal方法，可以确保不同对象返回的hashcode值不一样，减低冲突概率；其中String还对hash进行的缓存处理，提高hashCode的效率。重写equal方法能区别键值的正确性。