HashMap解析

2016-07-06 本文已影响464人风风风筝

从另一个角度来解析HashMap到底是怎么实现的，试着自己实现一个HashMap。我们就实现一些常用的方法，掌握了主要的几个方法就能知晓原理了。

把K和V封装成一个实体Entry，然后HashMap内部维护一个Entry[]数组，就可以实现最基本的功能了。

public class HashMap<K, V> {

    public HashMap() {
        table = new Entry[16];// 源码方案，默认16
    }

    public HashMap(int initialCapacity) {
        int capacity = 2;
        while (capacity < initialCapacity)
            capacity = capacity * 2;// 源码方案，一定是2的倍数
        table = new Entry[capacity];
    }

    private Entry<K, V>[] table;
    private int size;

    public V put(K key, V value) {
        for (int i = 0; i < size; i++) {
            Entry<K, V> e = table[i];
            V oldValue = e.value;
            if (key.equals(e.key)) {
                e.value = value;
                return oldValue;
            }
        }
        table[size] = new Entry(key, value);
        size++;
        return null;
    }

    public V get(K key) {
        for (int i = 0; i < size; i++) {
            Entry<K, V> e = table[i];
            if (key.equals(e.key)) {
                return e.value;
            }
        }
        return null;
    }

    public int size() {
        return size;
    }

    class Entry<K, V> {
        private final K key;
        private V value;

        public Entry(K key, V value) {
            this.key = key;
            this.value = value;
        }
    }
}

put()的时候如果size超过table.length就有问题，当数组满了就要扩容

public V put(K key, V value) {
    for (int i = 0; i < size; i++) {
        Entry<K, V> e = table[i];
        V oldValue = e.value;
        if (e.key.equals(key)) {
            e.value = value;
            return oldValue;
        }
    }
    table[size] = new Entry(key, value);
    size++;
    if (size == table.length) {
        resize();
    }
    return null;
}

private void resize() {
    Entry<K, V>[] newTable = new Entry[table.length * 2];// 源码方案，满了就将数组长度翻倍
    for (int i = 0; i < table.length; i++) {
        newTable[i] = table[i];
    }
    table = newTable;
}

写到这里，一个最基本的HashMap就实现了。

一个合格的程序员，写完代码都应该思考下，这样写效率是不是太低了。
如果已经存了1000个值，那每次get和put都有可能需要遍历1000次，想想有没有办法可以优化。
如有有一个方法只要根据key，就可以知道在数组table的index，那就不用遍历了。比如index = key.hashcode()%2，这样index不是0就是1，显然不对，但是至少提示了我们可以把Entry分成2组进行存储，然后再去这2组里面去找我们想要的Entry。同一个index，table[index]怎么同时存储多个Entry呢？稍微改下Entry类，增加一个next

class Entry<K, V> {
    private final K key;
    private V value;
    private Entry<K, V> next;

    public Entry(K key, V value, Entry<K, V> next) {
        this.key = key;
        this.value = value;
        this.next = next;
    }
}

增加一个获取index的方法

private int indexFor(int hash, int length) {
    return hash % length;// 这样分组当然比分2组好了，想想为什么这样分组最容易分散，而且根据table.length求余可以确保index不越界
}

然后改造下put()和get()

public V get(K key) {
    int index = indexFor(key.hashCode(), table.length);
    Entry<K, V> e = table[index];
    while (e != null) {
        if (key.equals(e.key)) {
            return e.value;
        }
        e = e.next;
    }
    return null;
}

public V put(K key, V value) {
    int index = indexFor(key.hashCode(), table.length);
    Entry<K, V> e = table[index];
    while (e != null) {
        if (key.equals(e.key)) {
            V oldValue = e.value;
            e.value = value;
            return oldValue;
        }
        e = e.next;
    }
    /*
     * 相同的index通过next连接起来，比如Entry a、b、c的index相同，put先后顺序是 c、b、a
     * 那么他们的关系就是
     * a.next = b
     * b.next = c
     * c.next = null
     */
    table[index] = new Entry<K, V>(key, value, table[index]);
    size++;
    if (size == table.length) {
        resize();
    }
    return null;
}

只要让index尽可能分散（即next层次尽可能浅）遍历的次数就会远远低于没改造前了，是不是感觉优化了不少。

有没有发现还有个问题，如果调用过resize()呢，那么indexFor()返回的值就会跟之前的不一样了。
解决方法就是resize()的时候把所有的Entry取出来，再根据indexFor()算法赋予给newTable[]

private void resize() {
    Entry<K, V>[] newTable = new Entry[table.length * 2];
    for (int i = 0; i < table.length; i++) {
        Entry<K, V> e = table[i];
        if (e != null) {
            do {
                Entry<K, V> next = e.next;
                int index = indexFor(e.key.hashCode(), newTable.length);
                Entry<K, V> oldEntry = newTable[index];
                newTable[index] = e;
                newTable[index].next = oldEntry;
                e = next;
            } while (e != null);
        }
    }
    table = newTable;
}

写到这里，应该基本掌握了HashMap的原理，当然源码还是比这复杂一些，比如我没处理key==null的情况，还有一些其他方法没有实现，JDK1.8引入了红黑树，当链表长度超过8的时候，使用红黑树。

其实HashMap源码里获取index，会对key.hashCode()再次加工，让index更加分散，int index = hash(key)
这个hash()为什么会让index更分散，有待继续研究，JDK1.8中

int hash(K key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

再说说hashCode()和equals()
我们知道HashMap里存取都是先去取table[index]，而index是根据key.hashCode()来生成的，看Object类

public native int hashCode();

public boolean equals(Object obj) {
    return (this == obj);
}

hashCode()就是返回内存地址，而equals()直接判断内存地址，举个例子

class Student {
    public int id;
    public String name;
}

Student a = new Student();
Student b = new Student();
a.id = 1;
a.name = "小明";
b.id = 1;
b.name = "小明";

那么a.equals(b)就是false，而且a.hashCode()也和b.hashCode()不相等
如果用Student做HashMap的key，我们显然想要的是a和b就是同一个key，那么我们只能自己重写这2个方法了，比如

class Student {
    public int id;
    public String name;
    public int hashCode(){
        return id + name.hashCode();
    }
    public boolean equals(Student s){
        return s.id == id && s.name.equals(name);
    }
}

为什么我们用String、Integer等做key没有问题，是因为它们已经实现了这两个方法。

总得来说，equals()返回true，那么hashCode()必须相等，而hashCode()相等，equals()可以返回false

额外说下HashSet，由于比较简单，就不开新篇

public HashSet() {
    map = new HashMap<>();
}

private static final Object PRESENT = new Object();

public boolean add(E e) {
    return map.put(e, PRESENT)==null;
}

内部维护一个map，把element当做key，put到map，这样就能确保HashSet的值是唯一的了，非常简单。

HashMap解析

猜你喜欢

热点阅读