HashMap 源码解析
HashMap底层数据结构
JDK1.7及之前:数组+链表
JDK1.8:数组+链表+红黑树
HashMap的一些重要参数
HashMap默认初始容量16 (一定是2的N次幂)
HashMap默认加载因子0.75
transient int size:表示当前HashMap包含的键值对数量
transient int modCount:表示当前HashMap修改次数
int threshold:表示当前HashMap能够承受的最多的键值对数量,一旦超过这个数量HashMap就会进行扩容
final float loadFactor:负载因子,用于扩容
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4:默认的table初始容量
static final float DEFAULT_LOAD_FACTOR = 0.75f:默认的负载因子
static final int TREEIFY_THRESHOLD = 8: 链表长度大于该参数转红黑树
static final int UNTREEIFY_THRESHOLD = 6: 当树的节点数小于等于该参数转成链表
源码:
当HashMap初始化的时候会调用上面的方法,如果设置了一个非2的N次幂的值M,会取大于M最接近2的N次幂的值X为HashMap初始容量,假设m=11,X=16,HashMap.size=16
以下代码可以观看HashMap的变化:
JDK 1.8中对hash算法和寻址算法是如何优化的
map.put(“张三”, “测试数据”)
“张三”这个key计算他的hash值,是有一定的优化的,hash算法优化如下:
比如说:有一个key的hash值
1111 1111 1111 1111 1111 1010 0111 1100
0000 0000 0000 0000 1111 1111 1111 1111 ^
1111 1111 1111 1111 0000 0101 1000 0011 -> int值,32位
主要原因:让低16位具备高16位的特征,减少hash冲突的可能性
寻址算法优化:
hash对n取模的效果 -> hash & (n - 1),效果是一样的,后者的性能更高
1111 1111 1111 1111 1111 1010 0111 1100(没有经过优化的hash值)
0000 0000 0000 0000 0000 0000 0000 1111
相当于,你直接这么搞,高16位之间的与运算,是可以忽略的,核心点在于低16位的与运算,hash值的高16位没有参与到与运算里来啊,所以在hash的时候做了一个^的位运算,让低16位具备高16位的特征。
总结:
hash算法的优化:对每个hash值,在他的低16位中,让高低16位进行了异或,让他的低16位同时保持了高低16位的特征,尽量避免一些hash值后续出现冲突,大家可能会进入数组的同一个位置
寻址算法的优化:用与运算替代取模,提升性能
HashMap如何解决Hash冲突(碰撞)
hash冲突的解决方式
JDK1.7及之前:链表
JDK1.8:链表+红黑树 O(n)和 O(logn)
两个key,多个key,他们算出来的hash的值,与n-1,与运算之后,发现定位出来的数组的位置还是一样的,hash碰撞,hash冲突
Entry[0]这个位置就如图是一个链表,在添加键值对的时候先判断key是否为null,如果key===null,放置在Entry[0]的存储位置,在判断该位置是否有元素存在,如果已经存在元素,则遍历Entry[0]的单链表,判断是key是否存在如果存在刷新值,如果不存在新生成一个Entry实体添加到链表尾部。
重点:在JDK1.8之前,新插入的元素都是放在了链表的头部位置,但是这种操作在高并发的环境下容易导致死锁,所以JDK1.8之后,新插入的元素都放在了链表的尾部。
链表长度超过阀值8链表会变成红黑树,在性能上会得到一些提升,在链表长度小于6的时候会转为普通链表
HashMap如何扩容的
n - 1 0000 0000 0000 0000 0000 0000 0000 1111
hash1 1111 1111 1111 1111 0000 1111 0000 0101
&结果 0000 0000 0000 0000 0000 0000 0000 0101 = 5(index = 5的位置)
n - 1 0000 0000 0000 0000 0000 0000 0000 1111
hash2 1111 1111 1111 1111 0000 1111 0001 0101
&结果 0000 0000 0000 0000 0000 0000 0000 0101 = 5(index = 5的位置)
在数组长度为16的时候,他们两个hash值的位置是一样的,用链表来处理,出现一个hash冲突的问题
果数组的长度扩容之后 = 32,重新对每个hash值进行寻址,也就是用每个hash值跟新数组的length - 1进行与操作
n-1 0000 0000 0000 0000 0000 0000 0001 1111
hash1 1111 1111 1111 1111 0000 1111 0000 0101
&结果 0000 0000 0000 0000 0000 0000 0000 0101 = 5(index = 5的位置)
n-1 0000 0000 0000 0000 0000 0000 0001 1111
hash2 1111 1111 1111 1111 0000 1111 0001 0101
&结果 0000 0000 0000 0000 0000 0000 0001 0101 = 21(index = 21的位置)
总结:
判断二进制结果中是否多出一个bit的1,如果没多,那么就是原来的index,如果多了出来,那么就是index + oldCap,通过这个方式,就避免了rehash的时候,用每个hash对新数组.length取模,取模性能不高,位运算的性能比较高
版权声明: 本文为 InfoQ 作者【彭阿三】的原创文章。
原文链接:【http://xie.infoq.cn/article/7d08e3c07650bace0dd3d6f3c】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论