Java- 技术专题 -ConcurrentHashMap 读操作分析
版本变革对比:
1.7 版本:采用 Segment + HashEntry + ReentrantLock
JDK1.7 版本锁的粒度是基于 Segment 的,包含多个 HashEntry
1.8 版本:采用 Node + CAS + Synchronized
JDK1.8 锁的粒度就是 HashEntry(首节点),由于粒度的降低,实现的复杂度也增加了
JDK1.8 使用红黑树来优化链表,基于长度很长的链表的遍历是一个很漫长的过程,而红黑树的遍历效率是很快的,代替一定阈值的链表,这样形成一个最佳拍档。
get 操作源码
首先计算 hash 值,定位到该 table 索引位置,如果是首节点符合就返回。
遇到扩容的时候,会调用标志正在扩容节点 ForwardingNode 的 find 方法,查找该节点,匹配就返回。
以上都不符合的话,就往下遍历节点,匹配就返回,否则最后就返回 null。
get 没有加锁的话,ConcurrentHashMap 是如何保证读到的数据不是脏数据的呢?
volatile 登场
(正好巩固一下 Volatile)
对于可见性,Java 提供了 volatile 关键字来保证可见性、有序性。但不保证原子性。普通的共享变量不能保证可见性,因为普通共享变量被修改之后,什么时候被写入主存是不确定的,当其他线程去读取时,此时内存中可能还是原来的旧值,因此无法保证可见性。
volatile 关键字对于基本类型的修改可以在随后对多个线程的读保持一致,但是对于引用类型如数组,实体 bean,仅仅保证引用的可见性,但并不保证引用内容的可见性。
禁止进行指令重排序。
背景:为了提高处理速度,处理器不直接和内存进行通信,而是先将系统内存的数据读到内部缓存(L1,L2 或其他)后再进行操作,但操作完不知道何时会写到内存。
如果对声明了 volatile 的变量进行写操作,JVM 就会向处理器发送一条指令,将这个变量所在缓存行的数据写回到系统内存。但是,就算写回到内存,如果其他处理器缓存的值还是旧的,再执行计算操作就会有问题。
在多处理器下,为了保证各个处理器的缓存是一致的,就会实现(MESI)缓存一致性协议,当某个 CPU 在写数据时,如果发现操作的变量是共享变量,则会通知其他 CPU 告知该变量的缓存行是无效的,因此其他 CPU 在读取该变量时,发现其无效会重新从主存中加载数据。
总结下来
第一(强制+同步):使用 volatile 关键字会强制将修改的值立即写入主存;load 之后必须 store,assgin 之后也不许 use 等操作的强制更新内存的机制(范围,但 cpu 的多个线程之间)
第二(通知+嗅探):使用 volatile 关键字的话,当线程 2 进行修改时,会导致线程 1 的工作内存中缓存变量的缓存行无效(反映到硬件层的话,就是 CPU 的 L1 或者 L2 缓存中对应的缓存行无效)
第三(无效+读取):由于线程 1 的工作内存中缓存变量的缓存行无效,所以线程 1 再次读取变量的值时会去主存读取。
加在数组上的 volatile
我们知道 volatile 可以修饰数组的,只是意思和它表面上看起来的样子不同。举个栗子,volatile int array[10]是指 array 的,地址是 volatile 的而不是数组元素的值是 volatile 的.所以即使数据上面加入 volatile 关键字,仍旧不是可见性的
用 volatile 修饰的 Node
get 操作可以无锁是由于 Node 的元素 val 和指针 next 是用 volatile 修饰的,在多线程环境下线程 A 修改结点的 val 或者新增节点的时候是对线程 B 可见的。
既然 volatile 修饰数组对 get 操作没有效果那加在数组上的 volatile 的目的是什么呢?
其实就是为了使得 Node 数组在扩容的时候对其他线程具有可见性而加的 volatile
总结
在 1.8 中 ConcurrentHashMap 的 get 操作全程不需要加锁,这也是它比其他并发集合比如 hashtable、用 Collections.synchronizedMap()包装的 hashmap;安全效率高的原因之一。
get 操作全程不需要加锁是因为 Node 的成员 val 是用 volatile 修饰的和数组用 volatile 修饰没有关系。
数组用 volatile 修饰主要是保证在数组扩容的时候保证可见性。
评论