一致性哈希在分布式缓存上的实践
一致性哈希算法在很多领域有应用,例如分布式缓存领域的 MemCache,Redis,负载均衡领域的 Nginx,各类 RPC 框架。
本文主要讨论在分布式缓存中一致性哈希的设计
一致性hash原理
其实本质上,一致性hash也是hash取模,只是是永远的对2的32次方-1
取模.
一致性hash引入了一个叫做一致性hash环
的概念,即将(0-2^32-1)
中间的所有整数首尾相接连接成一个环.如下图:
然后将所有的节点映射到环上,假设我们有3个节点,N1,N2.N3.那么如下图:
之后我们将要存储的所有key也都映射到环上,假设我们有6个key.
这样之后,顺时针旋转key,将其存储在遇到的第一个服务器上,这样有什么好处呢?
那就是扩展性,当新插入一个节点时,只会影响到少部分key,需要重新计算的key很少,我们添加一个节点试试:
可以发现,只有N3数据需要从N2节点迁移到N4.
是不是看起来挺美滋滋的,啥好处都有,有啥缺点呢?
缺点当然有.
上面的图是一种理想状态,基本算是均匀的分布了,但是实际使用中,你用一个集群中的机器名(有很大的可能性很类似)去hash,拿到的结果可能很相近,也就是说,并不是像图中这样分散的,而是聚集在一起,而key是分散的,这样会导致,大量的key命中了其中一个或者多个服务器,而有一部分却空闲.总之,负载不均衡.
redis的key都是字符串,而字符串的
hashcode
方法是可能会返回负值的,而一致性hash环是只有正值的,因此需要我们使用别的hash算法.(淡然你也可以粗暴的进行取绝对值).
使用虚拟节点解决hash不均匀的问题
hash不均匀主要出现在节点很少的时候,那么我们可以手动模拟一些节点出来,也就是所谓的虚拟节点,比如我们只有3个节点,但是我们定义一个规则,比如A-1,A-2,A-3,这三个节点都可以被映射到环上,但是在真正存储的时候我们都存储在A上.
只要我们的虚拟节点足够多,我们就可以让其尽可能的均匀分布在环上.
总结
一致性hash算法是使用虚拟的环状数据结构,解决了简单hash算法中扩展性差的问题,在分布式缓存以及负载均衡中有许多的应用.
Java实现一致性hash算法缓存客户端
Java中提供了
ConcurrentSkipListMap
类,可以很好的使用在这里,不仅可以轻松的模拟环状结构,并发安全且使用跳表结构的ConcurrentSkipListMap
可以提供很好的并发性能.对于虚拟节点的多少,其实是可以大概估算出来的,因此在下面的代码中,我将其作为一个变量,在初始化的时候由当前节点的数量计算得到,当然我没有具体实现计算方法.这么设计是出于什么考虑呢,想让虚拟节点的数量尽量的刚刚好,万一节点很多,还是用固定的虚拟节点,对均匀性提升不会很大,反而会造成性能损耗等.
好了,废话不多说了,直接看代码!
其中使用了两个工具类,分别是FnvHashUtil和StatisticsUtil,提供hash算法实现和标准差的计算,代码如下:
运行结果如下:
全文完!
版权声明: 本文为 InfoQ 作者【hellohuan】的原创文章。
原文链接:【http://xie.infoq.cn/article/ced754fd9ae38512a141985f1】。文章转载请联系作者。
评论