写点什么

一致性 Hash 算法

用户头像
andy
关注
发布于: 2021 年 01 月 09 日
一致性Hash算法

思考:使用编程语言实现一致性 hash 算法。


为了实现编程语言实现一致性 Hash 算法,首先需要明确什么一致性 Hash 算法,以及为什么产生了一致性 Hash 算法,其目的是为了解决什么问题。


(1)余数 Hash


基于存储缓存数据的服务器节点个数,每台缓存服务器具有一定的编号顺序,针对存储数据的键,计算出 HashCode 数值,再对服务器节点个数求余,余数则是决定这个键值对应当存储于哪台缓存服务器之上。



求余公式:



余数 Hash 具有一大缺陷,当缓存服务器容量不够,需要进行扩展时,增加服务器节点个数,根据求余公式,之前存储的数据便无法再次定位到之前存储的服务器之上,进而导致所有存储的缓存数据失效,需要重新计算存储


(2)一致性 Hash


为了针对缓存服务器扩展导致的余数 Hash 失效,进而提出了一致性 Hash 算法,保证每个数据的存储位置是固定的。假定一个环,环上存储 2^32 个 HashCode 数值,范围是 0~2^32-1,每个数值唯一对应环上的一个点。此时,有三台服务器几点,分别是 NODE1、NODE2、NODE3,根据一致性 Hash 算法,分别落在环上的对应位置上。存储的数据对应于环上的点上,顺时针找到第一个缓存服务器,则这个服务器便是这个数据的缓存服务器。



一致性 Hash 算法解决了余数 Hash 扩展存储服务器的缺陷问题。


当新增加一个缓存服务器 NODE4,则根据计算,找到在环上的对应位置,那么,这个节点便会逆时针查找到上一个缓存服务器节点,之前这个范围的数据是存储在 NODE4 顺序针往下的第一个缓存服务器之上的,由于扩容,导致这个范围的数据存储的数据更新为新的缓存服务器 NODE4,由于旁路缓存原理,第一次查询的数据,NODE4 没有存储,便会去访问数据查找,然后,再将数据缓存至 NODE4 上,这样就实现了扩容,影响的数据范围极小,对于数据库的压力不是很大。



这个世界没有什么是万能的,一致性 Hash 算法也有着自身的缺陷,那就是一旦缓存服务器相邻很近,NODE1 和 NODE2 相邻很近的情况,大部分的数据存储在 NODE1,而 NODE2 只是存储小部分的数据,当扩容缓存服务器时,则大部分的数据需要重新缓存,这样对于数据库的压力又增加了。


本质上而言,缺陷在于一致性 Hash 无法保证均衡分布于环上。


(3)基于虚拟节点的一致性 Hash 算法


为了解决一致性 Hash 算法不均衡的问题,进一步该进了该算法,采用虚拟节点的方式。


环上依然具有 0~2^32-1 个点,新增一个缓存服务器,为其分配 150 个虚拟节点,均衡地分布于环上。再新增一个缓存服务器,又分配 150 个虚拟节点,再次均衡分布于环上。不断采用这样的方式,保证各个缓存服务器的虚拟节点都能够均衡分布于环上。


对于数据的存储,依然采取一致性 Hash,即数据落在环的上一点,这个点顺序针找到第一个缓存服务器的虚拟节点,那么,这个虚拟节点对应的缓存服务器就是该数据存储的服务器。


当新增扩容的时候,不会像一致性 Hash 算法那样,影响大部分的数据,而只是影响一部分数据。



那么,回到问题本身,如何通过语言实现一致性 Hash 算法。


这就分为两种情况,一种是初始的一致性 Hash 算法,一种是基于虚拟节点的一致性 Hash 算法。


(4)初始的一致性 Hash 算法


以下通过使用 Java 实现初始的一致性 Hash 算法


import java.util.SortedMap;  import java.util.TreeMap;  
/** * 不带虚拟节点的一致性Hash算法 * 重点:1.如何造一个hash环,2.如何在哈希环上映射服务器节点,3.如何找到对应的节点 */ public class ConsistentHashingWithoutVirtualNode {
//待添加入Hash环的服务器列表 private static String[] servers = { "192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111" };
//key表示服务器的hash值,value表示服务器 private static SortedMap<Integer, String> sortedMap = new TreeMap<Integer, String>();
//程序初始化,将所有的服务器放入sortedMap中 static { for (int i=0; i<servers.length; i++) { int hash = getHash(servers[i]); System.out.println("[" + servers[i] + "]加入集合中, 其Hash值为" + hash); sortedMap.put(hash, servers[i]); } System.out.println(); }
//得到应当路由到的结点 private static String getServer(String key) { //得到该key的hash值 int hash = getHash(key); //得到大于该Hash值的所有Map SortedMap<Integer, String> subMap = sortedMap.tailMap(hash); if(subMap.isEmpty()){ //如果没有比该key的hash值大的,则从第一个node开始 Integer i = sortedMap.firstKey(); //返回对应的服务器 return sortedMap.get(i); }else{ //第一个Key就是顺时针过去离node最近的那个结点 Integer i = subMap.firstKey(); //返回对应的服务器 return subMap.get(i); } }
//使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别 private static int getHash(String str) { final int p = 16777619; int hash = (int) 2166136261L; for (int i = 0; i < str.length(); i++) hash = (hash ^ str.charAt(i)) * p; hash += hash << 13; hash ^= hash >> 7; hash += hash << 3; hash ^= hash >> 17; hash += hash << 5;
// 如果算出来的值为负数则取其绝对值 if (hash < 0) hash = Math.abs(hash); return hash; }
public static void main(String[] args) { String[] keys = {"太阳", "月亮", "星星"}; for(int i=0; i<keys.length; i++) System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i]) + ", 被路由到结点[" + getServer(keys[i]) + "]"); } }
复制代码


(5)基于虚拟节点的一致性 Hash 算法


以下通过使用 Java 实现基于虚拟节点的一致性 Hash 算法


import java.util.LinkedList;  import java.util.List;  import java.util.SortedMap;  import java.util.TreeMap;  
import org.apache.commons.lang.StringUtils;
/** * 带虚拟节点的一致性Hash算法 */ public class ConsistentHashingWithoutVirtualNode {
//待添加入Hash环的服务器列表 private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111"};
//真实结点列表,考虑到服务器上线、下线的场景,即添加、删除的场景会比较频繁,这里使用LinkedList会更好 private static List<String> realNodes = new LinkedList<String>();
//虚拟节点,key表示虚拟节点的hash值,value表示虚拟节点的名称 private static SortedMap<Integer, String> virtualNodes = new TreeMap<Integer, String>();
//虚拟节点的数目,这里写死,为了演示需要,一个真实结点对应5个虚拟节点 private static final int VIRTUAL_NODES = 5;
static{ //先把原始的服务器添加到真实结点列表中 for(int i=0; i<servers.length; i++) realNodes.add(servers[i]);
//再添加虚拟节点,遍历LinkedList使用foreach循环效率会比较高 for (String str : realNodes){ for(int i=0; i<VIRTUAL_NODES; i++){ String virtualNodeName = str + "&&VN" + String.valueOf(i); int hash = getHash(virtualNodeName); System.out.println("虚拟节点[" + virtualNodeName + "]被添加, hash值为" + hash); virtualNodes.put(hash, virtualNodeName); } } System.out.println(); }
//使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别 private static int getHash(String str){ final int p = 16777619; int hash = (int)2166136261L; for (int i = 0; i < str.length(); i++) hash = (hash ^ str.charAt(i)) * p; hash += hash << 13; hash ^= hash >> 7; hash += hash << 3; hash ^= hash >> 17; hash += hash << 5;
// 如果算出来的值为负数则取其绝对值 if (hash < 0) hash = Math.abs(hash); return hash; }
//得到应当路由到的结点 private static String getServer(String key){ //得到该key的hash值 int hash = getHash(key); // 得到大于该Hash值的所有Map SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash); String virtualNode; if(subMap.isEmpty()){ //如果没有比该key的hash值大的,则从第一个node开始 Integer i = virtualNodes.firstKey(); //返回对应的服务器 virtualNode = virtualNodes.get(i); }else{ //第一个Key就是顺时针过去离node最近的那个结点 Integer i = subMap.firstKey(); //返回对应的服务器 virtualNode = subMap.get(i); } //virtualNode虚拟节点名称要截取一下 if(StringUtils.isNotBlank(virtualNode)){ return virtualNode.substring(0, virtualNode.indexOf("&&")); } return null; }
public static void main(String[] args){ String[] keys = {"太阳", "月亮", "星星"}; for(int i=0; i<keys.length; i++) System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i]) + ", 被路由到结点[" + getServer(keys[i]) + "]"); } }
复制代码


用户头像

andy

关注

还未添加个人签名 2019.11.21 加入

还未添加个人简介

评论

发布
暂无评论
一致性Hash算法