架构师训练营 - 第五周命题作业

发布于: 2020 年 07 月 06 日
架构师训练营 - 第五周命题作业

  • 用你熟悉的编程语言实现一致性 hash 算法。

  • 编写测试用例测试这个算法,测试 100 万 KV 数据,10 个服务器节点的情况下,计算这些 KV 数据在服务器上分布数量的标准差,以评估算法的存储负载不均衡性。

原理:

先构造一个长度为2的32次方整数环(这个环被称为一致性Hash环),根据节点名称的Hash值(其分布为[0, 2的32次方-1])将服务器节点放置在这个Hash环上,然后根据数据的Key值计算得到其Hash值(其分布也为[0, 2的32次方-1]),接着在Hash环上顺时针查找距离这个Key值的Hash值最近的服务器节点,完成Key到服务器的映射查找。

思路:
  1. 选择一个hash算法,使key能够均匀分布到hash环。如CRC32_HASH、FNV1_32_HASH、KETAMA_HASH等,其中KETAMA_HASH是默认的MemCache推荐的一致性Hash算法。

  2. 对每个服务器节点建立若干虚拟节点,将虚拟节点基于hash算法均匀分布到hash环上。

  3. 建立虚拟节点与真实节点的映射关系,映射关系的数据结构直接影响整个算法的运行效率,建议采用树结构的Map。

  4. 根据key查找对应虚拟节点和真实节点。

代码如下:
package hash;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Random;
import java.util.Set;
import java.util.SortedMap;
import java.util.TreeMap;
/**
* @description:
* @author: liu.w
* @create: 2020-07-06 10:47
**/
public class ConsistentHashingWithVirtualNode {
private static final int p = 16777619;
/**
* 100万key
*/
private static final int total = 1000000;
/**
* 虚拟节点,key表示虚拟节点的hash值,value表示虚拟节点的名称
*/
private static SortedMap<Integer, String> virtualNodes = new TreeMap<>();
/**
* 虚拟节点与真实节点的映射,key表示虚拟节点的hash值,value表示真实节点index
*/
private static final SortedMap<Integer, Integer> serverMap = new TreeMap<>();
/**
* key真实节点index-缓存key数量
*/
private static final Map<Integer, Integer> dataMap = new HashMap<>();
/**
* 初始虚拟节点与真实节点的映射
* @param serverNum
* @param nodeNum
*/
private static void init(int serverNum, int nodeNum) {
serverMap.clear();
virtualNodes.clear();
dataMap.clear();
//初始化实际节点
for (int i = 0; i < serverNum; i++) {
dataMap.put(i, 0);
//分配虚拟节点和真实节点的映射关系
for (int j = 0; j < nodeNum; j++) {
String virtualNodeName = "server" + i + "&&VN" + j;
int hash = getHash(virtualNodeName);
serverMap.put(hash, i);
virtualNodes.put(hash, virtualNodeName);
}
}
}
/**
* 使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别
*/
private static int getHash(String str) {
int hash = (int) 2166136261L;
for (int i = 0; i < str.length(); i++) {
hash = (hash ^ str.charAt(i)) * p;
}
hash += hash << 13;
hash ^= hash >> 7;
hash += hash << 3;
hash ^= hash >> 17;
hash += hash << 5;
// 如果算出来的值为负数则取其绝对值
// 这会导致hash环只使用了一半,数据分布均匀不充分
/*if (hash < 0) {
hash = Math.abs(hash);
}*/
return hash;
}
/**
* 得到key应当路由到的真实结点
*/
private static Integer getServer(String key) {
// 得到带路由的结点的Hash值
int hash = getHash(key);
// 得到大于该Hash值的所有Map
SortedMap<Integer, Integer> subMap = serverMap.tailMap(hash);
//hash可能不在serverMap范围内,默认取serverMap的第一个
if (subMap.isEmpty()) {
subMap = serverMap;
}
// 第一个Key就是顺时针过去离node最近的那个结点
Integer i = subMap.firstKey();
// 返回对应的虚拟节点名称,这里字符串稍微截取一下
return subMap.get(i);
}
/**
* 生成随机Key
*
* @param length
* @return
*/
public static String getRandomString(int length) {
String str = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
Random random = new Random();
StringBuffer sb = new StringBuffer();
for (int i = 0; i < length; i++) {
int number = random.nextInt(62);
sb.append(str.charAt(number));
}
return sb.toString();
}
public static void run(Set<String> strings, int serverNum, int nodeNum) {
init(serverNum, nodeNum);
for (String string : strings) {
Integer serverIndex = getServer(string);
dataMap.put(serverIndex, dataMap.getOrDefault(serverIndex, 0) + 1);
}
//均值
int avg = total / serverNum;
//方差
double variance = dataMap.values().stream().mapToLong(x -> (avg - x) * (avg - x)).average().getAsDouble();
//标准差
int sqrt = (int) Math.sqrt(variance);
System.out.println("虚拟节点数:"+nodeNum + " 方差:" + variance + " 标准差:" + sqrt);
}
public static void main(String[] args) {
//随机一百万key
Set<String> set = new HashSet<>(total);
for (int i = 0; i < total; i++) {
set.add(getRandomString(10));
}
run(set, 10, 50);
run(set, 10, 100);
run(set, 10, 150);
run(set, 10, 200);
run(set, 10, 300);
run(set, 10, 500);
run(set, 10, 1000);
}
}
运行结果:

hash值包含正负数:

虚拟节点数:10 方差:5.239384316E8 标准差:22889

虚拟节点数:50 方差:2.192937208E8 标准差:14808

虚拟节点数:100 方差:3.28860954E7 标准差:5734

虚拟节点数:150 方差:3.7061198E7 标准差:6087

虚拟节点数:200 方差:2.34170956E7 标准差:4839

虚拟节点数:300 方差:2.86859648E7 标准差:5355

虚拟节点数:500 方差:1.9563509E7 标准差:4423

虚拟节点数:1000 方差:8641551.8 标准差:2939

hash值取绝对值(hash环只使用了一半):

虚拟节点数:10 方差:-1.10795086E7 标准差:0

虚拟节点数:50 方差:2.02514193E8 标准差:14230

虚拟节点数:100 方差:1.43139593E8 标准差:11964

虚拟节点数:150 方差:7.7286004E7 标准差:8791

虚拟节点数:200 方差:1.020039768E8 标准差:10099

虚拟节点数:300 方差:3.43491858E7 标准差:5860

虚拟节点数:500 方差:2.57521914E7 标准差:5074

虚拟节点数:1000 方差:5575670.8 标准差:2361

注意点:

hash环长度是2的32次方,本文的hash算法从网络上获取,中间hash值有一段取绝对值的逻辑,会导致hash环只使用了半个环。经过测试去除取绝对值的逻辑,可以充分利用整个hash环,标准差有较大提升。

待提升和解决的难点:
  • hash算法如何保障虚拟节点能够均匀分布

  • hash算法如何保障缓存key能均匀分布

用户头像

牛牛

关注

还未添加个人签名 2018.02.27 加入

还未添加个人简介

评论

发布
暂无评论
架构师训练营 - 第五周命题作业