写点什么

看 FusionInsight Spark 如何支持 JDBCServer 的多实例特性

  • 2021 年 12 月 01 日
  • 本文字数:2479 字

    阅读完需:约 8 分钟

摘要:采用多主实例模式的 HA 方案,不仅可以规避主备切换服务中断的问题,实现服务不中断或少中断,还可以通过横向扩展集群来提高并发能力。

 

本文分享自华为云社区《FusionInsightSpark支持JDBCServer的多实例特性介绍》,作者: 一枚核桃。

 

基于社区已有的 JDBCServer 基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个 JDBCServer 服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个 JDBCServer 服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的 JDBCServer 服务。


多主实例模式相比主备模式的 HA 方案,优势主要体现在对以下两种场景的改进。

  • 主备模式下,当发生主备切换时,会存在一段时间内服务不可用,该时间 JDBCServer 无法控制,取决于 Yarn 服务的资源情况。

  • Spark 中通过类似于 HiveServer2 的 Thrift JDBC 提供服务,用户通过 Beeline 以及 JDBC 接口访问。因此 JDBCServer 集群的处理能力取决于主 Server 的单点能力,可扩展性不够。


采用多主实例模式的 HA 方案,不仅可以规避主备切换服务中断的问题,实现服务不中断或少中断,还可以通过横向扩展集群来提高并发能力。

实现方案


多主实例模式的 HA 方案原理如下图所示。



​1. JDBCServer 在启动时,向 ZooKeeper 注册自身消息,在指定目录中写入节点,节点包含了该实例对应的 IP,端口,版本号和序列号等信息(多节点信息之间以逗号隔开)。


示例如下:


[serverUri=192.168.169.84:22550;version=8.1.2;sequence=0000001244,serverUri=192.168.195.232:22550 ;version=8.1.2;sequence=0000001242,serverUri=192.168.81.37:22550 ;version=8.1.2;sequence=0000001243]
复制代码


​2. 客户端连接 JDBCServer 时,需要指定 Namespace,即访问 ZooKeeper 哪个目录下的 JDBCServer 实例。在连接的时候,会从 Namespace 下随机选择一个实例连接,详细 URL 参见 URL 连接介绍。

3. 客户端成功连接 JDBCServer 服务后,向 JDBCServer 服务发送 SQL 语句。

4. JDBCServer 服务执行客户端发送的 SQL 语句后,将结果返回给客户端。


在 HA 方案中,每个 JDBCServer 服务(即实例)都是独立且等同的,当其中一个实例在升级或者业务中断时,其他的实例也能接受客户端的连接请求。


多主实例方案遵循以下规则:

  • 当一个实例异常退出时,其他实例不会接管此实例上的会话,也不会接管此实例上运行的业务。

  • 当 JDBCServer 进程停止时,删除在 ZooKeeper 上的相应节点。

  • 由于客户端选择服务端的策略是随机的,可能会出现会话随机分配不均匀的情况,进而可能引起实例间的负载不均衡。

  • 实例进入维护模式(即进入此模式后不再接受新的客户端连接)后,当达到退服超时时间,仍在此实例上运行的业务有可能会发生失败。

URL 连接介绍


多主实例模式


多主实例模式的客户端读取 ZooKeeper 节点中的内容,连接对应的 JDBCServer 服务。连接字符串为:

  • 安全模式下:

Kinit 认证方式下的 JDBCURL 如下所示:


jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>,<zkNode2_IP>:<zkNode2_Port>,<zkNode3_IP>:<zkNode3_Port>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=sparkthriftserver2x;saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;
复制代码


说明:

  • 其中“<zkNode_IP>:<zkNode_Port>”是 ZooKeeper 的 URL,多个 URL 以逗号隔开。

例如:“192.168.81.37:24002,192.168.195.232:24002,192.168.169.84:24002”

  • 其中“sparkthriftserver2x”是 ZooKeeper 上的目录,表示客户端从该目录下随机选择 JDBCServer 实例进行连接。


示例:安全模式下通过 Beeline 客户端连接时执行以下命令:


sh CLIENT_HOME/spark/bin/beeline -u "jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>,<zkNode2_IP>:<zkNode2_Port>,<zkNode3_IP>:<zkNode3_Port>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=sparkthriftserver2x;saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;"
复制代码


  • Keytab 认证方式下的 JDBCURL 如下所示:


jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>,<zkNode2_IP>:<zkNode2_Port>,<zkNode3_IP>:<zkNode3_Port>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=sparkthriftserver2x;saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;user.principal=<principal_name>;user.keytab=<path_to_keytab>
复制代码


​其中<principal_name>表示用户使用的 Kerberos 用户的 principal,如“test@<系统域名>”。<path_to_keytab>表示<principal_name>对应的 keytab 文件路径,如“/opt/auth/test/user.keytab”。


普通模式下:


jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>,<zkNode2_IP>:<zkNode2_Port>,<zkNode3_IP>:<zkNode3_Port>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=sparkthriftserver2x;
复制代码


​示例:普通模式下通过 Beeline 客户端连接时执行以下命令:


sh CLIENT_HOME/spark/bin/beeline -u "jdbc:hive2://<zkNode1_IP>:<zkNode1_Port>,<zkNode2_IP>:<zkNode2_Port>,<zkNode3_IP>:<zkNode3_Port>/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=sparkthriftserver2x;"
复制代码


非多主实例模式


非多主实例模式的客户端连接的是某个指定 JDBCServer 节点。该模式的连接字符串相比多主实例模式的去掉关于 Zookeeper 的参数项“serviceDiscoveryMode”和“zooKeeperNamespace”。


示例:安全模式下通过 Beeline 客户端连接非多主实例模式时执行以下命令:


sh CLIENT_HOME/spark/bin/beeline -u "jdbc:hive2://<server_IP>:<server_Port>/;user.principal=spark2x/hadoop.<系统域名>@<系统域名>;saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;"
复制代码


说明


  • 其中“<server_IP>:<server_Port>”是指定 JDBCServer 节点的 URL。

  • “CLIENT_HOME”是指客户端路径。


多主实例模式与非多主实例模式两种模式的 JDBCServer 接口相比,除连接方式不同外其他使用方法相同。由于 Spark JDBCServer 是 Hive 中的 HiveServer2 的另外一个实现,具体使用方法,请参见 Hive 官网:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients


点击关注,第一时间了解华为云新鲜技术~

发布于: 2 小时前阅读数: 6
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
看FusionInsight Spark如何支持JDBCServer的多实例特性