ElasticSearch 集群的概念及搭建过程,Java 程序员晋升路线
Elasticsearch 是一个实时分布式搜索和分析引擎,用于全文搜索、结构化搜索、分析以及将这三者混合使用,Elasticsearch 可以在你的笔记本上运行,也可以在数以百计的服务器上处理 PB 级别的数据。
在处理大量的数据时,单个的服务器往往无法不具备存储这么多数据的硬件基础,同时在处理这些数据时也会出现速度太慢的问题,怎样才能解决这个问题呢?我们可以购买更好的服务器(纵向扩展(vertical scale or scaling up))或者购买更多的服务器(横向扩展(horizontal scale or scaling out))。
Elasticsearch 虽然可以从更强大的硬件中获得更好的性能,但是纵向扩展是有局限性。真正的扩展方式往往是横向的,Elasticsearch 通过增加节点来均摊负载和增加可靠性,这让高速处理大数据成为可能。
对于大多数数据库而言,横向扩展意味着你的程序将做非常大的改动才能利用这些新添加的设备。对比来说,Elasticsearch 是一个 P2P 类型(使用 gossip 协议)的分布式系统:它知道如何管理节点来提供高扩展和高可用。
Elasticsearch 致力于隐藏分布式系统的复杂性,会在底层自动完成许多操作的:
将你的文档分区到不同的容器或者分片(shards)中,它们可以存在于一个或多个节点中
将分片均匀的分配到各个节点,对索引和搜索做负载均衡
冗余每一个分片,防止硬件故障造成的数据丢失
将集群中任意一个节点上的请求路由到相应数据所在的节点
无论是增加节点,还是移除节点,分片都可以做到无缝的扩展和迁移
1. 集群 cluster
一个或多个节点组织在一起可以称做是一个集群,一个集群可以由任意多个节点组成(一般为 3 个节点以上),它们共同持有整个的数据,并一起提供索引和搜索功能。如果当前你的网络中没有运行任何 Elasticsearch 节点,这时启动一个节点,会默认创建并加入一个叫做“elasticsearch”的集群,其它节点可以通过这个集群的名称加入这个集群。
2. 节点 node
一个节点可以通过配置集群名称的方式来加入一个指定的集群,默认情况下,每个节点都会被安排加入到一个叫做 “elasticsearch” 的集群中。节点是集群中的一个服务器,相同集群中的节点具有相同的 cluster.name,它们协同工作,分享数据和负载,并参与集群的索引和搜索功能。
集群中一个节点会被选举为主节点(master),它将临时管理集群级别的一些变更,例如新建或删除索引、增加或移除节点等。主节点不参与文档级别的变更或搜索,这意味着在流量增长的时候,该主节点不会成为集群的瓶颈。任何节点都可以成为主节点,一般情况下第一个加入集群的节点会成为主节点。另外当加入新的节点或者删除一个节点时,集群就会感知到并平衡数据。
3. 分片和复制 shards&replicas
Elasticsearch 提供了将索引划分成多份的能力,这些份就叫做分片。当你创建一个索引(存储关联数据的地方)的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,它保存了索引中数据的一部分,这个“索引”可以被放置到集群中的任何节点上。
分片是 Elasticsearch 在集群中分发数据的关键。把分片想象成数据的容器。文档存储在分片中,然后分片分配到你集群中的节点上。当你的集群扩容或缩小,Elasticsearch 将会自动在你的节点间迁移分片,以使集群保持平衡。
分片很重要,它允许你水平分割/扩展你的内容容量,允许你在分片(潜在地,位于多个节点上)之上进行分布式的、并行的操作,进而提高性能/吞吐量。
分片可以是 主分片(primary shard) 或者是 复制分片(replica shard)。你索引中的每个文档属于一个单独的主分片,所以主分片的数量决定了索引最多能存储多少数据。理论上主分片能存储的数据大小是没有限制的,限制取决于你实际的使用情况。分片的最大容量完全取决于你的使用状况:硬件存储的大小、文档的大小和复杂度、如何索引和查询你的文档,以及你期望的响应时间。
复制分片只是主分片的一个副本,它可以防止硬件故障导致的数据丢失,同时可以提供读请求,比如搜索或者从别的 shard 取回文档。当索引创建完成的时候,主分片的数量就固定了,但是复制分片的数量可以随时调整。
默认情况下,Elasticsearch 中的每个索引被分片 5 个主分片和 1 个复制,这意味着,如果你的集群中至少有两个节点,你的索引将会有 5 个主分片和另外 5 个复制分片(1 个完全拷贝),这样的话每个索引总共就有 10 个分片。我们可以看到下图,由 5 个分片与 5 个复制分片组成,对于每一个分片,我们都可以在另外的节点上找到其对应的复制分片,这意味着在丢失任意一个节点的情况下依旧可以保证数据的完整性。
集群的健康状态:
在 Elasticsearch 集群中可以监控统计很多信息,但是只有一个是最重要的:集群健康(cluster health)。集群健康有三种状态:green、yellow 或 red。
| 颜色 | 意义 | 图片 |
| --- | --- | --- |
| green | 所有主要分片和复制分片都可用 |
|
| yellow | 所有主要分片可用,但不是所有复制分片都可用 |
|
| red | 不是所有的主要分片都可用 |
|
1. 准备三台 elasticsearch 服务器
创建 elasticsearch-cluster 文件夹,在内部复制三个 elasticsearch 服务
删除 data 中的数据:应为我们是直接复制的文件,所以每个文件中的 data 都是一样的,这样会导致数据不同步的问题
2. 修改每台服务器配置
修改 elasticsearch-cluster\node*\config\elasticsearch.yml 配置文件
node1 节点:
#节点 1 的配置信息:
#集群名称,保证唯一
cluster.name: my-elasticsearch
#节点名称,必须不一样
node.name: node-1
#必须为本机的 ip 地址
network.host: 127.0.0.1
#服务端口号,在同一机器下必须不一样
http.port: 9201
#集群间通信端口号,在同一机器下必须不一样
transport.tcp.port: 9301
#设置集群自动发现机器 ip 集合
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
node2 节点:
#节点 2 的配置信息:
#集群名称,保证唯一
cluster.name: my-elasticsearch
#节点名称,必须不一样
node.name: node-2
#必须为本机的 ip 地址
network.host: 127.0.0.1
#服务端口号,在同一机器下必须不一样
http.port: 9202
#集群间通信端口号,在同一机器下必须不一样
transport.tcp.port: 9302
#设置集群自动发现机器 ip 集合
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
node3 节点:
#节点 3 的配置信息:
#集群名称,保证唯一
cluster.name: my-elasticsearch
#节点名称,必须不一样
node.name: node-3
#必须为本机的 ip 地址
network.host: 127.0.0.1
#服务端口号,在同一机器下必须不一样
http.port: 9203
#集群间通信端口号,在同一机器下必须不一样
transport.tcp.port: 9303
#设置集群自动发现机器 ip 集合
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301","127.0.0.1:9302","127.0.0.1:9303"]
3. 启动各个节点服务器
双击 elasticsearch-cluster\node*\bin\elasticsearch.bat
启动节点 1->启动节点 2->启动节点 3
评论