写点什么

写作行动营学员打卡 -Day3- 工作笔记

作者:Luke
  • 2023-12-07
    北京
  • 本文字数:1175 字

    阅读完需:约 4 分钟

一、针对基础 RDS 服务出现的一次故障进行复盘

(已经隐去相关部门及人员名称)

复盘文档:Redis 服务异常事件

事件概述

在 2023 年 12 月 4 日,我们的 Redis 服务出现了一次异常,导致服务在 17:57 至 18:11 期间不可用,总共影响了 14 分钟。幸运的是,由于此时并未进行财务批量扫描操作,因此业务并未受到影响。在此文档中,我们将详细复盘此次事件,包括影响范围、故障原因、处理过程以及后续改进方案。

影响范围

  1. 时间范围: Redis 服务异常发生在 2023 年 12 月 4 日 17:57,恢复于 18:11。

  2. 业务影响: 由于故障期间财务未进行批量扫描操作,因此业务未受影响。

故障原因

  1. 根据我们在报账应用配置的 Doris 告警(URL 和 Redis 服务监控),发现服务器应用节点无法访问 Redis 基础服务(redis20290w.shjt2.yun.qianxin-inc.cn)。

  2. 经定位,故障点为 RDS 云平台。我们第一时间反馈给 RDS 云平台处理。

  3. RDS 云平台反馈表示,Redis 服务器的宿主物理机产生宕机故障,影响到上面几十个数据库实例。

  4. RDS 云平台工程师优先修复了主节点,保障服务可用。修复整体耗时 20 分钟左右,评估影响报账时间为 14 分钟。

处理过程

  1. 收到 Doris 告警后,我们立即开始排查问题,发现无法访问 Redis 基础服务。

  2. 定位到故障点为 RDS 云平台后,我们第一时间与其取得联系并反馈问题。

  3. RDS 云平台 RDS 工程师迅速响应,优先修复主节点,恢复了 Redis 服务。

后续改进方案

  1. 对 Redis 服务进行高可用性优化,降低单点故障风险。

  2. 建立与 RDS 云平台的紧急沟通渠道,确保在类似事件发生时能更快速地得到响应和处理。

  3. 对报账应用进行优化,使其在 Redis 服务不可用时仍能正常处理业务,至少保证核心功能不受影响。

  4. 加强监控和告警体系,确保能在第一时间发现并处理问题。

二、使用 HTTPS 创建加密信道为例,记录执行手册

证书准备

确保 Logstash 与 Elasticsearch 之间的通信是加密和身份验证的有效性。


  1. 将 Elasticsearch 服务器上的 root-ca.pem 下载到 Logstash 服务器

  2. 创建 logstash-key.pem 和 logstash.pem


sudo su - bsafemkdir /data/logstash/certs && cd /data/logstash/certsopenssl genpkey -algorithm RSA -out logstash-key.pemopenssl req -new -key logstash-key.pem -out logstash.csr
复制代码


  1. 使用 CA 根证书 root-ca.pem 签名 logstash.pem 这样可以。

使用 CA 根证书对 CSR 进行签名,生成签名后的 Logstash 证书

openssl x509 -req -in logstash.csr -CA root-ca.pem -CAkey ca-key.pem -CAcreateserial -out logstash.pem -days 500 -sha256
复制代码

配置 Logstash

  1. 检出 logstash 的 ansible:


git clone logstash
复制代码


  1. 更新每个 pipline 配置文件,并添加证书


...      ssl => true # 启用SSL加密通信       cacert => "/data/logstash/certs/root-ca.pem" # CA根证书的路径 ...
复制代码


  1. 推送代码并创建 MR:


git commit -m "[feat] L 和 ES 启用SSL加密通信"git push
复制代码


  1. ELK 技术负责人审核并合并配置,触发 Jenkins Job 将配置生效到 Logstash 两台服务器

发布于: 刚刚阅读数: 3
用户头像

Luke

关注

三分手艺、七分工具 2017-10-17 加入

还未添加个人简介

评论

发布
暂无评论
写作行动营学员打卡-Day3-工作笔记_Luke_InfoQ写作社区