写作行动营学员打卡 -Day3- 工作笔记
一、针对基础 RDS 服务出现的一次故障进行复盘
(已经隐去相关部门及人员名称)
复盘文档:Redis 服务异常事件
事件概述
在 2023 年 12 月 4 日,我们的 Redis 服务出现了一次异常,导致服务在 17:57 至 18:11 期间不可用,总共影响了 14 分钟。幸运的是,由于此时并未进行财务批量扫描操作,因此业务并未受到影响。在此文档中,我们将详细复盘此次事件,包括影响范围、故障原因、处理过程以及后续改进方案。
影响范围
时间范围: Redis 服务异常发生在 2023 年 12 月 4 日 17:57,恢复于 18:11。
业务影响: 由于故障期间财务未进行批量扫描操作,因此业务未受影响。
故障原因
根据我们在报账应用配置的 Doris 告警(URL 和 Redis 服务监控),发现服务器应用节点无法访问 Redis 基础服务(redis20290w.shjt2.yun.qianxin-inc.cn)。
经定位,故障点为 RDS 云平台。我们第一时间反馈给 RDS 云平台处理。
RDS 云平台反馈表示,Redis 服务器的宿主物理机产生宕机故障,影响到上面几十个数据库实例。
RDS 云平台工程师优先修复了主节点,保障服务可用。修复整体耗时 20 分钟左右,评估影响报账时间为 14 分钟。
处理过程
收到 Doris 告警后,我们立即开始排查问题,发现无法访问 Redis 基础服务。
定位到故障点为 RDS 云平台后,我们第一时间与其取得联系并反馈问题。
RDS 云平台 RDS 工程师迅速响应,优先修复主节点,恢复了 Redis 服务。
后续改进方案
对 Redis 服务进行高可用性优化,降低单点故障风险。
建立与 RDS 云平台的紧急沟通渠道,确保在类似事件发生时能更快速地得到响应和处理。
对报账应用进行优化,使其在 Redis 服务不可用时仍能正常处理业务,至少保证核心功能不受影响。
加强监控和告警体系,确保能在第一时间发现并处理问题。
二、使用 HTTPS 创建加密信道为例,记录执行手册
证书准备
确保 Logstash 与 Elasticsearch 之间的通信是加密和身份验证的有效性。
将 Elasticsearch 服务器上的 root-ca.pem 下载到 Logstash 服务器
创建 logstash-key.pem 和 logstash.pem
使用 CA 根证书 root-ca.pem 签名 logstash.pem 这样可以。
使用 CA 根证书对 CSR 进行签名,生成签名后的 Logstash 证书
配置 Logstash
检出 logstash 的 ansible:
更新每个 pipline 配置文件,并添加证书
推送代码并创建 MR:
ELK 技术负责人审核并合并配置,触发 Jenkins Job 将配置生效到 Logstash 两台服务器
版权声明: 本文为 InfoQ 作者【Luke】的原创文章。
原文链接:【http://xie.infoq.cn/article/38745cce10e96f7f20ea12f53】。文章转载请联系作者。
评论