质量视角下的系统稳定性保障 -- 稳定性保障常态化自动化实践
作者:京东物流 翁美婷
一、前言
随着系统数量增多,复杂度提高,线上应急问题时有发生;加之需投入大量人力进行服务治理和验证,为了减少日常应急问题及提前排除风险,发起对生产系统的持续综合性治理,实现常态化稳定性治理。在常态化治理过程中我们将识别问题等重复性有规律的工作实现自动化,技术人员更专注于解决问题。
二、稳定性治理常态化
保障稳定性治理常态化,部门组建了一支由研发团队、测试团队、架构师组成的稳定性治理队伍,对部门核心应用,核心服务风险、服务器资源风险、日志风险、性能防劣化、以及技术专项等多维度持续风险识别和治理。
1、核心服务风险: 重点关注服务响应时间 TP99 跳点、响应时间 max 跳点、可用率小于 100%、秒级调用量 1500 次以上 TP99 性能等。
2、服务器资源风险: 巡检的服务器有应用服务器、DB、MDC、ES、Redis、Tidb、ClickHouse 等;关注指标:CPU、内存、磁盘、网络……;注意不同的服务器关注的指标侧重点不同。
3、性能防劣化: 针对服务和资源的性能指标分析峰值、趋势、对比及偏差情况识别系统的劣化发生。服务维度:UMP 调用量、响应时间、可用率;资源维度:主机 CPU、内存、磁盘,数据库慢 SQL、QPS;其他中间件:JVM 等。
4、日志风险治理: 日志问题包含异常日志治理、日志规范性、日志清理及磁盘监控、日志级别动态配置等方面。
5、其他专项常态化: 性能测试覆盖日常架构升级、重点项目需求,安全测试针对代码安全、组件安全、敏感接口、数据安全的专项测试,数据库慢 SQL、数据结转、主从延迟等,针对内部外的应急问题架构和质量复盘借鉴,识别自身系统可以改进提升项。
此外,应急薄弱点专项、应急演练、接口限流风险等各类稳定性保障专项持续推进。
三、稳定性治理自动化
常态化治理的痛点: 部门应用多,覆盖全部应用耗费大量时间人力,当增加 review 项时,工作量大幅增加,落地难度增大。如何提升 review 效率和可落地性?
自动化解决问题
1、线上问题巡检自动化, 降低重复性人力工作,研发更专注于问题优化和高可用建设。
2、丰富风险项检测, 风险项扩充不会额外增加大量人力排查
3、部门全盘稳定性监控, 问题检测能力复用,从核心服务 review 复制到全量不需要增加人力。
自动化过程
1、定义问题: 明确指标,确定异常规则。在稳定性常态治理过程沉淀了一套覆盖核心服务风险、服务器资源风险、日志风险、性能防劣化、以及其他专项的风险项和识别方法,这部分是问题的来源。
2、自动识别: 自动巡检,识别线上异常。数据来源于两部分,已有的 UMP、Logbook、MDC,此外来源还有压测数据、SLA 定义等。
3、闭环问题: 工单跟进,提升闭环效率,通过问题线上报表跟踪治理进度,每日/每周的定时巡检,回归验证,检验修复效果。
四、治理实践
从 UMP 异常、资源异常、性能防劣化、logbook 异常关键字、等维度线上服务稳定性治理实践案例。
1、UMP 异常-可用率<100%
案例:
1、定义问题:可用率<100%
2、自动识别问题:获取 T+1 的 UMPkey 监控数据,获取可用率小于 100 异常点信息,统计可用率小于 100 的次数,最低可用率及对应的时间为辅助排查问题的依据。
3、问题跟进:UMP 监控 XXXServiceImpl.buildBusinessSummary 可用率经常小于 100%,排查因为正常业务问题未从方法监控 ump 可用率中剔除,通过主动上报提高报警精准度。
2、资源异常-磁盘使用率风险
案例:
1、定义问题:磁盘使用率>80%
2、自动识别问题:获取 T+1 的资源监控数据,获取磁盘/和/export 的磁盘使用率>80%信息,统计出现次数,最高利用率及对应的时间。
3、问题跟进:0 级应用服务器磁盘使用超过 80%,优化 log4j 配置,补充监控报警。
3、Logbook 关键字-空指针异常
案例:
1、定义问题:
log 关键字分为程序类异常和业务类异常关键字:
(1)业务类异常:业务异常时主动输出的错误日志,例如“下单失败”,各系统根据需要自行打印和配置
(2)程序类异常:程序出现预期外的异常,自动抛出的错误日志,例如:NullPointerException
2、识别问题:某应用日志报空指针异常。
4、 性能防劣化-CPU 劣化
案例:CPU 劣化案例
2 月 5 日 11:00-19:20 之间核心鉴权服务分组机器 12 台服务器 CPU 使用率先后峰值 13%到 27%异常增长,并持续高于日常值,对外提供服务无明显异常,客户无感知。对服务 JVM 分析发现,频繁 FullGC 引起 CPU 升高,打印堆栈信息某中间件占用内存 1.4G(JVM 共 4G),经与中间件团队沟通当前版本存在线程池资源无法释放问题。
五、结语
通过自动化的方式每日对线上核心 UMP、Logbook、主机、数据库、ES、Redis 风险进行巡检,降低人工 review 工作量。稳定性治理重在持续,过程中可能会遇到痛点和艰难,值得技术人用技术不断提升。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/0b932bd4dc02b93be1e75c547】。文章转载请联系作者。
评论