嘉为蓝鲸日志中心助力某省城商行,运维效率提升 60%
随着业务的快速发展,信息化建设不断深入,信息系统的规模、稳定性和规范化的重要性越发凸显。IT 系统逐渐呈现海量化和异构化的趋势,企业内部的系统和应用程序数量庞大,而通过采集监控与分析系统日志数据,能够及时发现并解决潜在故障,优化系统性能,预测可能的问题并采取预防措施。与此同时,日志管理平台在信息记录、操作审计、问题排查等场景中同样具有重要的价值。
基于上述需求及痛点,某省级城市商业银行基于嘉为蓝鲸日志中心(以下简称“日志中心”)建设了一套全企业统一的日志管理中心,并基于日志内容落地了专业业务监控系统,以满足企业在日志数据、业务观测上的监控需求。
业务场景
企业内部运行有几百套业务系统,每天产生的日志量约 6TB,峰值时期当天日志量可达 10TB 左右。同时,这些系统还支持着企业对外提供的上百种业务场景。
在产品建设之前,一方面企业内部缺乏专业工具支撑,技术人员日常查看日志、排查故障需要耗费大量时间,响应和处理效率低下,导致业务稳定性难以保障;另一方面,业务运行监测工具的不完善导致内部人员较难实时观测业务运行情况并及时发现处置业务故障。
痛点与需求
日志格式混杂带来的清洗解析困境:不同系统和应用程序产生的日志格式各不相同,导致日志数据难以统一清洗和解析。
缺乏统一管理,运维难以闭环:客户的日志数据分散在各个数据中心、租户或可用区的服务器上,查询检索低效,无法关联分析,运维工作难以闭环“最后一公里”。
业务监控系统较为独立,无法实现多模块联动故障分析。
解决方案
1)日志格式规范化,提升业务系统的可维护性
基于我司多年运维领域落地经验,并结合客户实际情况,项目团队协助客户确立了全行范围内适用的日志输出规范。日志规范涉及日志级别、日志存储、文件命名、日志格式、日志审计等要点。规范的确立使嘉为蓝鲸可观测系统更易对日志内容进行解析和存储,并通过日志信息实现业务场景层面的监控告警。
2)建设统一日志中心,集中管理海量、异构化日志
将物理层、系统层、应用层异构且分散的日志集中存储和管理,包括应用、服务组件、操作系统、容器、硬件设备等资产类型的日志,并通过日志中心提供高速稳定的检索分析和监控告警能力,全面提升日志数据的运营价值和运维排错效率。
3)基于日志数据,提取业务运行调用关系,生成业务监控黄金指标
从规范化的日志中,提取关键字段,绘制业务场景下各系统的运行拓扑,直观展示业务运行实际状况;并汇聚计算业务交易量、交易耗时、响应率、成功率四大黄金指标。
04. 建设成果
1)多种监控方式,实现业务多场景监控
日志中心通过日志关键字检测、日志指标数据检测、无数据异常检测,并结合 8 种异常检测算法,实现了客户实际生产中业务的多场景监控,保障业务稳定性。举例来说,证券市场会在特定时间开放交易买卖,往往特定的日志会在特定的时间输出。此时,日志信息检测需要通过同比策略进行配置。
2)日志检索,提升日志数据“效能”快速定位问题
客户业务系统日益增多,业务日益丰富,客户业务实际场景中存在进行跨系统或跨业务线的交易,需要涉及多个不同系统的协同工作,如果某个环节出现故障,可能会影响整个交易流程,因此需要获取多个业务系统日志来排除故障。而基于日志中心的联合检索功能可以实现关联多业务系统之间日志进行排查,并结合实时日志、日志上下文等日志检索功能可帮助运维和研发快速定位复杂问题。
3)业务监控,实时观测业务运行情况
通过规范日志的清洗分析,实时汇聚各系统间的调用关系,展示各业务场景实际运行逻辑;同时抽取指标数据,展现业务运行大盘看板。从场景和系统两个维度关注业务运行情况,并支持逐级下钻,从场景、系统、接口、请求分层次分析业务运行数据。
建设收益
统一采集管理 200+业务系统日志,实现日志全量管理;
对比之前客户从服务器手动获取业务日志的运维方式,建设日志中心后,运维排查效率提升 60%;
规范客户内部业务系统日志规范,提高系统的稳定性、安全性和可维护性;
实时监控业务系统运行情况,为客户业务稳定性提供强力保障;
提供业务层级下钻到微服务接口级别的逐层分析能力,运行隐患无所遁形。
适用场景
日志中心适用于有以下业务场景需求的企业:
存在海量的、异构化的业务日志需要采集纳管;
需要对日志内容的关键指标进行监控;
需要按业务系统进行高性能、交互便捷的日志检索,支撑业务日志排查;
需要业务场景层级的监控系统,对业务运行情况实时观测;
需要日志层面的故障分析,根因定位能力。
评论