可观测产品剖析——日志统一管理
直达原文:【可观测系列】产品剖析——日志统一管理
此前,我们了解了为何日志体系建设通常被称为企业运维排障中"最后一公里",以及日志体系如何建设,本期我们将着重介绍嘉为蓝鲸日志中心(以下简称“日志中心”)是如何实现日志系统的建设的。
日志中心是面向企业 IT 研发和运维,满足分布式架构下海量日志采集及存储、检索及分析的一款高性能日志产品,基于业界主流的全文检索引擎,通过蓝鲸专属 Agent 提供多种场景化日志采集,提供快速检索分析、辅助故障定位功能。
日志中心——双价值链条驱动的企业级日志解决方案:
价值链 1:根据日志数据的分散、海量、异构的特点,打造日志数据流转链,应对集中管理的场景。
价值链 2:基于可观测三支柱数据理论,构建可观测全景数据链条,应对日益复杂的观测场景。
日志采集
日志中心引入日志主题的概念,将多个采集项封装成一个日志主题,屏蔽采集层的物理限制,以业务维度重新组织日志数据管理维度,从而实现跨应用的联合查询。
支持通过 Agent 采集源日志和接入第三方 ES 来消费日志数据。
基于 Agent 采集日志
日志中心支持通过 Agent 采集来自多种来源的日志文件,包括操作系统、应用系统、容器、网络设备、安全设备、中间件以及数据库生成的日志。此外,系统还支持从第三方 Kafka 采集日志信息,确保用户可以全面获取所需的日志数据。
针对上述提到多来源的日志文件,具体而言,日志中心提供以下七种日志采集方式,以满足不同场景和需求:
文本日志:直接采集存储在文件系统中的文本格式日志,适用于大多数应用和服务生成的日志文件。
Syslog 协议:通过标准的 Syslog 协议采集网络设备和安全设备的日志,确保日志传输的高效性和可靠性。
Windows 事件日志:支持从 Windows 系统中采集事件日志,帮助用户监控和分析 Windows 环境下的系统和应用活动。
Kubernetes 文件日志:直接采集 Kubernetes 集群中容器生成的日志文件,便于用户对容器化应用进行监控和故障排查。
Kubernetes 标准输出:通过采集 Kubernetes 容器的标准输出日志,用户可以轻松获取应用运行时的实时信息。
Kubernetes Node 日志:采集 Kubernetes 节点上的日志信息,帮助用户全面了解集群的运行状态和性能。
Kafka 采集:支持从第三方 Kafka 集群中采集日志信息,使得用户能够灵活处理和分析通过 Kafka 流转的日志数据。
选择采集类型后,用户需要进行详细的日志采集配置,包括设置采集目标、指定文本路径以及定义过滤规则等。为提升采集配置的效率,日志中心提供了一系列便捷的功能,帮助用户快速而准确地完成配置:
日志路径预览:支持逐级预览物理环境中的日志路径,确保用户能够准确选择目标路径,避免因路径输入错误而导致的日志采集问题,从而提高采集的准确性。
日志预览:用户可以实时预览物理环境中的日志内容和格式,这一功能有助于用户更好地理解日志结构,确保采集配置的合理性和有效性。
日志过滤:通过配置过滤规则,用户可以精确控制采集的日志数据。只有满足特定过滤条件的日志才会被采集,这样不仅满足了用户的采集需求,还有效降低了日志采集后传输带宽的占用,提高了系统的整体效率。
基于采集配置模板:支持用户基于现有的采集配置模板快速完成新的采集配置。此外,用户还可以将当前的采集配置保存为模板,以便在后续的接入任务中重复使用,进一步简化配置流程。
而对于用户在采集配置阶段保存的采集模板,可在模板管理中进行管理,同时也可以在模板管理中直接新增采集模板。
接入第三方 ES 消费日志
如果日志数据已经通过其他工具采集并存储在 Elasticsearch 中,日志中心同样支持直接接入第三方 ES 存储源,以便用户能够轻松消费和分析这些日志数据。这一功能使得用户无需重复采集,能够高效利用现有的数据资源。
数据处理
数据清洗
支持基于 JSON、分隔符和正则表达式三种字段提取方式,实现日志数据结构化,提升日志可读性。
同时支持使用已有的字段提取模板,日志中心内置了 20+套清洗模板,并支持用户自定义提取模板,不仅可以提升日志清洗的效率,还可以助力企业日志标准化建设,有利于减轻落地推广的难度。
支持用户在数据清洗步骤中,直接将字段提取规则保存为模板,之后可在模板管理中进行管理,同时也可以在模板管理中直接新增字段提取模板。
数据存储
Elasticsearch 温热分层存储
支持 ES 温热分层,日志接入步骤中,根据数据的访问频率可以对数据进行温、热分层,访问频率高数据为热数据,访问频率低的数据为温数据。温热两层存储模式,节省至少 30%存储成本。
日志归档
除了通过 Elasticsearch 的温热分层技术降低存储成本外,日志中心还提供了 HDFS、腾讯云 COS 和共享目录三种归档仓库的创建选项。用户可以基于这些归档仓库创建归档任务,实现日志的有效归档功能。这使得需要长时间保留的日志能够安全地转移至成本更低的存储设备,优化了存储资源的使用。这样的归档策略不仅降低了存储费用,还确保了数据的安全性和可访问性,满足了合规性要求和业务需求。
创建完归档仓库后,用户可以基于该仓库创建归档任务。当 Elasticsearch 中存储的日志数据达到设定的过期时间后,将自动触发日志数据的归档过程。用户还可以灵活配置日志数据在归档仓库中的存放时长,以便于满足不同的业务需求和合规要求。
对于已经迁移到归档仓库的日志数据,系统提供归档回溯功能,将日志数据重新载入到 Elasticsearch 中,此外,用户可以灵活配置日志数据在 Elasticsearch 中的过期时间,以便有效管理存储资源和数据生命周期。
数据脱敏
日志中心支持对数据清洗后的字段进行脱敏处理,涵盖从全文脱敏和部分脱敏策略,以确保满足各类安全合规要求,同时确保脱敏后的数据依然保持其检索功能的完整性和高效性,不影响日志检索分析工作的进行。此外,针对不同角色,日志中心可以设置是否展示原文,例如后台管理员可以不受脱敏影响。
全文脱敏:支持对提取后的日志字段进行全面脱敏处理。在进行全文脱敏后,相关日志数据在检索时将全部以脱敏形式展示。
部分脱敏:部分脱敏功能支持对提取后的日志字段进行灵活的部分脱敏处理。通过设定脱敏规则,用户可以在日志检索时保留字段的前后字符,而对其余数据进行脱敏展示。
日志检索
日志中心支持通过 Elasticsearch 原生语法和正则表达式进行日志查询,提供近实时的搜索能力。用户可以进行全文检索、跨业务检索以及脱敏检索,以满足不同场景下的需求。此外,系统还提供一键转化为监控策略的功能,简化了监控配置的过程。结合实时日志和上下文能力,用户能够更高效地进行故障排查和问题分析。
QueryString 语法和正则表达式匹配:支持通过 QueryString 语法和正则表达式匹配方式进行灵活的日志查询。用户可以使用 QueryString 语法,简单明了地构造查询条件,以便快速筛选所需的日志数据。同时,正则表达式匹配方式提供了更强大的查询功能,允许用户根据特定的模式高效地检索日志信息。这种组合方式能够满足不同场景下的查询需求,提高日志分析的效率。
关键字全文检索:支持通过关键字进行全文模糊匹配搜索日志,用户可以输入一个或多个关键字,系统将自动检索包含这些关键字的相关日志记录,通过模糊匹配,用户即使不完全记得关键字的准确拼写或形式,也能有效找到相关内容。这种搜索方式极大地提升了日志分析的便捷性,助力用户迅速获取所需信息。
组合条件检索:支持通过与、或、非等组合条件查询日志,用户可以按照需求场景灵活构建复杂的查询逻辑。
联合检索:提供联合检索功能,用户可以关联多个业务系统之间的日志进行综合排查。通过这一功能,用户能够跨系统地整合和分析日志数据,从而更全面地识别和解决问题。
日志聚类分析:支持日志聚类能力,能够将千万条日志数据聚合为十几种格式类型,从而显著提高信息密度。通过这一功能,运维人员可以避免耗费大量时间在重复数据上,快速聚焦于关键信息。
日志上下文查看:日志上下文功能,方便用户查看当前日志的上下文信息,深入了解事件发生的前后关系。此外,该功能还支持对上下文日志进行关键字检索,并提供高亮提示,帮助用户快速识别与当前日志相关的重要信息。
实时日志查看:支持实时日志查看,用户可以随时监控当前设备的实时日志,确保对系统状态的即时了解。此外,该功能还允许用户对实时日志进行关键字检索,并提供高亮提示,帮助用户快速定位关键信息。
一键生成监控策略:支持将当前的检索语句一键转换为监控策略,极大提升监控覆盖率。这一功能使得运维人员能够快速将有效的检索表达式转化为自动监控规则,确保系统关键指标和异常情况得到实时监控。
日志监控
日志中心支持多种异常检测方式,包括日志关键字检测、日志指标数据检测、无数据异常检测和智能指标检测。结合静态阈值、同比策略(高级)、环比策略(高级)、同比策略(简易)、环比策略(简易)、同比振幅、环比振幅和同比区间等 8 种异常检测算法,日志中心能够实现多场景的日志监控。这些强大的检测能力确保了业务的稳定性,帮助用户及时识别和应对潜在问题,从而有效维护系统的健康运行。通过综合运用多种检测算法,用户能够获得更全面的监控视角,提升故障预警的准确性和响应速度。
关键字检测:关键字检测功能支持用户通过自定义检索语句获取符合条件的日志记录,并结合 8 种异常检测算法,实现对日志关键字的全面监控。
日志指标数据检测:日志数据格式化清洗转化为指标时序数据后,可当指标数据进行使用,并结合 8 种异常检测算法,可实现日志指标的监控。
无数据异常检测:无数据异常检测功能支持用户监控自定义时间段内的日志采集情况,当在设定的时间范围内未采集到任何日志数据时,将自动触发告警。
智能指标检测:智能指标检测功能提供了先进的日志分析能力,使用户能够迅速而清晰地识别日志中的异常变化。系统会自动根据特定格式的日志数据进行量统计,从而判断是否存在异常情况,包括突增、突减、数值偏离或格式变化等。
日志告警处理
支持触发阈值后的告警处理策略配置,支持自动分派、自动关闭、自愈处理以及自动转工单的处理方案,并且可以根据通知场景配置告警通知的频率以及方式。
如果对嘉为蓝鲸告警中心的告警能力感兴趣,欢迎点击了解☞☞告警全生命周期管理
总的来说,日志中心以其全面的功能、高效的性能和智能的监控能力,为企业提供了一套完整的日志统一管理解决方案。它不仅能够帮助企业实现日志数据的集中管理和高效利用,还能够提升运维效率和系统稳定性,是企业运维排障中不可或缺的重要工具。
直达原文:【可观测系列】产品剖析——日志统一管理
评论