openEuler 社区开源项目:CPDS(容器故障检测系统)介绍
容器故障检测系统 CPDS (Container Problem Detect System) 是由北京凝思软件股份有限公司(以下简称“凝思软件”)设计并开发的容器集群故障检测系统,该软件系统实现了对容器 TOP 故障、亚健康状态的监测与识别。
2022 年 11 月,凝思软件正式将该项目开源至 openEuler 社区。
背景介绍:
随着近几年企业数字化发展浪潮及云原生技术的普及,低时延和高并发的线上场景频繁出现在企业日常经营中,业务创新的需求也在倒逼企业不断运用新兴技术手段。现如今,容器技术被广泛应用于人工智能、大数据、边缘计算等场景,作为轻量化的计算载体,为更多的场景赋予高度的弹性与敏捷性。
业务规模的增长,容器集群规模不断扩张,IT 运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。目前业内对容器集群故障的检测方案主要基于集群组件状态检测、服务入口监控、自定义接口检活等,具有一定的局限性,难以对服务的亚健康状态进行检测与识别。处理方式也缺乏故障的诊断与执行策略的制定,难以处理一些关键、核心故障。
针对目前云原生领域存在的问题,凝思软件(LINX SOFTWARE)发起了 CPDS(容器故障检测系统)开源项目,该项目开发的系统实现了对容器集群的故障检测、诊断与策略执行,解决了行业内的一个核心痛点问题。
技术路线:
容器集群异常总体为三大类,即:集群基础服务异常、集群 OS 异常、业务服务异常。
系统架构:
CPDS 系统技术架构如下图所示。其中信息采集模块通过节点、容器信息采集程序从集群基础服务、集群系统、业务容器服务等多层面进行关键数据采集,并上报异常检测模块;异常检测模块完成数据预处理后基于异常规则对采集数据进行异常检测,完成后将检测结果数据进行上传诊断模块;诊断模块基于诊断规则进行节点、业务容器的故障/亚健康诊断,并通过用户交互模块进行可视化诊断结果展示。
未来规划:
CPDS 由 CloudNative SIG 进行开发维护,计划在 23 年下半年发布第一个 R 版本,提供对 openEuler-22.03-LTS 的支持。
项目地址:
https://gitee.com/openeuler/Cpds
关于凝思
北京凝思软件股份有限公司(以下简称“凝思软件”)由“中国 Linux 先行者”宫敏博士于 2016 年创办,是国内先进的国产安全操作系统厂商,以“实现国家大型基础设施行业基础软件国产化安全化”为使命,致力于研发生产“高安全性、高性能、高稳定性”的基础操作系统软件及相关产品和服务,在操作系统层面保障生产及关键业务系统的安全稳定运行,目前已成为国内大型基础行业国产操作系统的中坚力量。
凝思软件拥有安全操作系统、容器系统、分布式存储、虚拟化管理平台、安全云桌面系统、大数据平台、可信验证系统、内网主机安全监管软件、网络高可用软件、Windows 应用运行平台等系列产品。
评论