写点什么

【核电科技企业】构建一体化服务器智能运维平台,助力降本增效

作者:嘉为蓝鲸
  • 2024-10-25
    广东
  • 本文字数:3258 字

    阅读完需:约 11 分钟

原文链接:核电科技企业】构建一体化服务器智能运维平台,助力降本增效


某核电集团科技公司是大型核电集团下属的全资子公司,主要从事工业、能源、城镇领域自动化、数字化、智能化系统软件和设备的研发、设计、集成和服务。


作为大型核电集团的全资子公司,该公司支撑集团的运维工作。随着集团的高速发展、业务系统规模迅速扩大,运维工作日益艰巨,公司安全运维中心不断探索在日常生产运维工作中使用的各类平台工具,以提高数据中心的整体运维水平。


01

现状与挑战

随着业务的数字化转型,技术系统逐渐从专有化向国产化转型,从传统集中式向开放分布式 PaaS 化转型,从单数据中心向多数据中心转型。业务上要求信息系统快速地迭代,用户问题能更快地响应;技术上 IT 对象复杂化对稳定性保障工作带来较大冲击;成本上单位用工费用增加,复杂业务带来更多的人力消耗和资源消耗。业务对 IT 提出更高的响应要求:

  • 业务迭代快,对于开发和运维的版本发布提出更高的频率要求;

  • 响应要求高更多业务从线下转到线上,IT 响应速度直接影响用户的工作开展;

  • 人工为主的运维模式已无法满足数字化转型下的业务发展,人力消耗不断增加

  • 国产化和云原生技术应用,IT 对象数量变多、种类变多、架构变复杂,复杂的应用架构对运维能力提出了更全面的要求,以便更快发现故障和定位问题。


02

建设目标

该公司携手嘉为蓝鲸,采用嘉为蓝鲸一体化运维 PaaS 平台,利用 PaaS 技术实现平台层,采用“平台+应用”的建设模式,打造一体化服务器智能运维平台的项目目标。以一体化平台为基础,按照“能力+场景”思路,构建一个可快速迭代的“1+N”(1:一个平台,N:全面场景)IT 运维支撑体系,实现运维数据共享、能力开发、敏捷迭代、智能运维、快速支撑。基于中心能力可快速构建 N 个专业应用及场景,满足各专业、各运维团队运维需求。


03

建设内容

通过建设服务器智能运维平台,纳管了数千台服务器,围绕系统运维、自动化巡检以及基础运维自动化三大方向,基于 PaaS 平台底座,在底座之上实现了操作系统、虚拟化平台、数据库、存储的配置管理,补丁漏洞管理、安全基线管理、自动化巡检、作业自动化以及可视化大屏能力,为未来持续建设运维的可观测、服务流程以及数据与智能夯实基础。


服务器智能运维平台落地后,该公司成功实现预期效果:


1.解决运维管理痛点

通过平台的漏洞修复设置、对接第三方云安全产品和 CMDB,同时根据任务关联的对象和补丁进行匹配,既精确又高效地完成补丁更新和漏洞修复,自动化漏洞修复工作整体效率提升 66%


2.加强对安全基线的管控

基于服务器智能运维平台构建 Windows/Linux 安全基线管理工具,制定各类服务器的安全基线,并进行扫描和加固,基线检查自动化率提高 100%,基线检查工作整体效率提升 1500%


3.解决日常巡检的痛点

平台支持通过自定义脚本对 IT 对象进行巡检,既配置了一套标准巡检模板,又能根据使用场景对模板进行个性化调整。巡检一键自动化,巡检报告快速生成,巡检效率提升至 90%以上


4.加强对运维配置的全链条管理

通过平台的配置管理将运维对象抽象为模型和 CI 项,并通过数据关联将运维对象全链条之间的关系管理起来,形成从用户请求的前端服务—>中间件—>后端服务—>数据库—>操作系统—>虚拟化平台—>物理服务器—>机房机柜的端到端的全链条管理架构,搭配上简易直观的 Portal 界面和灵活自助的数据报表,供不同角色进行数据消费。

5.日常作业自动化

通过平台化能力,将各组日常运维的工作自动化,标准化脚本执行过程依托平台实现作业执行的详细记录与追踪审计。共完成了近 40 项日常作业自动化,每次作业人工投入减少 8-14 分钟,作业执行效率提高约 73%


04

建设成果

1.补丁修复即时高效,漏洞全生命周期管理

基于平台安全运维中心运维人员能统一、批量管理 Windows 和 Linux 服务器补丁,从权限颗粒化管理、自定义报表、服务器维度、补丁维度及基线维度进行补丁的统一更新操作,如批量自动化扫描、分发和安装,大幅提升运维工作效率。


同时,平台将漏洞整改过程的多个人工参与环节串联起来,从漏洞扫描发现、筛选分工、核查通报、执行整改、复核总结的多个人工参与环节,通过自动化工具替代了人工逐台修补,漏洞修复自动化率提到 86.5%自动化漏洞修复工作整体效率提升 66%。,保障了应用系统的安全稳健运行。


以往数据中心数千台服务器需要周期性打补丁,但对于每月的大量补丁缺乏高效、稳定机制处理,需要保证补丁最新更新的同时,对应急补丁要求能够灵活快速响应实施。而智能运维平台的补丁管理功能很好地满足补丁更新管理的要求,解决了服务器运维中补丁管理困难的问题。


 ● Windows 服务器补丁更新


● Linux 服务器漏洞补丁修复


● 批量升级 openssl 补丁


2.自动化安全基线检查,加强管控

基于服务器智能运维平台构建 Windows/Linux 安全基线管理工具,运维人员可制定各类服务器的安全基线,并进行扫描和加固。另外,设计的报表可从多维度进行服务器的安全基线配置情况、缺失情况等结果查询,集中展示服务器的基本信息,可视化服务器配置情况。


● Windows 服务器安全基线检查


● Linux 服务器 &中间件基线检查


3.告别手动巡检,巡检一键自动化

巡检是运维管理的基础性工作,该公司安全运维中心运维管理人员需要周期性对各应用系统进行各项检查工作,现依托平台可将巡检、配置、作业等功能通过统一的 API 调度网关整合在一起,形成同步联动的自动化巡检中心,巡检时间大大缩短,有效降低抽检带来的安全隐患。


自动化巡检中心支持自定义巡检脚本和巡检对象,能覆盖即时性、周期性等巡检场景。运维人员可以根据任务计划实现自动化巡检并生成标准可视化报告,从而减少巡检工作量并提高巡检有效性,运维人员能轻松全面掌握 IT 对象运行状态及潜在风险。


以往服务器巡检运维人员编制巡检报告需要 1-2 个工作日,借助自动化巡检中心后,每次巡检人工投入减少 7.9 小时,巡检自动化率提高约 80%+


● Windows 服务器巡检


 ● Linux 服务器巡检


● 数据库巡检


4.配置信息统一管理,提高配置数据准确性

嘉为蓝鲸帮助该公司围绕日常运维工作与自动化建设场景设计了 CMDB 模型,技术属性字段优先通过自动化采集方式获取,管理属性字段需要结合上下游流程获取,平衡人力消耗和数据准确性,实现自动化及管理手段并行。通过建立统一的 CMDB,为自动化巡检、安全基线核查、补丁及漏洞整改等运维场景方面提供配置数据基础,从配置检索、监控对接、自动化作业、变更管理有效性等多个运维活动中提升效率。


嘉为蓝鲸配置管理中心在模型管理中可统一管理主机模型、业务拓扑、组织架构等,支持机房、机柜、网络设备、物理机、存储、虚拟化平台、LUN、操作系统、负载均衡器、数据库、中间件、业务系统、模块、进程、证书等模型的自定义、属性的自定义和关联关系的自定义。


5.作业场景灵活编排,效率提升

该公司通过平台化能力,将日常作业场景编排为标准流程,实现各组日常运维的工作自动化,覆盖范围涉及 AD、DNS、Exchange、IIS、JUD 应用、中间件、数据库各类对象。标准化脚本执行过程依托平台实现作业执行的详细记录与追踪审计,同时脚本作业能沉淀于平台,便于持续优化与知识共享。基于平台作业自动化能力,每次作业人工投入可减少 8-14 分钟,作业执行效率提高约 73%


● 日常作业自动化


6.运维数据直观呈现,运行态势全面掌握

平台提供了运维数据的运营可视化能力,将资源对象数据、监控告警数据、业务流程数据等输出为运维管理大屏,实现动态数据展示,运维人员能实时掌握 IT 环境状态。


7.自主运维,赋能组织转型

服务器智能运维平台使得运维效率和质量大幅提升,团队也实现了自主可控、持续建设、“自生长”的组织体系转化。公司安全运维中心经过嘉为蓝鲸平台基础、SaaS 使用、运维开发等领域的培训赋能,逐渐掌握了自动化编排等自主运维能力,将工具文化逐步植入日常运维工作。


自建设以来,服务器智能运维平台在集团内外进行了大量推广应用,纳管了包括集团、工程公司等成员公司和各基地的 IT 基础服务对象,实现了一体化、自动化运维的初步目标,逐步向工具运维、数据运维、智能运维转变。未来,嘉为蓝鲸继续助力该公司持续发挥智能运维平台优势,深度融合更多业务场景,加快集团数字化转型步伐!

用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
【核电科技企业】构建一体化服务器智能运维平台,助力降本增效_AIOPS_嘉为蓝鲸_InfoQ写作社区