智能运维应用之道,告别企业数字化转型危机
云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的 AIOps 开发者生态。
面临的问题及挑战
数据中心发展历程
2000 年中国数据中心始建,至今已经历以下 3 大阶段。早期:离散型数据中心 IT 因以项目建设为导向,故缺乏规划且无专门运维管理体系,此外,开发建设完的项目均是独立运维维护,因此效率低下。中期:各行各业进行了应用大集中,逐步按照标准化体系建设了生产中心、灾备中心,且引入“两第三中心”的模式。此外,该阶段开始有了系统规范的运维体系,具有代表性的建立了 IT 服务体系、监控体系等运维框架。另一方面,也通过流程实现跨部门的运维协,有了清晰的开发、测试、运维的边界,各专业领域内的运维工具蓬勃发展。后期:自 2015 年后,由于 IT 技术的高速发展,业务需求的不断变化,数据中心逐步向多活混合云环境进行演进,从金融行业逐步扩展到运营商、能源、政府、军工等行业。数据中心开始围绕服务和资源的供给提供运维保证,运维工作逐步走向一体化、自动化,最终向着智能化演进。本篇文章表述的解决方案则主要是针对自动化运维场景。
数据中心现状分析
因当前大部分数据中心运维环境较为复杂,且 IT 技术栈具有多样性,故而导致运维对象愈发庞大,运维人员每日的运维工作越来越复杂繁琐。经统计,上述复杂的运维工作中的 70%均是规律且重复性的,因此导致人力投入成本越来越大。此外,因缺乏标准化运维工作流程,所以运维工作质量只能通过技术人员个人主观因素来判定。另一方面,大部分企业运维工作人员沉底下来的知识无法有效复用,交接工作流于形式,因此导致运维工作效果一般。
除上述 70%的重复性运维工作外,还有 30%的运维工作是属于复杂且操作风险高的。企业经常会因为技术人员个人因素造成了业务的隐患。整体运维工作效率偏低,带来了业务中断时间长,应急处置效果低的问题。
自动化运维挑战与最佳实践
基于以上数据中心的运维问题,云智慧根据自身在自动化运维的多年经验,总结以往在进行自动化运维项目建设时遇到的挑战。如云智慧很多客户建设了自动化运维平台,但平台本身缺少开箱即用的场景;此外,部分客户项目的建设周期过长,且缺少行业最少实践的参考。
云智慧的 Automation 平台在各行各业都有交付,且将各行各业常用的自动化运维业务场景沉淀成了标准产品组件,真正做到了开箱即用。如海量的巡检指标,应用发布的标准化编排,灾切的最佳实践等,均能大幅缩短自动化平台建设周期情况下,给出最佳实践供企业参考选择。
传统的自动化平台大部分以脚本调度功能为主,缺少了各种无代理协议的远程采控机制。云智慧基于运维中台化的理解,打造了专门的全栈采控中心 cdc,在支撑脚本类的调度功能以及开机即用的功能下,还支持了各种硬件、虚拟化、容器、微服务、业务类等封装好的采控 API 接口。如各类虚拟化的创建、扩缩容接口,硬件 IPMI 的采控协议,K8S 的接口等。 云智慧采用分布式大数据架构和智能化调度引擎解决了高并发处理能力问题,支持百万级管理节点高效率高文档的工作状态。
以往的自动化工具缺少标准化和开箱即用的服务调用接口,现今其他运维工具很多缺少场景联通,容易形成自动化数据孤岛。云智慧依托自身的运维中台,具备开箱即用的标准化服务接口,不管是其他运维工具调用自动化工具,还是自动化工具接入第三方运维工具的数据,均可以满足。
解决方案与功能场景介绍
自动化运维平台架构图
下图为云智慧自动化运维平台的架构图,分为以下几个纬度:
纳管对象层:包含数据中心日常运维的全栈对象,例如操作系统、数据库、中间件、物理服务器、业务应用、网络设备、存储、云以及虚拟化资源等。
执行通道层:针对下图被管理的对象,云智慧采控中心 cdc 提供了 agent 代理模式,以及像 ssh、ipmi、snmp、jdbc、smi-s、jmx 和各类 api 等的无代理采控协议。
服务管理层:云智慧具有标准化的流程管理功能,如统一脚本管理、操作编排、脚本执行管理、定时任务、各类查询功能。上述通用化功能均会为上层自动化运维场景提供底层支撑能力。
运维场景层:该层包括应用发布管理、自动化巡检、软件安装、合规建立、运维工具箱、应急处置等。
互联互通:该模块中的运维工具可以是第 3 方的工具。云智慧作为智能化全栈运维的厂商,除了自动化模块外,同时也具备 IT 服务管理、监控、配置、可视化等运维通用化工具。因此可以帮助企业客户建立一整套的运维中台最佳实践。
功能场景介绍
高效的应用发布管理
由于传统的应用发布大部分依靠手工进行,所以发布一个系统大概需花费 1-2 个小时。使用云智慧的自动化应用发布发布后时间可缩短至 10-30 分钟有效的提高发布效率。云智慧自动化运维平台整体是基于 DevOps 理念,目的是加强开发、测试和运维之间沟通、协作和集成,实现应用发布交付的标准化。此外,平台整体发布模型采用“环境”+“组件”的设计,同时提供可视化的编排功能。云智慧可视化编排引擎使用的是自身运维中台中服务编排的通用化能力,支持复杂的串并行,节点可调用不同环境和组件,具有全局参数化等能力,同时支撑完全自动以及半自动化等不同场景。最后,平台支持节点处跳过、重复执行、暂停等通用化细节处理能力。
另一方面,云智慧自动化运维管理平台还提供发布驾驶舱功能、各种数据看板,可进行全局概览。云智慧借助自动化平台通用化能力,如命令、脚本集中管理等,支持有代理和无代理模式,细粒度、全方位的进行权限管理控制,来确保所有运维操作安全可控。
便捷的 自动化 巡检
云智慧自动化平台中内置了全栈式巡检模版,从常用的操作系统、数据库、中间件到网络、硬件、存储、云、容器、微服务等,完全地做到了开箱即用。依托云智慧运维中台指标体系能力,企业也可以自行维护编辑。 巡检执行可以手工触发,也可以依靠定时任务自动触发。传统巡检依靠人工进行,每次巡检时间 30-60 分钟不等,自动化巡检可将巡检时间降低至 1-2 分钟,此外,巡检报告还可以自动发送给管理或者领导,并将问题巡检项标注出来。巡检指标与基准值的比对设置是依托云智慧运维中台中指标管理下面的阈值管理。该项支持传统的静态阈值、动态阈值和巡检指标相结合,还支持巡检结果单人/双人复合,可按照业务系统纬度或者设备类型纬度进行自动巡检工作。此外,还可结合云智慧知识库,给出异常巡检项处理办法参考。 巡检还支持异常巡检项生成工单功能,企业可按需进行使用。云智慧运维中台指标体系拥有良好的高并发能力,可以同时支持百万级管理对象同时并行巡检。
灵活的运维工具箱
运维工具箱的关键技术在于开箱即用的原子工具沉淀。云智慧拥有 10 多年自动化运维经验,具有丰富的内置开箱即用原子化工具集。 企业运维管理人员通过云智慧提供的工具集,只需要输入指定的参数(如 IP 地址,文件系统目录等)自动化工具便可自动执行,还可同时并行调用多个工具或并行执行多个对象。此外,上述工具集后期是可以编辑维护的,企业可根据自身需求补充常用原子化工具集,经过审批后方能发布上线使用。所有自动化操作调度的执行过程都有日志留痕,所有的操作都支持后期审计,还可与企业堡垒机进行对接。可减少人工直接与生产环境进行交互,降低由人工误操作产生的生产风险。
安全稳健的批量 自动化
批量自动化主要应用于银行日间、日终的跑批业务,因此需要时刻保证整个自动化平台安全稳健的运行。并且在整个跑批过程中,需要全程监控,出现极端系统灾难后,要有灾难恢复机制。云智慧的自动化平台是可以取代 control-m 的功能的,除了常用的功能外,还支持批量的拓扑分析。在做 control-m 迁移时,可以将 control-m 导出 xml 文件中的关键要素字段与云智慧平台进行比对映射,然后将其转化成 exl 字段文件。此外,平台支持承接使用原系统上的脚本,将转化过的 exl 文件导入到云智慧的自动化平台里,可以自动生成批量调度的拓扑视图,再进行后期的参数化调整,便可以完成迁移工作。
一键式灾备切换
灾备切换的业务场景因涉及预案、灾切模型、签到等,故较为复杂。关键点在于数据中心级的灾备切换和灾切演练,一键式灾切是为应对突发事件时提升应急处理能力。自动化编排能力可以支撑复杂灾切流程编排。像灾切里面涉及到的环境、数据一致性、网络连通性、配置一致性检查,云智慧都有相关的功能做支撑。此外,云智慧额外提供沙盘演练的功能,整体的灾备模型可以与目标解耦,满足流程复用的要求。还有单独的移动 pad 作为灾切的控制端,体现一键切换,切换过程中的各项数据都会实时监控,反馈到灾切大屏上。
安全合规审计
云智慧提供开箱即用的行业基准,例如 CIS、PCI DSS、SOX 等,一套平台即可提供不仅仅是物理服务器和虚拟机,还包括数据库、中间件和网络等数据中心资源的合规审计。此外,还提供当前和历史的漏洞风险趋势详细报告,建立配置标准并监视变更情况,通过 8,000 多个开箱即用的自动化操作流程在问题修复时大大缩短修复时间。与此同时,还支持数以千计的设备类型、型号组合。
一键开闭市(券商)
对于证券行业,每天需要定时执行一系列业务操作,如开市流程、闭市流程。上述业务场景便要求运维人员需要根据业务规则在不同设备上的应用系统进行操作运行。此业务流程比较复杂,同时具有串行、分支、判断、并行、聚合、循环,为了降低流程的复杂性,需要各种子流程;此外,业务规则判断也比较复杂,需要根据业务数据来判断流程执行是否有错误;与此同时,在中间步骤执行错误时,需通过人工修复错误或者有管理员角色确认后,方能继续进行。云智慧提供的自动化运维平台对对流程执行有严格的安全控制,如权限控制、时间控制等。除了一键开闭市,还能为券商清算业务提供清算前准备工的自动化业务能力。除了日常运维工作,还有一部分业务操作也可以使用自动化工具来实现。
软件 自动化 管理
云智慧自动化运维平台中自带软件介质管理平台,可上传管理各类软件的介质版本,支持并行在多个目标对象上执行安装部署步骤。与此同时,平台提供丰富的交互参数,文件参数、加密参数等。除了安装功能,平台也支持卸载启动等等,依托云智慧运维中台中采控中心的通用化能力。
补丁 自动化 管理
为预防系统漏洞带来的安全隐患,系统运维人员必须定期为操作系统安装补丁。但在传统的运维模式下,系统运维人员很难直观了解每台机器的补丁安装情况,因此需要针对每一台机器执行漏洞扫描并根据扫描结果为每台机器安装补丁。这种手动操作的方式,不仅耗费大量时间,还容易出错。自动化作业产品提供补丁管理、主机扫描、补丁安装等功能,不仅能让运维人员了解服务器的健康状态,还能够根据扫描结果为服务器安装缺失的补丁,及时解决安全隐患。
云智慧的补丁自动化管理功能可以和合规审计功能一起使用,修复一些缺少的补丁问题。重点是在批量并发执行,主动扫描并发现当前主机操作系统、数据库、中间件补丁安装情况。与此同时,云智慧会定期更新补丁库。
应用发布一体化场景
应用发布的一体化场景是自动化运维的融合场景,主要出现在实际的发布场景中,场景包含了 ITSM 工具、配置管理工具、自动化发布工具、统一监控工具等多种工具。应用发布的一体化场景是典型的一体化协同联动场景。任务由导入生产排期信息同步到 ITSM 系统,经过 ITSM 审批,确定发布任务;修改任务状态(从待审批到待发布)时,ITSM 会通知监控系统在发布期略过该业务系统的监控,等待发布时间后,可以由人工触发或者自动触发进行自动化发布;发布过程中,监控系统会过滤掉该业务系统的告警,发布完成后,发布任务状态同步回传给 ITSM 系统,ITSM 结束发布流程发起配置流程,经过一系列的请求、采集、比对最终更新完该系统的最终配置信息到配置库里,一体化流程结束。
流程即服务应用场景
流程即服务的联动场景主要体现的是各类服务请求可以通过自动化平台进行自动交付的场景。企业通过服务门户选择各类服务请求,服务请求的工单经过审批后,按照不同业务场景触发自动化平台的 API 服务接口,ITSM 工单中的参数同步到自动化平台中,自动化平台按照业务场景进行自动交付,自动交付完成后回传结果至 ITSM 平台,可以大幅缩短交付时间。像日常虚拟化资源扩缩容服务请求,标准化数据变更,标准化环境变更等。
故障处置一体化场景
故障处置一体化的场景里面涉及预案、处置流程编排、以及与 ITSM 联动。正常触发故障处置一体化的场景可以由管理员手工触发,也可以由监控告警自动触发,触发之后根据系统内置的预案(如进程启停、清理空间等)生成一张 ITSM 处置类或者变更类的工单,根据紧急度、影响度多种因素来影响 ITSM 流程流转的节点分级,包含紧急变更、一般变更、标准变更,每种类型涉及到审批人及审批流程均有不同。审批也可以包含自动审批、人工审批等,最终审批结束后触发处置工具进行自动化处置工作,调度结束后回传结果到 ITSM 工单进行审核。
案例分享
典型案例-某银行
企业背景:该企业由于数据中心的运维对象被管设备对象大概有 3000 多个,企业运维技术人员每天都要做多次完整的巡检,每次完整的巡检要花费 1 个小时以上,巡检完的结果也没有特别好的展现形式,都是填到一些制式的表里,他们的需求特别清晰,都是自动化巡检。
解决方案:云智慧经过 3 个月的项目建设,纳管了全行 3000 多的软硬件运维对象,用云智慧的自动化系统 1 分钟之内就可以完成 1 次完整的巡检工作,巡检完的结果,通过云智慧的巡检大屏幕以及数据看版,还可生成完整的巡检报告。如果在巡检过程中发现异常的点,还会推送到该企业的一体化告警平台,进行告警。这个项目是一个短平快的项目,依托云智慧内置的开箱即用的巡检指标,在极短的周期完成测试上线工作,而且直接提升了日常运维的效率。
典型案例-某制造业集团公司
企业背景:该企业在数字化转型过程中,发现缺乏体系化、规范化的运维流程。日常的运维工作过度依赖运维人员的能力和态度,风险比较高,有新的运维人员进来,如果技能不达标,会造成极高的业务风险。为了解决上述问题,该企业打算利用自动化平台来减少对运维人员技术能力的依赖,包含降低由于运维人员态度造成的风险。
解决方案:云智慧经过大概半年的建设,该企业整体运维工作效率提升了 70%,降低了 30%日常运维的的操作风险。企业应用发布纳管了 56 套应用系统,应用发布的自动化率在 90%以上,每月常规发版次数超过 80 次。网络自动化模块,纳管了 500 多台网络设备,交换机、防火墙、路由器、负载均衡等都均被纳管,自动化率达到了 95%,月均常规网络变更 40 多次。除了网络设备,该企业还纳管了 2000 多个像操作系统、数据库、中间件的运维对象,自动率达到了 98%,运维工具内的原子化工具集超过 2000 种,每个月运维工具箱使用次数超过 4000 次。此外,该企业还做了灾备切换,将最重要的 30 套系统纳管进来了,灾切的自动化率在 55%,在 60 分钟内就可以完成数据中心级的灾备切换。这 30 套重要的业务系统,还做了超过 100 套的应急处置预案,主要是固化下来一些日常的故障自愈场景。自动化平台内包含超过 100 种以上的软件版本介质包,日常软件安装的自动化率超过 99% 。
价值与优势
自动化 运维全栈式采控能力
依托云智慧运维中台中全栈的采控能力,不光可以对各类平台设备,像操作系统、数据库、中间件进行采控调度,还支持各类异构的自动化作业,比如除了常见的各类脚本,还支持 http 作业、c/s 架构的软件、as400 的作业,像 400 属于金融行业比较老的系统了,但是这些都可以支持,还有像数据库的 SQL、存储过程的作业、邮件的、FTP 等等这些类型的作业都可以完美支持。
成熟的开箱即用 自动化 业务场景
云智慧提供的自动化平台,拥有成熟的开箱即用的业务场景,能极大的缩短项目的建设周期。下图常见的 9 个场景,加一体化的场景,都能比较好的支持,像应用发布、自动巡检、运维工具箱、灾切、批量、网络、应用处置、安全合规、软件安装。
安全可信的技术平台
云智慧提供安全可信的技术平台,云智慧的全栈产品都是自主研发的,规避了安全缺陷隐患。可以在国产化信创环境上运行,像国产化的 cpu(鲲鹏)、国产化的操作系统(麒麟、统信)、数据库(人大金仓、达梦)、中间件(东方通、宝兰德)等等。国家近期发布了最新的数据安全法,云智慧的自动化平台符合国家的各项数据安全法规,不管是数据传输、存储、解析等等环节,都安全合规。这个平台经过了 10 年以上的长期迭代,稳定率超过了 5 个 9,支持各类异常熔断、极端情况下的灾难恢复。
开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址:https://gitee.com/CloudWise/fly-fish
万元现金活动: http://bbs.aiops.cloudwise.com/t/Activity
微信扫描识别下方二维码,备注【飞鱼】加入 AIOps 社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~
评论