写点什么

智能运维 VS 传统运维|AIOps 服务管理解决方案全面梳理

  • 2022 年 5 月 06 日
  • 本文字数:7396 字

    阅读完需:约 24 分钟

云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的 AIOps 开发者生态。

运维服务管理的问题与挑战

数字化转型背景下的 IT 运维

随着业务的不断创新发展,敏捷开发、容器化、云计算等新技术的应用越来越多,与此同时,业务系统架构也变得越来越复杂,传统运维工作将会面临更多、更大的挑战。因此,确保 IT 系统的持续健康是保障用户体验和业务发展的基础。在上述背景下,云智慧将运维存在的挑战分为人员、流程、技术三个维度:


  • 人员方面:现阶段,IT 运维人员总是被动开展工作且重复性操作较多,在面对数百上千设备以及快速迭代的技术栈时,因缺乏标准化的管理,使得愈加庞大的业务系统难以应对;

  • 流程方面:IT 运维类的管理制度标准化程度不足;运维人员工作负荷也难以量化体现且缺乏认同感。

  • 技术方面:在面对庞大的设备和系统数量时,企业缺少自动化技术手段进行管理,导致企业对业务系统的可用性预警不足,运维工作被动。


IT 运维中面临的现状与痛点

基于上述对运维背景及挑战分析,云智慧将企业 IT 运维典型问题归纳总结为以下几个方面:


  1. 流程与制度不完善,存在沟通灰度;

  2. “建转运”过程不规范,效率低,运维工作量化能力弱,无法形成考核依据;

  3. 缺乏运维知识沉淀;

  4. 缺乏 AI 技术在运维服务管理中的应用。


新一代 IT 服务管理是业务与技术发展的必然

在上述的挑战下,运维服务管理的理论和工具都有了新的变化。ITIL 4 引入了服务价值体系的概念,它可以为组织提供一个强大的、统一的、以价值为中心的方向。随着企业数字化的转型和发展, IT 服务共享中心正在成为企业 IT 的重要服务支点,如何在工具中体现对共享服务型组织的支撑,成为了新一代 ITSM 的重要方向。 在今年的 ITSM 工具关键能力报告中, Gartner 提到了一个重要的能力-AITSM,即人工智能在 ITSM 中的应用,例如基于人工智能的虚拟助理机器人,为用户提供对话式自助 IT 服务;结合知识库实现自动解决方案推荐;基于深度学习的类似工单等应用场景。以上均为新一代 ITSM 的技术发展和应用。


此外,ITIL 4 在新时代客户体验、价值流和数字化转型的背景下,重新提炼了更多的 ITSM 实践,也采用了新的工作方法(如精益、敏捷以及 DevOps),也促使 ITIL 跟上了新时代。云智慧在理论和前沿技术的指引下,推出了云智慧数字化服务管理解决方案。


解决方案

  • IT 服务管理体系—夯实组织信息化建设基础


数字化运维的完整场景为当业务用户方提出服务需求时,IT 运维组织则会通过各种管理流程和活动来提供服务促进价值共创。 一个企业信息系统价值的实现,30%在于建设,70%在运维,稳定运行才能发挥业务价值。 数字化运维服务管理的核心价值在于标准化、规范化、精细化管理。 从业务用户角度出发,便捷地申请服务请求、申报故障以及提出新需求是他们关注的重点。与此同时,问题解决过程快速,过程可视化,对于业务用户来说也是良好的服务体验。以上过程的实现背后则需依赖于科学的管理流程和运维组织支撑。 从 IT 运维组织角度出发,规范化、可量化 IT 服务则是重中之重。因此,运维管理则需要提供服务目录以及考核运维流程指标。此外,配置管理也是整个运维场景中的核心要素,它会为其他流程提供配置项信息数据,支持其他流程运转。例如,在变更管理流程中,配置管理可以提供变更影响分析,帮助评估变更风险和召集变更评审人员;同时,配置管理也为运行综合分析和自动化作业、容量管理等场景提供基础数据。



  • 分层设计的产品架构,不断改进优化产品


基于上述的理论知识和用户实践场景,云智慧研发了数字化运维管理系统(DOSM)和 CMDB 两款产品,从产品维度云智慧将其分为了两个产品线,在实际落地的使用场景中,这两者亦是松耦合关系。


下图架构图从系统技术实现的维度来介绍数字化运维平台的产品能力和功能模块。云智慧将产品所要实现的具象功能,抽象为一个个彼此独立又互为关联的模块,并将这些模块根据业务及数据逻辑进行分层组合。


  • 系统设置层:提供了通用性的系统自身管理能力,包括统一用户中心和日志审计,接口能力等;

  • 能力引擎层:是 DOSM 的核心能力层,为整个产品的流程、表单、消息通知、搜索、内容聚合打下基础;

  • 业务设置层:是一些业务功能的配置和实现的能力,如运维管理流程的配置,以及一些通用业务,如例行工作、值班等;

  • 功能模块层:数字化运维服务管理功能落地,提供标准流程和表单模板,日常运维小工具等;

  • 统一门户层:提供了个性化的内容聚合、大屏数据展示、报表报告分析等功能。


下图右侧是与云智慧自身产品或第三方产品的集成能力,包括 ChatOps 机器人、自动化产品、监控工具、门户、告警中心、移动平台等。



  • 专业化、标准化的 IT 共享服务中心,降本增效


IT 共享服务中心是 IT 服务管理的一个重要场景,也是 IT 集约化发展的一个表现。现如今很多大型企业组织都在将 IT 独立出去,促使其从成本中心走向利润中心,共享中心不再仅仅为一个特定的业务服务,而开始考虑服务成本。以上则必须先通过标准化服务来提升服务质量和效率,降低服务成本。从整个企业组织层面来看,IT 共享服务中心可以避免重复建设 IT 服务管理平台和人员投入。对内,统一管理基础架构和资源可以有效地支撑组织业务运转; 对外,提供标准化的服务能力和流程共享(如资源申请,账号开通,业务报障等)可以实现 IT 服务端到端的价值交付,从而提升数字化体验,以及赋能业务发展。



  • 内置最佳实践,快速帮助企业规范化 IT 服务管理


云智慧数字化运维服务管理产品,基于 ITIL 4 最佳实践,内置了多个 ITIL 标准管理流程,包括事件、问题、变更等多个常用流程,从而降低了用户配置难度,让用户能够快速上手实践。此外,产品还支持本地化私有部署和 SaaS 购买模式,本地化部署现在已完全支持容器化部署,具备了更便捷的部署和服务扩展模式。


以上 ITIL 中的常用流程均可以在云智慧数字化运维服务平台中开箱即用,以此帮助企业组织高效处理、规范运维过程。下面为几类高频运维场景实例:


  • 服务请求:主要是对外提供标准化服务,像申请虚拟机、邮箱扩容、域账号重置等,标准化的服务请求可以让 A 和 B 用户同样的服务体验;

  • 事件管理:目标是快速恢复业务,第一时间解决故障,尽量减少业务中断时间;

  • 问题管理:主要目标是查找根因,找出解决方案。流程主要是通过重现故障,调查分析,找到解决方案;

  • 变更管理:变更是运维中的常见场景,变更是为了解决故障,提升可用性。该流程主要是做变更风险评估,变更方案评审,业务验证等一系列流程动作。



  • 多渠道的提单入口,提升用户报单体验


对于终端用户来说,系统的易用性是能够推广出去被广泛使用的基础。云智慧数字化运维服务管理平台提供了多渠道服务入。云智慧 DOSM 采用了 H5 技术,实现了所有移动终端和应用一致的用户体验。此外,在移动端云智慧可以支持:企业微信、钉钉、飞书;方便用户随时提交工单同时也方便运维人员能够移动处理和审批工单活动。在 PC 及 Web 页面,云智慧 DOSM 拥有云小慧机器人; 同时,云智慧 DOSM 还支持与监控系统、告警中心以及第三方系统的集成,从而实现了自动生成工单的功能。



  • 智能的虚拟助理,提升用户自助服务体验,减轻一线工作量


云智慧在新一代 ITSM 中人工智能在运维服务管理中的应用也走到了业界的前沿。基于此,云智慧研发了虚拟服务助理(云小慧),云小慧本质上是一个 ChatOps 工具,支持多轮自然语言对话的机器人。内置在 DOSM 中,可以让用户以对话的方式直接获取服务或者帮助用户提报工单。 在传统 ITSM 体验中,用户需要非常复杂的流程才可以完成工单提交(通过打开网页->输入 DOSM 域名->找到需要的服务目录->新建并填写工单->提交工单),而云小慧则通过全新的服务获取方式,让用户与 ITSM 系统的交互方式有了一个巨大的变革。通过云小慧,用户可以直接以自然语言在对话框中说出需求,随后人工智能则会自动回答或提报新的工单。



  • 可视化的服务过程,让流程进度一目了然


IT 服务对大多数业务用户来说,是一个黑盒子。业务用户提出需求工单后,无法通过可视化的服务进程跟进工单详情,致使用户体验度较差。因此,云智慧 DOSM 提供了工单过程的可视化跟踪管理,用户可以了解工单的进度,还可以在工单中与运维支持人员快速进行文字沟通,高效处理工单。



  • 交互式的服务台,提升服务体验


服务台在 IT 组织中,除了存在物理组织,还有一些是虚拟化的组织,甚至还有机器人服务台。服务台作为企业组织 IT 服务的统一入口,是一个管家的角色。用户除了可以通过服务台获取 IT 服务,还可以搜索知识库自助解决问题。云智慧的 DOSM 内置了一个真实的服务台模块,帮助企业管理用户和呼叫中心的坐席人员。 坐席人员可以通过 DOSM 的 Web 端即时或延时响应用户,第一时间解决问题或将无法处理的工单分派到后端的运维支持组织,并反馈结果给用户。此外,坐席人员还可以直接点击聊天信息,根据用户的问题在聊天界面的知识库搜索和推送知识。与此同时,用户方可以在 Web 页面,或者通过即时通讯工具中的云小慧机器人找到人工服务,关联用户信息并创建工单。



  • 多级服务目录,标准化 IT 服务能力


云智慧 DOSM 支持多级服务目录,可以对 IT 部门提供的所有服务进行分类目录,用户可以通过目录快速获取服务。部分标准服务请求可以结合自动化技术,实现自动交付,从而提升服务能力,降低服务成本。如标准化的虚拟机申请、网络端口开通、服务启停等。



  • 灵活的服务级别协议,保障 IT 服务质量,量化运维人员工作量


服务级别协议是服务量化的基础。云智慧 DOSM 支持灵活的 SLA 设置,通过测量流程节点间或全流程的耗时,来确保服务在约定的时间里完成。此外,DOSM 的逾期提醒和升级处理机制,也进一步保证了服务能够按时交付。



  • 灵活的表单和流程设计,快速定制企业专属流程


ITSM 管理工具众多,市场中有超过 400 个不同的产品。从最基础的帮助台工单工具到高级的自动化的工具,都号称能支持用户自定义流程设计,而各工具间也有较大差距。流程引擎的灵活性,表单模板的易用性,支持的字段类型是否支持触发器,外部接口调用等功能,都决定了用户在使用工具自定义管理流程的可行性和难易度。在 DOSM2.0 版本中,云智慧将表单设计模块的组件进行抽离,支持通过拖拉拽的方式在表单画布上进行设计,提升了产品的易用性;此外,云智慧 DOSM 基于 Activiti 流程引擎,支持分支流程、并行流程、子流程等多类流程;内置 10+表单字段类型,支持字段分组、字段联动以及工单属性页配置,全面满足工单定制要求,可以快速帮用户实现新流程的落地。



  • 分类的运维知识库,沉淀运维经验,提升运维效率


知识库在 ITIL 中是一个重要的模块。知识库可以在管理中持续发挥价值,帮助用户自助服务,提高服务台首问解决率,降低整体运维的人员成本,沉淀运维组织经验。 云智慧 DOSM 内置的知识库,可以结合智能机器人和即时服务台,帮助用户尽快解决问题; 知识库本身也支持了富文本内容编辑,知识的导入导出,知识的审核、发布流程,确保知识的准确性。



  • 灵活的报表分析组件,挖掘运维数据价值


针对流程的 KPI 和日常管理的运维指标,云智慧 DOSM 除了提供开箱即用的 ITIL 常规报表之外,还支持用户进行自定义报表,指定数据源,报表字段和展现方式,进行自定义,同时也支持对报表进行排期,定期发送报告。



  • 统一的 CMDB ,打造动态可靠的配置信息库


CMDB 是指包含每个配置项及配置项之间重要关系的详细资料的数据库,管理所有配置项及其关系,以及与这些配置项有关的事件、问题、变更和发布等信息。CMDB 作为 IT 服务管理里面的核心配置库,会为其他流程为其提供信息,如变更管理流程提供的有关 IT 组件变更的信息、采购流程提供的有关 IT 组件采购信息。此外,CMDB 也为自动化操作提供目标信息,并记录执行历史。


云智慧 CMDB 可以支持数据联邦、调和和同步;灵活的信息模型定义;支持自动发现;具备完善的 API 调用接口,进行数据共享。



  • 准确的配置管理数据,助力多种运维场景


所有 CMDB 所管理的资源一定要有使用场景是建设 CMDB 的核心逻辑关系。要想各种场景被正确执行,就会要求 CMDB 所提供的资源是准确且实时的;这样运维人员才会有动力去努力维护和更新 CMDB 的数据,以确保运维的工作能够顺利开展。


在做故障分析过程中,需要根据配置项管理所提供的基础架构配置方面的信息分析问题和已知错误与配置项之间的关系,并根据配置管理数据库中的信息对事件和问题进行调查和分析,如通过比较基础架构的实际配置与配置管理数据库中的被批准的配置来发现基础架构的缺陷。此外,如果企业需要做大屏数据展示分析,CMDB 可以提供数据支撑。



  • 自动发现,流程控制,数据审计,保障配置数据的准确性


当下有很多企业组织在建设 CMDB 时最终效果均不是很理想,甚至到后来会慢慢废弃。这其中最大的一个问题就在于配置项数据的准确性不够。数据不准确,CMDB 使用价值就越来越。而云智慧主要靠自动发现、流程控制、和数据审计来解决数据鲜活、准确的问题。


  • 自动发现:可自定义采集模板,内置 20+种配置项自动采集脚本;

  • 配置管理流程:通过流程控制,确保入库的数据是准确可信的;

  • 数据审计:通过多源数据比对,数据同步日志监控,同源数据定期校验等方式。



  • 对接告警系统,问题处理更及时


DOSM 对接告警系统实现了基于告警事件的自动以及手动创建工单,使告警处置工作更加流程化与标准化。 同时云智慧的产品支持在创建告警工单时自动生成告警详情并自动关联配置项,大大提高了故障根因分析和故障处理的效率。在多数情况下,监控工具出来的告警并没有业务信息、管理员等重要数据,这些都需要 CMDB 的数据进行补充和丰富,这样出来的告警信息能够帮助运维人员更快速地了解告警的严重程度,从而更快速地处理故障。


云智慧的价值与优势

  1. 形成完备的解决方案与服务体系


云智慧运维咨询涵盖运维各领域体系建设与专项咨询。围绕 ITSM 落地的三驾马车( ITSM&CMDB 管理咨询、ITSM&CMDB 工具以及实施交付)打造了全套、全流程的解决方案与服务体系。通过与业界顶级合作伙伴一起完成新一代 ITSM 工具 ——DOSM&CMDB 的落地与交付实施。此外,云智慧提供全面的解决方案,以 ITSM、CMDB 咨询服务为核心服务体系,在顶层给予企业客户专业指导。与此同时,云智慧融合了 DOSM、CMDB 等标准产品,将顶层规划融合产品进行落地实施,从而将理念转化为现实。



  1. 提供一站式 ITSM 管理咨询服务


云智慧可以提供一站式 ITSM 管理咨询服务,主要包含以下几方面:


  • 权威授权:AXELOS 官方授权的中国首家 IT 服务管理咨询合作伙伴;

  • 标准制定:中国智能运维国家标准制定单位之一;

  • 专业团队:咨询顾问来源于世界 500 强企业或者专业咨询公司,人数 20 人以上;

  • 经验丰富:资深顾问平均从业超过 10 年以上。



  1. 统一运管服务、提升服务价值


  • 价值总结:降本增效;

  • 规范流程: 赋能内部运营过程,提供流程化的综合管理平台;通过采纳最佳实践,提高 IT 内部服务水平,以及服务级别的持续保持; 根据 IT 的组织架构明确运行维护流程。

  • 提高质量,提升效率:完善知识库功能及行业运维知识积累; 大大缩短故障处理周期; 让行业核心技术人员摆脱重复性工作,专注技能提升。

  • 提高客户满意度: 为服务台管理员提供调查工具,用以征求客户对相应服务水平的满意度反馈,从而提高客户满意度。 明确日常工作目标,建立以客户为中心的服务体系。

  • 建立标准服务管理模式: 建立行业 IT 服务管理运转模式,明确 IT 服务管理的服务计量。 通过自动处理加快问题解决过程,使 IT 各部门提高生产效率、改进服务交付的能力,为关键业务服务提供稳定、高质量、低成本的可靠的服务。


案例分享

  • 案例一:打造某科技公司 IT 服务管理平台


企业背景:该科技公司无标准服务体系,全流程无法追踪且 CI 信息杂乱无管理工具


解决方案:云智慧通过咨询+产品实施的方式,覆盖数据治理、流程治理、工具补齐全面改善运维体系。以 DOSM 产品为基础,通过顶层咨询规划优化客户流程,实现业务系统价值增效



  • 案例二:构建某能源集团共享服务中心


企业背景:该企业主要存在以下问题:


  1. 企业难以统一管理,需要有效的隔离进行数据保密;

  2. 企业子公司众多,面向不同租户,需提供个性化服务门户;

  3. 企业缺失统一的账号管理,账号管理流程不规范;各系统间用户数据不统一,准确性差,难以满足与集团统一身份认证系统对接的各应用系统账号管理的问题;

  4. 企业之前的流程系统架构老旧,难以支撑数字化转型;

  5. 企业流程标准不一,无法有效规范业务服务;存在报表定制能力不足等问题。


解决方案:云智慧提供的解决方案主要包含以下几方面:


  1. 平台引入微服务、大数据、智能化算法等技术搭建平台技术架构。提供多租户、交互式及自助式等多种服务模式,部署至集团公司 PAAS 平台,从根本上提升集团 IT 运维管理的规范性、安全性和先进性,更好的发挥平台对集团业务应用的统一运维、有机协同、集中管理、共享集约的支撑作用;

  2. 优化完善 IT 服务管理体系文档,对 ITSM 系统功能进行梳理迁移 ,扩展新功能满足财务共享中心服务需求,实现新老 ITSM 系统平滑迁移。



  • 案例三:建设某运营商 CMDB 管理平台


企业背景:该企业主要有以下需求:


  1. 保障基础数据的唯一性与准确性,实现 IT 资源逻辑关系的横向整合与纵向贯通;

  2. 应用新技术,实现配置数据动态收集,为进一步提高运维管理水平及应用智能运维等新技术提供效率奠定数据基础;


解决方案: 云智慧提供的解决方案主要包含以下几方面:


  1. 规划设计 35 类配置模型,梳理 IaaS、PaaS、SaaS 三层配置管理并落地到 Cloudwise CMDB;

  2. CMDB 新增变更影响分析模块,根据变更对象及上联业务模型关系,输出受影响的服务、中心、系统、专业数据,提供给变更工单,作为变更评审的参考之一;

  3. 通知参与变更评审的对象。 利用 CI 之间的关系可以有效地将相关的 CI 连接起来,从而为故障和问题的解决、变更的计划和执行提供更好的参照。


开源福利

云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。


点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。


GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish


Gitee 地址:https://gitee.com/CloudWise/fly-fish


万元现金活动: http://bbs.aiops.cloudwise.com/t/Activity


微信扫描识别下方二维码,备注【飞鱼】加入 AIOps 社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~



用户头像

全栈智能业务运维服务商 2021.03.10 加入

我们秉承Make Digital Online的使命,致力于通过先进的产品技术,为企业数字化转型和提升IT运营效率持续赋能。 https://www.cloudwise.com/

评论

发布
暂无评论
智能运维 VS 传统运维|AIOps服务管理解决方案全面梳理_运维_云智慧AIOps社区_InfoQ写作社区