行业方案|“机场”行业智能运维解决方案介绍
背景与现状
2022 年 1 月 7 日国家出台了“十四五”民用航空发展规划, 规划表明 2021-2025 年中国民航业将呈现两阶段发展,其中 2021-2022 年是恢复期和积蓄期,2023-2025 年是增长期和释放期。在第二阶段,将重点扩大国内市场、恢复国际市场,提高对外开放水平, 加快提升容量规模和质量效率等,以此全方位推进民航高质量发展。
中国民用航空局机场司副司长张锐,针对民航机场目前发展面临的困难与挑战提出了一些思考。过去依靠机场产业发展速度与规模上取得的成绩,如今许多深层次的矛盾开始展现,主要包括:
超 30 个机场处于饱和甚至超饱和状态;
受机场保障资源和运行效率的制约,效率难以保证;
大量服务设施设备调度不科学带来的能耗浪费;
不安全事件和事故征候发生率仍然高企;
针对上述问题,机场行业需要持续深化信息化全场景渗透、数字化运营品质监控以及需通过 IT 系统对业务流程进行固化、优化以及再造。
在 2019 世界交通运输大会民航安全与发展论坛上,中国民用航空局机场司副司长张锐发表了《推进四型机场建设实现机场高质量发展》的主题演讲,针对民航机场目前发展面临的困难与挑战,提出了对推进四型机场建设的一些思考。四型机场即建设平安、绿色、智慧、人文的全面发展机场。
平安:安全生产基础牢固,安全保障体系完备,安全运行平稳可控的机场;
绿色:在全生命周期内实现资源集约节约、低碳运行、环境友好的机场;
智慧:生产要素全面物联,数据共享、协同高效、智能运行的机场;
人文:秉持以人为本,富有文化底蕴,体现时代精神和当代民航精神,弘扬社会主义价值观的机场。
当前机场信息化现状主要存在机场资源瓶颈、IT 建设滞后、管理面临风险等问题。因此,打造数字化最佳体验机场是机场信息化发展的必然趋势。
痛点分析
基于以上背景分析,当前机场行业主要存在以下痛点:
系统故障处理慢:部分机场因自助安检闸机故障,致使百名旅客长队,最终导致误机;
人工巡检繁琐:机场机房分布远,巡检周期长,只能看出明显告警,无法识别具体问题;
系统管理困难:IT 资产变更频繁且种类多,变更申请流程不完善导致系统管理困难;
设备故障发现晚:部分机场设备系统故障,致使值机、安检等业务均受影响,最终导致被约谈;
第三方应用多:网站、App 等第三方平台逐渐增多,可自助值机接口稳定性也逐渐变高;
工单错乱维护难:由于缺乏统一的工单管理,导致故障报修工单无合理分配制度,全靠人工维护。
解决方案
方案优势
云智慧提供面向“智慧机场”领域的一体化智慧运维实践。过往项目覆盖 700+机场运维和项目团队人员角色;对接 100+机场各类厂商的资源设备;梳理了 100+机场应用系统的配置项;对 10000+航司监控指标进行集中管控。
云智慧聚焦为机场行业提供高可用 IT 服务,为保障 IT 服务的质量,云智慧围绕服务等级协议 SLA 展开各种运维工作。以此同时,云智慧在可用性要求、安全合规、运维技术、管理模式、服务分级、业务要求、运维职责划分等方面也做了不同的优化。
与此同时,云智慧提供一个体系(简洁高效的运维体系),两种能力(基础设施服务能力、业务系统服务能力),三项原则(安全合规、标准作业、快速响应)以及四大工具(运维管理、智能自动、数据可视、配置管理)进一步保障了机场行业 IT 运维的稳定运行。
高可用性:因行业特殊性,对 IT 服务提供服务(包含应用系统、设备、数据等资源)的可用性提出更高的要求,往往通过采用主从、集群等多种技术手段及有效的运维工作来满足这一要求;
安全合规:因机场拥有服务的人员数量大、范围广等特殊属性,故更强调日常运控及应急处置协同效率以及机场安全运行及监测能力;
标准作业:机场对可用性的高要求,传递到运维工作则集中表现为日常运维维护工作的标准化、精细化,包含标准作业程序、标准维护程序、应急操作程序及配套的“一体化指挥控制”;
建转运:机场往往面临新航站楼、交通枢纽站、新系统等的“建转运”工作,故需要有组织、有步骤接收新运维对象且需快速建立运维机制;
智能自动:机场 IT 资源在划拨调配、日常维护、故障处理时工作繁重且对可靠性要求高。此时,运行团队要求稳定但很难灵活扩张,往往需要在标准作业以及自主可控的基础上实现智能化、自动化水平,以此提高工作效率,降低人为风险。
主要场景
云智慧运维体系提供全套运维服务体系化建设、全域 IT 基础设施集中式管控、全程用户体验端到端追踪、全景运维态势立体化可视等主要场景服务。
运维服务体系化建设
建设目标
建章立制
资源盘清
关系构建
关系构建方面,云智慧通过模型关系将模型与其他模型有效的关联,为各模型下实例资源间关系的建立提供规则和约束。此外,模型拓扑管理方面通过定义全局模型拓扑图,从而在一个视图中以全局视角直观展示各个模型之间的关联关系。与此同时,云智慧以业务层级拓扑为基础,从业务和应用的视角来组织和维护软硬件、网络、服务等资源的配置项信息和关联关系。
管理优化
工具赋能
智能客服:利用自然语言识别技术,帮助用户解决常见问题,快速响应用户的同时极大减少运维工程师工作量;
坐席监控:可实时查看坐席的接待数、对话数、平均响应时间、平均对话时长、消息总数等信息和某个坐席的详情数据;
移动提单:灵活地对接企业微信、钉钉等企业 IM 以及客户自有 APP,支持用户通过移动端访问智能客服和在线服务台,支持用户自助提交工单、查询工单处理进度;
服务目录:提供服务目录的统一定义和管理功能,为企业的服务提供统一的、一致准确的信息源,为其他服务管理活动提供支撑;
流程表单:提供可视化工单流程定义面板、丰富的可视化控件和功能强大的表单设计器,能够满足各种场景下的工单定制要求;
知识库链接:平台内置大量知识条目,集中管理历史沉淀经验及常用场景知识,便于知识应用即查即用,提升问题解决效率,减少对专业人才的依赖;
工单看板:对 IT 服务管理中涉及到的各类工单数据进行直观监测,实时展示服务风险点、服务质量、服务效率以及服务水平,帮助管理层从全局视角对 IT 服务的质量进行感知与管控。
IT 基础设施集中管控
全景监控
通过 Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、串口、ODBC/JDBC、自定义 SQL、URL、WMI、Java 等连接方式对上百家厂商的服务器、网络设备、操作系统、存储、虚拟化、中间件、数据库、Web 服务等资源配置数据和指标数据进行统一采集。成熟的建模能力和指标采集适配能力,为多类型设备全方面运维管控提供强有力的数据源支撑。
统一纳管
云智慧解决方案支持对业务及服务器、数据库、中间件等离散的系统资源统一纳管,全年 365 天 7*24 小时实时展示各项资源和应用系统的整体运行情况,可基于系统架构构建系统资源的层级化拓扑, 便捷查看上下依赖关系,例如应用所依赖的容器、虚拟机。拓扑节点的颜色展示各对象的健康程度,使原来错综复杂的运维管理工作变的简单和轻松。
告警降噪
告警管理能根据告警相关的基本规则,通告自动学习的算法能力,如:集群合并、IP 合并等把同一时间与该告警相关的告警进行了聚合。此外,通过对告警的智能分析,使机场可以避免无效告警、告警风暴的发生,快速对故障的排查和定位,全面提升告警管理能力。主要包含以下能力:
调度人员通过告警感知大屏 7*24h 及时获取告警;
调度人员通过大屏的拓扑联动功能判断问题影响的范围;
紧急情况时调度通过系统负责人模块联系系统管理员,加速响应及处理速度;
领导及调度在值班管理模块直接查看各单位值班人员。
此外,知识库可联动工单系统,告警时依据告警源合并字段进行匹配,在推荐知识页签展示相似度最高的五个关联知识;点击知识标题可以查看知识详情。
自动巡检
为预防事故的发生,运维人员需要每天对大量设备逐一巡检。在传统运维模式下,运维人员必须依次登录设备完成巡检,不仅耗费大量的时间,而且手工操作的方式容易出错。自动巡检可以通过快速聚焦问题以此提升效率。
机场可根据实际需要在自动化作业场景中添加相应的场景,并将操作和编排任务与运维场景关联。
内置多种常见的操作系统、数据库、中间件等巡检模版,能够满足日常巡检需求。
支持灵活配置巡检指标以及阈值,高亮展示异常指标,异常情况一目了然。
支持定时执行策略、巡检通知、自定义邮件模版以及邮件附件类型,保证巡检任务有计划地执行。
用户体验追踪
业务流畅性追踪
通过云智慧 300+全球分布式监测节点以及国际先进的 Web 监控技术,主动追踪基于云端架构的网站真实用户访问链路, 深入监控 CDN、主机、运营商、API 等各个环节的性能指标。对于管理决策者、业务职能部门可以快速了解用户画像,包含归属地区、运营商,以及哪些地区访问量高、页面访问量等情况,以此帮助航司做出较优的运营决策。
监控页面显示任务状态、监控频率、监控类型、异常以及恢复情况,此外,还显示平均可用率以及响应时间等概要信息,帮助用户快速定位故障异常、及时掌握恢复信息,让用户直观了解监控任务在局部区域是否产生性能波动和异常;
支持邮件、手机短信、语音电话、App 推送等多种告警方式,支持多种告警频率的连续提醒,确保告警消息及时送达;
对监控项目的故障消息、系统消息以及提醒消息进行汇总展示,并可以查看消息对应的历史快照信息。
应用性能追踪
云智慧提供基于端到端服务请求链路细化追踪、分析代码及 SQL 执⾏性能,提供应用拓扑及代码层事务追踪。针对单次请求,可通过基本信息和业务拓扑发现潜在问题,追踪慢元素和堆栈详情,分析错误和异常信息及堆栈,分析 SQL 语句、API 调用与请求参数等的执行情况。
资源图谱追踪
云智慧配置资源图谱故障场景,主要是依托 CMDB 的层级拓扑,对故障 CI 进行定位。一方面打通事件与 CMDB,将 CMDB 中的相关 CI 关键属性信息如 IP 地址、主机名、应用标识、负责人、电话、资源的所属位置等丰富到告警事件中,加强告警的易读性和准确性。另一方面,通过告警生成工单,在处置的过程中,关联 CI 保障数据的准确性,对故障进行闭环管理,加强 CMDB 配置数据的流动性和唯一性。其目标就是通过配置资源图谱拓扑可视化能力,帮助运维人员对故障进行根因分析、故障自动处置,快速恢复业务。
日常日志追踪
日志采集依托云智慧在智能算法、日志分析的能力,以此帮助各大机场采集、整合以及分析分散在各类服务器主机、容器、网络设备中的日志,在业务系统运维监控方面做好事前预防,减少问题发现和故障排除的时长,提升异常检测的准确率。
全景运维态势可视
云智慧全栈式监控场景能够对 IDC 基础设施到上层业务的全方位监控。主要包括以下内容:
对面向机房动力环境设施、服务器硬件、操作系统、网络、应用、业务等运行健康度状态、性能状况进行实时监控与管理。
平台提供有代理(Agent)、无代理的(Snmp、Wmi、Syslog、Jdbc 等协议的方式)来监控方式,当代理采集的监测指标无法满足用户的监控需求时,用户可以通过云智慧产品提供的开放采集能力,开发相关指标来满足个性化的监控需求;
云智慧当前用户的数据中心均是两地三中心模式。为满足业务连续性的需要,云智慧提供分布式、跨中心部署方式,以此满足用户多中心监管需要。
案例分享
机场类一体化运维管控平台项目
项目背景
该机场航班、航线、客流量呈现爆发式增长,业务运转事件及用户体验问题频出,业务及 IT 缺乏数字化管控措施。
服务内容
对基础设施、网络链路、应用系统性能进行统一监控,快速跟踪分析应用性能问题至故障根源;
支持每日 30TB 的数据量实时采集、处理与分析,以业务场景进行碎片化数据逻辑关联;
统一双航站楼的 IT 服务管理流程。
民航类一体化运维管控平台项目
项目背景
该航司高层缺少运营指标分析的决策支持,导致一线生产部门缺少业务威胁和风险,信息化建设成果缺少展示和宣传。
服务内容
解决航班、飞机、空勤、旅客、成本收入、综合信息六个方面数据分析和展示;
使用了大数据技术进行建模和预测;
建立了大屏和移动端分析视窗;
实现异常检测、根因分析、关联分析;
民航科技类一体化智能运维项目
项目背景
目前运行在其核心平台上的应用采用微服务架构,以容器模式进行部署运行。会导致应用碎片化程度更高,分布式依赖关系更复杂, 故障发现与定位分析更加困难。
服务内容
通过建设智能运维提升业务连续性、保障业务高可用,同时促进 IT 运维降本增效。覆盖包括
业务节点:4000 个
微服务节点:10000+
流入日志:100 亿条/日、
流入数据:53 万条/秒
处理性能:500MB+/秒
日增数据:20T
FlyFish 开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
如果喜欢我们的项目,请不要忘记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,我们需要您的鼓励与支持。此外,即刻参与 FlyFish 项目贡献成为 FlyFish Contributor 的同时更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址: https://gitee.com/CloudWise/fly-fish
版权声明: 本文为 InfoQ 作者【云智慧AIOps社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/f52abc376a5f0dcb9b9574dd0】。文章转载请联系作者。
评论