写点什么

浅谈网络性能之端到端业务质量分析

作者:鲸品堂
  • 2021 年 11 月 15 日
  • 本文字数:4758 字

    阅读完需:约 16 分钟

浅谈网络性能之端到端业务质量分析

导读:


国内电信运营市场竞争逐步加剧,良好的用户体验质量已经成为市场竞争的重要因素。然而随着网络虚拟化、5G 等新技术的应用,客户感知已经演变为端到端的业务感知,有些时候承载业务的所有网络设备都正常,但用户感知却并不理想。因此,如何显著提升端到端的业务感知已经成为运营商亟需解决的重要课题。


本文我们将带来浩鲸科技的解决方案。


1 业务质量分析场景现状如何?


目前需要做质量分析的主流业务有:5G 移动业务、集客业务、家宽业务、物联网业务等,我们先分析下现状:


5G 移动业务

5G 建网初期组网复杂、网络建设和运维存在诸多问题,质量分析优化无有效抓手,急需建立一套以 5G 客户感知为中心的网络质量评估体系。同时传统端到端管理方法无法满足 5G 网络新特性,无法解决 4/5G 网络协同问题,无法快速定位 5G 客户投诉,无法掌握 5G 终端在网表现,无法支撑 5G 新业务体验保障。


集客业务

随着集客业务复杂性和多样性发展,传统的集客业务支撑手段已不能有效支撑端到端业务及网络的质量监控,无法主动感知客户业务的好坏。一方面主动监控能力不足是集客支撑的难点;另一方面在发现故障后如何实现问题快速定位也是长流程的集客业务的痛点之一。


家宽业务

随着家宽应用的日渐丰富和多样化,用户对于网络质量和使用体验要求越来越高。因网络原因导致的用户使用不畅,往往“事后救火”,等用户通过投诉反映了问题,才发现着手处理。同时用户对网络质量和上层应用服务质量要求的提高,对互联网服务质量的监测与控制也显得日益重要。目前互联网感知提升工作仍面临着“感知评估难、指标落地难、两端能力差、协同管理难”等问题,建设性能与质量监测系统,从网络与业务层面提前预见潜在隐患,保障和优化用户感知成为目前急需解决的课题。


物联网业务

近年物联网业务迅速发展。物联网业务承载于无线网络之上,在提供丰富的行业应用的同时也面临着端到端业务实现流程复杂,涉及用户侧系统、终端、无线、传输、数通、核心网、物联网基地多元协同,为客户感知提升提出巨大挑战。


2 我们的解决方案


通过对现状的分析,我们发现围绕“客户端到端业务感知显著提升”的终极目标,运营商亟需从基于网络本身的质量管理向注重客户感知的端到端横向一体化质量保障机制转变,因此建立端到端质量管理机制是确保客户业务感知的关键,是网络性能管理的重要应用之一。


业务质量端到端分析是个全流程的质量管理过程,需实现常态化的性能问题的监控、定位及处理,明确各环节的工作内容和要求,做到网络问题引起的性能问题有人分析、定位,后续处理过程有跟踪。通过对运营商端到端分析场景进行 IT 抽象,我们产品打造了支持全业务类型端到端业务分析的通用应用框架,支撑性能感知劣化的精确定界定位,实现对主流业务客户感知问题的发现、处理、考核评估的闭环管理。


下面我们结合端到端业务质量分析的过程,对通用分析框架的核心能力做详细介绍:


建体系:端到端指标体系


建体系简单来说就是面向不同的分析场景,选取不同的指标构成场景指标体系。在产品打造时发现有两个关键难点:


难点 1:选取哪些指标做分析?

选取哪些指标才能满足分析需求,首先考验的是设计人员对业务的熟悉程度,需要对业务进行高度抽象,能够梳理 KQI 指标的维度、算法、阈值等;其次产品迭代的过程中如何逐步沉淀丰富的指标库,在产品推广时指标随选、快速组合,满足分析需要。


难点 2:指标如何高效的接入、汇聚?

确认指标体系后,如何以最小的工作量、最短的时间实现指标的采集、汇聚计算,同时不同的项目现场如果对指标的算法进行调整时,不产生额外的研发工作。


针对这些难点,我们进行以下实践:


为解决上述两个难点,产品打造了业务无关的通用数据处理框架,设计态对数据模型、指标算法、规则模板等进行全局设计,运行态解析设计态的业务元数据,自动生成指标计算方法和任务,从而将此复杂业务过程的策略包精简设计,实现业务全配置化加载和数据高性能处理。


1) 设计态-指标体系管理:统一设计指标相关管理能力,在指标管理里统一完成 KQI/KPI 指标定义、指标算法、数据文件以及汇聚维度等配置;并通过告警规则配置,同时支持静态的固定阈值和基于 AI 的动态阈值的配置,满足指标告警阈值的配置需求。


设计态-指标体系管理


2) 运行态-指标处理:数据处理分为解析入库、指标计算、汇聚、预警四个过程,需要支持基础粒度指标按时间、空间及复杂组合维度向上高速汇聚,并实时监控预警。我们在产品打造时将各个处理模块解耦,并且额外设计了大脑模块,统一加载设计态完成的各个环节需要处理的指标配置,生成数据处理策略,协调各模块完成数据处理任务。运行的各个模块通过消息驱动,保障数据处理的时效性和准确性;同时支持大数据、数据库等多种计算方式,保障数据处理的高性能。


运行态-指标处理


3) 运行监控:设计统一的 360°监控视图,分为 IT 视角和业务视角。IT 视角主要以任务处理的环节出发,监控每个环节及其前后依赖任务执行情况。业务视角主要从专业、厂家、对象等维度出发,监控相关任务执行情况。


运行监控-IT 视角


定规则:发现问题、定界定位


业务质量分析具体过程主要分为两步,发现问题和定界定位。发现问题阶段,通过确定各 KQI 指标的质量评估门限值,将关键指标或业务量的波动异常定义为异常事件,开展定界分析和问题处理。定界定位阶段通过选取不同的定界定位方法,得到定界定位的结果。在产品打造时有一个关键难点:


关键难点:问题发现和定界定位方法千差万别,如何产品化实现?


由于定界定位方法多样,导致分析的维度、分析的流程、规则多样,比如 4G/5G 业务采用“两面六阶法”,即控制面分为初始注册、PDU 会话建立、移动性注册更新阶段(可选),业务面分为 DNS 解析阶段、TCP 握手阶段和 HTTP 业务阶段,通过各阶段指标体系开展 4G/5G 端到端分析,将问题定界到用户/终端侧、无线侧、核心网、互联网侧业务平台等网络节点并进一步输出质差原因。


4G/5G-两面六阶法


而物联网又采取“七元四阶”法,通过端到端信令分环节拆分,对物联网端到端问题定位到用户侧系统、终端、无线、传输、数通、核心网、物联网基地一个或几个专业进行分析处理,从而实现物联网端到端业务质量全流程无死角的分析。


物联网-“七元四阶”法


针对上述难点,我们进行以下实践:


综上可以发现,分析的过程与业务强相关,产品如何高度抽象并与业务解耦就成为重中之重。经过多次论证,产品打造了一套与业务无关的通用、可配置分析引擎,能够将复杂的分析过程通过配置化实现,核心服务能力有:分析场景设计、评价模板设计、分析区域设计、维度关联设计、大脑模块设计。


  • 核心能力 1:分析场景设计


分析场景设计可以简单的分为分析场景实例管理和分析流程设计两部分能力。产品打造时,我们首先将所有的分析场景进行实例化,管理和维护场景的基本信息,包含场景名称、场景分析维度、周期、分类等。


其次是分析流程设计,我们将问题分析的过程即定界定位的方法以流程配置的方式实现,整个分析流程由 N 个评价分析节点组成,每个流程节点(评价模板实例化后的节点,评价模板设计在核心能力 2 中做详细介绍)又是一个独立的评价分析子流程。这样设计可以将复杂的定界定位流程原子化,能够将多样的算法均通过配置的方式实现,同时不管以后算法如何调整,我们只需要将分析的子节点做一些配置变更即可,不需要代码开发。


以 5G 手机浏览器响应成功率分析场景为例,浏览器成功率分析过程是先将可能存在的问题定界为:HTTP 建立、TCP 建立、DNS 查询三类。其次 HTTP 建立有问题,再定位为 SP 服务器问题、SP 用户/终端问题;TCP 建立有问题,再定位为 TCP 服务器问题、TCP 用户/终端问题;DNS 查询有问题,再定位为 DNS 服务器问题、DNS 用户/终端问题。如下图,根据上述定界定位算法,我们选取相应定界定位的评价节点,配置出详细的分析流程。同时每个评价节点也可以钻取到对应的评价模板,查看每个节点分析的子流程(详细的评价模板介绍见核心能力 2)。


分析场景设计


  • 核心能力 2:评价模板设计


评价分析是问题分析最通用的方法,也是我们这套框架支持的默认方法。分析的过程就是通过选取一个维度及该维度下的指标体系,围绕这些指标设计一套判断规则,最终对该维度所有的实例进行打标签。比如比较典型的场景,选取小区维度和小区相关指标,做质差小区分析;再如上述分析场景设计举例的 5G 场景,如下图,其中的 HTTP 连接成功率分析节点,通过选取业务小类维度和 HTTP 连接成功率指标,进行连接成功率评价分析。


我们打造评价模板设计能力时,采取和场景设计一样的方法,同样以流程配置的方式实现,每个评价模板由 1 个评价根节点、N 个维度节点、N 个规则节点组成。评价模板设计分为三步:

1、评价根节点配置:定义评价模板基础信息和评价标签判断逻辑;

2、维度节点设计:定义维度权重,约束下级规则节点总得分;

3、规则节点设计:选取不同的指标和判断算法,得到规则节点的得分,同时为了提升产品适用场景及智能化能力,产品同时支持多种算法选择,比如:支持分段分布的“静态阈值”、基于我司 AI 平台的“动态阈值”、线性分布规则等。评价模板设计完成后,评价节点总得分根据每个规则节点的得分叠加各个维度的权重计算得到。

评价模板设计


  • 核心能力 3:分析区域设计


考虑到相同的分析场景在不同省份落地时,分析的数据范围肯定不一样,为了防止出现定制化数据开发工作,我们就需要进行分析区域设计。根据不同的分析诉求,圈选数据范围,形成分析区域,最后再将分析区域与分析场景关联,从而约束分析场景的数据范围。分析区域设计功能设计时,考虑到圈选的数据种类多样,单一方式往往无法满足要求,因此产品支持列表手工关联、模板导入、GIS 圈选等多种方式,提升区域设计效率。


分析区域设计


  • 核心能力 4:维度关联设计


分析场景中的各评价分析节点,对应的维度可能存在不一致的情况,因此需要提前建立维度对象与维度对象的关联关系,这样才能将多个分析节点在数据层面串接起来,精准分析每个维度对象的问题。但是我们分析后发现,不同分析场景可能共用相同的维度关系,这种关系可能一直客观存在,并不依赖于场景,因此关联关系的建立要独立于场景,单独管理,避免重复配置。同时,产品为了提高关系绑定效率,支持手工关联、批量模板导入、外系统接口采集等多种方式。


维度关联


  • 核心能力 5:大脑模块设计


大脑模块是整套框架的核心运行中枢,负责对接极简设计-指标体系,实时监测分析场景需要处理的底层指标汇聚进展消息,数据具备后大脑读取设计态定义的分析流程配置,获取分析判断逻辑,自动计算得到场景分析结果。分析结果包含:每个评价节点的得分和评价标签(优良中差)、场景的质差列表、质差原因和处理建议等;


大脑模块设计


结果可视:端到端业务质量可视化呈现


对于分析结果的呈现,不同客户有不同要求,因此产品与大屏设计器结合,不同的分析场景视图,通过拖拽组件或者选取大屏模板快速编排,不同项目落地时可以根据需求进行微调,无需代码开发。产品最终以图形化、大屏等多种方式直观呈现端到端业务质量,同时能钻取分析的结果,获取处理建议和详细问题报告等。


5G 端到端业务质量视图


业务质量分析明细钻取


问题处理闭环:质量问题派单、闭环处理


分析后发现的质量问题,最重要的是能根据责任部门或责任人进行派单处理,同时要对问题工单跟踪处理进展,督促及时解决。产品打造时,我们将派单模块与产品责任体系模块结合,责任体系将运营商的管理职责进行 IT 化管理,维护责任人与责任范围(责任田)的关系,派单模块从责任体系中获取责任人与责任田(资源或者问题标签)的认领关系并自动派单,同时问题处理完成后进行自动校验,问题修复后自动关闭工单。


样例(资源责任体系)


3 写在最后


当前产品已经实现端到端业务质量分析通用框架,绝大部分分析场景均可通过可配置方式快速实现,并且已经在湖北移动集中性能项目落地。在基础框架具备的前提下,继续完善业务包和分析算法,打造出更多亮点应用就成为了下一阶段的重点工作。

发布于: 刚刚阅读数: 3
用户头像

鲸品堂

关注

全球领先的数字化转型专家 2021.03.16 加入

鲸品堂专栏,一方面将浩鲸精品产品背后的领先技术,进行总结沉淀,内外传播,用产品和技术助力通信行业的发展;另一方面发表浩鲸专家观点,品读行业、品读市场、品读趋势,脑力激荡,用远见和创新推动通信行业变革。

评论

发布
暂无评论
浅谈网络性能之端到端业务质量分析