多活数据中心链路智能调度场景
一、背景与挑战
在当前互联网迅速发展的大背景下,不论是企业、银行还是大型金融公司,域名依然是用户访问互联网业务通信过程的关键环节。作为互联网最重要的基础设施组件之一,互联网上几乎每个活动都会以 DNS 查询开始,是各个应用连接的一个纽带。利用 DNS 来进行负载均衡的链路管理和业务的区域调度也是我们日常运维的常规内容。
DNS 服务在整个互联网中占据着非常重要的地位,一旦 DNS 服务出现问题将是灾难性的故障。比如 2009 年著名的 519 事件,主要是因为域名互相攻击造成 DNSPOD 宕机,之后请求的压力全部转至运营商服务器,致使南方六省的服务器全部崩溃,导致整个南方六省断网。由此可见 DNS 在互联网业务中的重要性。
同时由于企业和金融机构对业务连续性和稳定性的高要求,需要高质量的运维服务作为保障。人工运维已经无法满足现阶段业务管理场景,而如何实现多个数据中心流量负载和服务优选,如何提供快速不中断的解析服务,如何实现智能解析、解决用户跨网访问等难题,已经成为了技术部门致力于思考解决的重点问题。
二、解决方案
为了应对以上挑战,智维数据根据多年的运维服务经验,进行了以下解决方案的设计,方案由数据收集、数据仓库、数据融合、预警告警和智能分析处置 5 个模块组成,满足 DNS 智能调度,提供更可靠、稳定和合理的流量调度。
逻辑架构如下图所示:
数据收集
通过流量镜像方式实现互联网区网络流量采集。再通过 API 方式将 DNS 设备配置读取收集。在后续数据融合模块会将两个相对独立的模块进行数据层面的融合,避免存在数据孤岛和分析层面单一的问题。
数据仓库
将收集的流量和配置数据进行初始化和自动同步操作,将收集的数据进行建模分类统计入库,数据类型划分不同的分析维度,如网络、业务、资源和比例等,并定期自动更新。
数据融合
通过相对孤立的监控设备和生产设备,两大设备联动融合,完成业务监控自动化配置,自动完成应用定义。定义识别信息包括由细到粗:域名(业务)+IP 地址+服务端口+线路名称+物理位置等信息。
预警感知
基于监控目标的历史运行状态,自动生成变化的基线告警,同时结合异常检测算法,二次精确计算当前基线偏离是否属于异常检测。当面对解析服务中断、用户跨网访问,解析比例不协调等问题时,自动发现异常行为及时处理解决,降低故障的影响,最大化保障资源服务可用性。
智能分析处置
当触发异常事件需处置分析时,往往依赖于运维人员的能力、经验,监控系统也相对独立,突发事件处置缺少明确方向,一方面需要付出较多的沟通和定位问题的时间成本;另一方面导致事件处理时间过长,影响被放大。
智维数据系统具备了基于内置场景化的诊断分析,当异常事件发生时,可进行自动化分析,并直接将根因结论及处置建议推送至自服务平台,大大提升突发事件的处理效率。
三、应用场景
我们通过实际场景来进一步理解几个模块的应用过程。
— 链路调度可视化 —
解析分布
智维数据提供各线路域名下访问状况统计分析,包括:域名解析比例、IP 版本比例、运营商比例、地域比例等指标进行实时/历史运行数据的统计和分析;
还包含带宽用量、高带宽占用的应用/IP、运营商链路质量、网络连接数量、数据包率,Top 统计(IP、应用、协议、域名)等指标信息。运维人员通过对这些指标的可视化监控,可快速掌握链路域名健康状态和服务可用性情况,为优化域名的服务提供数据基础。还能及时发现域名下是否存在大量跨运营商的行为等异常情况,避免因跨运营商解析影响用户体验。
也能对域名下实际解析比例与 DNS 配置比例严重不符情况进行分析,周期性统计优化策略。
解析分布报表
智维数据提供了解析量地域分布报表、解析量报表、跨运营商访问报表、月度资源调度报告等报表数据,对运维人员优化解析策略提供长期数据支撑。
链路智能调度
智维数据解决方案实现了不同线路间的智能调度,最大化保障资源服务可用性。当默认线路发生故障时,可甄别并触发告警,第一时间感知异常并得到自动分析,给出合理有效的处理建议。
以下为链路调度基本判断分析逻辑:
根据最优监控点模型,智能选择监控节点,保障数据采集的快速准确。选择与资源、线路最接近,且性能最优的监控点,为调度决策提供有效的数据依据。
以下为链路智能调度分析报告,从报告中可以看出:
1、在 2 月 12 号 21:09 由于“A 中心的联通 01 线路”出现异常流量突增;
2、主要原因为某一通讯对大量流量访问导致,流量异常时段网络质量相对良好;
3、建议将流量比例分配至 A 数据中心联通 02 线路以及 B 中心联通线路,比例参考建议值;
4、一键生成可下发的配置。
自动化调度
自动化调度基于以上真实流量数据以及 DNS 配置策略相比较,将存在解析异常的情况生成优化建议推送至内部处置平台,再由内部平台完成策略更正执行。(例如:上图中的建议是如何调整,对应到 GSLB 设备上就是如下命令。执行完成后可以通过 NPM 可视化监控判断切换效果如何。)
四、结语
智维数据的 DNS 自动调度方案还可以结合灵眸智能运维平台,基于最新 AI 算法及内置专家知识库实现故障自动化分析,获得最佳的应对方案。我们希望通过结合最前沿的技术能力,能最大程度地帮用户减轻运维负担,基于网络流量视角赋能运维管理,提升数据中心整体运营效率和运维能力。
版权声明: 本文为 InfoQ 作者【智维数据】的原创文章。
原文链接:【http://xie.infoq.cn/article/ec8df0bd12ce0969af28fbbc9】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论