极致用云,数智护航
我们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给我们分析下阿里背后的数字化业务运维安全工程标准及解决方案。
本次分享涵盖了全新发布的数字化业务运维安全工程标准、安全生产解决方案,以及全新升级的产品能力:包括了全栈统一运维、全景监控和全周期安全工程相关产品能力的介绍,也包含了对产品解决方案在客户侧落地的最佳实践分享。
混合云新一代运维
混合云新一代业务运维:数字化业务运维系统工程
在数字化转型的时代背景下,企业在未来 5 年内将会发生 3 个变化:业务规模变大、技术变复杂、组织职能变得更加标准化。
规模会越来越大,从单个业务上云到多个业务上云,云上资源从百台到千台。这些变化带来的挑战是技术风险导致的影响面扩大、范围变广、修复成本变高。如果企业核心业务的稳定性出现了波动乃至出现故障,轻则影响体验、口碑并带来客户投入,重则导致巨大经济损失,甚至威胁企业的生存。
企业的技术栈越来越复杂,从单云到多云,从专有云到混合云;从传统开发到使用新技术开;企业 IT 系统的基础架构也是多云环境、多技术栈并存;不同企业的数据的分析、治理、存储和展现能力也存在差异。这些复杂性带来的挑战是:故障多、定位难、稳定性不可控。已知故障报警量多、未知故障潜伏期长,定界定位慢、响应慢、恢复慢,故障无法根除。而故障的重复发生会进一步导致影响时间、范围和发生频率不可控。
企业组织架构越来越标准化,组织分工标准化,即职责权定义清晰;人员能力标准化,即专业运维知识能力、操作能力、决策能力;协同标准化,即上下级、同级、内外协作标准化;决策架构标准化,即决策架构变化不会的导致技术运维能力的变化。对于刚进入数字化企业来说,组织完全没有达到这个标准能力,带来的挑战就是:协同难,扯皮多、定责难;山头文化,跨组织跨团队协作难;出问题,找不到责任人;责任不清,问题无人解决。
面向这些变化与挑战,在未来 5 年里,企业云上业务的“可靠性”和“连续性”成为企业发展决定性因素。为了助力企业上云、用云过程中应对这些变化和挑战,阿里云混合云平台推出了混合云新一代运维标准:数字化业务运维系统工程,即“全栈统一运维”、“全景可观测”、“全周期安全工程” 三大能力,系统性保障数字化业务安全可靠。
混合云一体化安全生产(安全工程)解决方案
我们的解决方案涵盖了从监控和预警,到应急处理,到日常持续改进的全过程闭环。即产品能力和服务能力从防、监、管、控四个方面进行构建,全方位保障数字化业务的连续性和可靠性。
防-全周期安全工程, 识别故障风险, 构建故障主动防御体系;
从代码源头开始,严控代码质量和上线标准,通过主动防御型策略、专家知识库、智能风险检测、恶意识别、风险审计、高危拦截、集中统一管控、高可用架构等构建主动且完备的事前防护体系,将业务故障拦于门外。
监-全景可观测能力, 建立从业务-应用-云资源全链路监控的能力,发现并定界异常,秒级预警;
我们的产品提供全景监控(业务/应用/云平台)能力。全面支持混合云形态下的客户侧监控需求;提供智能监控(智能基线、黄金指标异常检测等)能力,精准高效地发现故障、并迅速判定故障的级别和影响面,并对故障原因作出定界。同时,我们也提供报警处理和监控运维联动能力,智能化地收敛与分级报警,并联动运维平台触发故障自愈和应用弹性扩/缩容。
管-全栈统一运维, 构建数字化统一业务治理能力;
面向双态的业务应用运维,提供业务中台运维、资源调度、作业支撑、集中集成能力,解决企业运维看、管、控的需求,并实现日常运维数字化、智能化。我们利用应用生命周期中产生的海量数据(系统,监控,日志,调用链路等数据),通过平台大数据分析以及机器学习,主动探测发现系统存在的风险,并且提供自动快速应对能力。可以大幅提升企业整体运维效率。
控-全周期安全工程,快速解决问题,及时应急恢复止损。产品化支持故障复盘与改进计划落地,加固事前主动防御和能力验证;
通过应急控制能力,快速解决问题,及时应急恢复止损,控制故障影响面。并对原因复查改进,加固事前主动防御,并常态进行常态化有效性验证(演练、压力测试),从而形成不断迭代,持续提升的安全生产能力。
数字化智能监控运维安全产品功能矩阵
如图所示,安全生产解决方案需要非常多的产品能力支持,图上显示了支持解决方案背后的产品能力。这是若干年来支持阿里巴巴双十一的产品能力,也经历了多年双十一和日志技术风险战火的洗礼,目前也从属于阿里云云效监控运维领域的产品序列,提供给各位企业客户使用。
云效监控运维域产品能力升级
持续可观测系统化:Sunfire2.0 智能全景监控平台
监控是系统的眼睛,我们通过眼睛看到问题才能做定界和处理。我们监控平台的设计理念是智能化全景监控平台,是围绕阿里巴巴平台技术风险体系中的 1-5-10 理念来设计的。我们通过业务监控发现问题并触发应急响应,这和传统运维理念中对系统资源的监控是有差异的。阿里集团的应急响应不会是因为某一个 CPU 温度过高、某一个磁盘使用率过高或者 IO 过高导致的系统级指标告警引起的。阿里集团有千万级别的线上容器和主机,也有千万级别的监控项和报警。阿里集团监控是以业务监控触发为核心,即业务监控触发报警以后,需要有高效的事件处理中心产品能力,把系统级指标报警、应用级报警和业务级报警有机关联归集起来,把业务报警进行判定和升级送入我们的故障台,故障台向集团发应急通告,整个闭环是从发现到处理到故障升级。发生故障之后,我们可以马上进行问题的定界并恢复,全景监控可以把问题锁定到某一个环节执行预案,再通过运维平台发起预案执行让系统恢复稳定,这个故障就被消灭在萌芽阶段了。
业务监控能力升级
在业务指标监控领域,我们有一个超级武器,秒级监控。做过监控的同学都有体感,监控系统的数据迟延在秒级粒度时,监控曲线往往会有很多抖动。因此,秒级监控必须有智能化的监控策略作为辅助,否则会造成大量误报。把之前的智能基线能力全新升级为黄金指标异常检测能力后,系统会帮我们简便的自动化配出黄金指标,能监控业务的量、率和耗时以及相应的组合策略,不需要配置人工预制,通过机器学习的算法就能自动化通过监控发现业务问题。
今年的阿里巴巴双十一预售已经开始,消费者的热情高涨,特别是薇娅和李佳琪两个大 V 做的直播给我们的系统带来了很大的流量冲击,淘宝的核心业务指标也确实出现了一个微小的波动。我们的秒级监控和智能报警的策略耗时 47 秒,从事情的发生到最后全局预警通告只花了 47 秒,触发了我们系统的快恢,这个故障还没有到故障级别就被消灭在无形之中,以至于很多消费者都来不及感知。
我们的监控能力会尽可能先于用户发现业务的问题。我们在业务链路的描述上和在大屏的展示上都有全新的能力升级,这背后是自研的大规模、分布式监控实施的引擎和智能化工程策略框架的支持。
应用和云资源监控能力升级
业务监控发现问题后做定界,这时就要看运行业务的应用和云资源的状态。我们全新升级应用的发现能力、应用链追踪的能力和云资源监控能力后可以监控客户应用、从业务指标到业务状态、云资源的状态,应用调用其他应用、其他中间件的状态、分析链路、智能化发现应用、第三方组件云资源的关联。
在云原生的理念下,企业采用 K8S 作为自己 PAAS 层的运维方式,能够被开源的 Prometheus 监控的对象可以直接被 Sunfire 平台监控并享受到 Sunfire 智能化的策略和强大的监控计算及存储能力。
报告(事件)和故障管理能力升级
发现问题后需要高效处理,而高效的应急处理需要事件中心和故障台一起联动,让事件有效被管理降低误报减少时间损耗,也可以通过故障台进行高效的应急和响应。经过故障台管理后,很多故障处理过程从开始的零乱不堪到最后整齐高效处理,处理过程由不见变成可观察可度量。
云效监控运维域产品能力升级
100%IT 运维数字化:Normandy 智能运维平台产品架构
上图是 Normandy 平台的全新升级,面向混合云客户做到支持跨云管理的先进架构,自动化运维发布、自动化管理、扩缩容能力,也支持了阿里双十一海量应用运维的挑战。
智能化运维能力升级
运维平台在智能化层面做了三大升级:一是弹性扩缩容能力。应用级智能的弹性扩缩容,根据应用程序的状态指导扩缩容是运维过程中最优的选择,我们 Normandy 平台就能提供这样的能力。针对发布过程中的风险,我们提出无人值守发布的理念,在发布过程中监控发现潜在问题。我们在灰度发布进行到很小范围的时候就可以发现问题,进行拦截避免问题扩大化。真正出现问题的时候平台可以执行原子的自愈能力和开放的能力扩展,做到跟客户的场景相结合,完成客户场景下的快恢操作。
运营指挥大屏
有时需要对于业务和应用做全局态势的感知,我们有运行指挥大屏的能力,对运行系统的数据、工单数据和报警数据做展现,结合客户场梳理到全局态势的感知。在大型活动保障时做运营指挥参谋,这跟阿里巴巴双十一指挥大屏的理念是一致的。
数字化业务安全工程平台—护城河
大家会在新闻中看到,“删库跑路”这类新闻。说明我们的在运维安全层面面临了很大的风险,安全工程平台支持多云平台下运维操作集中管控和安全审计、风险的控制。我们称其为“护城河”,它是我们的核心能力,可以集中管控运维的管理和通路并且符合国家安全等保的标准。
白屏/黑屏化安全防护能力
我们护城河体系可以同时支持白屏化和黑屏化场景,进行安全防护。无论是资源管理授权统一管控、基于多终端运维方式,还是对于多协议运维扶持下保证客户完成安全防护。我们支持在指定的窗口下进行身份认证规避风险。
阿里巴巴集团有数万名技术员工通过操作我们的线上系统,护城河体系完成了整个的风险管控,也为阿里技术体系解决了运维操作的风险控制问题。现在,我们也把它放到云效监控运维的产品体系中提供给企业客户使用。
我们安全审计的能是符合国家等保要求的。通过对过程统一管控记录运维操作的情况发现里面的风险隐患。护城河平台基于智能化的能力做到了基于动态智能化发现潜在风险能力。
案例分享
Sunfire 在能源行业的案例
上图是和我们和国家电网做的战略合作。国家电网的营销系统 1.0 的传统架构迁移到 2.0 面向混合云的架构,大家在日常生活中交电费、查电费、充值电费等都可以通过小程序在云端运行了。国网营销 2.0 系统在云上是由全景监控平台 Sunfire 对数百个应用、数千个业务指标进行全面的监控。国网营销 2.0 系统的报警处理机制以业务监控为入口,快速定界和处理的模式。这种模式使日常的报警量变少了,比如几个月前出现了线上的风险,我们高效的发现触发应急解决问题,国网领导也给我们平台发了感谢信,是对我们很好的肯定和支持。
运营指挥中心在证券行业案例
上图是我们跟证券的头部企业进行合作的应用指挥的案例。这完成了证券指挥大屏在运行企业的落地。在大屏上有证券企业的核心业务流程,从整体的业务看到了应用和资源,线上交易出现问题可以通过多维下算的方式找到问题出现的细分业务领域,能看到运营的状态和云资源利用的状态。
我和客户共建大屏时,首先对客户侧所有的场景进行梳理抽象出业务场景分发到大屏、中屏上,让客户进行不同的问题定位,设计成千上万的业务指标汇聚在运营大屏上,背后是根据客户异构的数据源,不同实效性的数据做自动归置和对齐,这种高效实时的处理机制是我们在证券行业非常好的落地。
本次内容就到这里,我们也希望在我们的新一代运维安全工程标准指引下,我们的安全生产解决方案和产品能力能够支持和服务更多的企业客户,一起让企业的云上业务运维**更加高效、更加可靠、更加稳定!
点击下方链接,查看 AIOps 智能监控解决方案!
https://www.aliyun.com/solution/aiops/index?spm=5176.21213303.1391221.1.29ca3edaL8ftAA
版权声明: 本文为 InfoQ 作者【阿里云云效】的原创文章。
原文链接:【http://xie.infoq.cn/article/e1931218667aa46ba15da8757】。文章转载请联系作者。
评论