写点什么

嘉为科技吴文豪:重塑运维系统,跨越烟囱式建设的陷阱

作者:嘉为蓝鲸
  • 2022-11-30
    广东
  • 本文字数:2760 字

    阅读完需:约 9 分钟

嘉为科技吴文豪:重塑运维系统,跨越烟囱式建设的陷阱

企业运维系统建设经过多年演变,从以商业软件为主,到开源软件的百花齐放,极大的降低了成本,但是在建设过程中,却非常容易落入到烟囱式建设的陷阱,因此如何跨越它,成为了众多企业面临的难题。


今天,我将从嘉为科技 WeOps 产品研发部负责人的角度,和大家共同探讨如何重塑运维系统,跨越烟囱式建设的陷阱。接下来我将分为“开源的崛起”、“没有银弹”、“百花齐放”以及“融合联动,重塑运维工具”四部分来逐一详细介绍,希望能给大家带来一些思路与启发。


以下内容整理自:嘉为科技 WeOps 产品研发部负责人 吴文豪 于嘉为蓝鲸 2022 研运一体创新峰会的精彩分享——《重塑运维系统:跨越烟囱式建设的陷阱》。欢迎感兴趣的读者关注公众号:嘉为蓝鲸,查看演讲回放和下载演讲 PPT。


01

开源的崛起


在我刚进入运维软件开发领域的时候,开源软件并不像现在这么火热,绝大多数的企业使用的都是像 Tivoli、微软的 System Center 这类商业级闭源产品,在当时,我们没法想象,一个非商业级的,没有经过大教堂式洗礼的软件能够像今天一样,给我们的整个行业带来如此大的冲击。


之后在开源运动崛起的大背景下,各领域的运维工具,都出现了优秀的挑战者,他们凭借着社区的力量大量吸收用户,飞速的迭代,对老牌的闭源商业软件发起了挑战。例如基础监控领域的 Zabbix、自动化运维领域的 Ansible、APM 领域的 SkyWalking。


开源运维软件的兴起为企业带来了诸多红利,使得建设成本高、技术黑盒、厂商捆绑等长期困扰我们的问题得到了很好的解决:


1.建设成本变低

曾经的闭源商业级产品大多都价格不菲,而开源软件免费使用的模式,使得运维系统首次建设成本得到了数十倍的下降。


2.技术变得透明

开源软件不仅免费,同时还开放源码,将技术完全透明化,我们可以看到开源软件的实现原理,并自行修改源码的逻辑,满足个性化业务需求。


3.避免厂商绑定

在源码完全开放的背景下,我们不再被厂商捆绑,并拥有了工具软件完全的掌控权。



02

没有银弹


神话中,银弹就是可以让强大的狼人被一击毙命的武器。而这里的银弹,指的是一招制敌,提高数量级的效能水平,而不只是效能有明显改观。


我们期望的运维系统,是能够通过开源运维软件的诸多优势,快速,低成本的建设一个个帮助我们更好保障业务连续性的工厂,工厂之间通过数据网关、业务总线、数据湖等方式进行联动,帮助我们更好的为业务提供服务。


例如:

  • 我们可以在收到告警之后,看到产生这个告警背后的指标和现场日志,告诉我们会影响到哪些业务,他们重不重要,我们应该通知谁。

  • 我们接收到工单后,能够快速的将工单对应的知识,可能使用到的运维脚本快速的找到,在我们尝试执行恢复动作之后,能够看到关联的指标、日志是否已经恢复正常。


可惜的是,没有银弹。而在实际实践过程中,我们也很容易就建设起一套一套的烟囱,这些运维系统之间并没有什么联系。例如:我们想让 Zabbix 的监控数据、ELK 的日志数据、Data Gerry 的 CMDB 数据组合在一起使用,我们将不得不在他们之上,重新搭建一套新的系统。


除了上述问题外,开源技术还给我们带来了许多新的考验:


逐渐黑盒化

由于大量开源项目缺少体系化的培训与规范的约束,随着一些关键人员的变动,整个运维体系的某些元素会出现黑盒化。


维护成本提升

由于开发框架多种多样,以及 Golang、Ruby、PHP、Java 等各种技术栈,开源漏洞,系统 Bug 等问题,虽然开源软件让企业的建设成本降低,但维护成本却急速提升。


数据联动困难

开源软件解决了单一领域的问题,但是没法很好的让数据进行联动,面向业务解决问题,需要独立开发一套软件来进行对接,过程中会出现非常多的 API、表结构兼容性问题。


除此之外,随着新技术栈的出现,企业运维变得更加困难。我们不仅需要面对混合云、Serveless、AI、边缘计算等等新的技术,还要面对 DevOps 文化带来的研发运维体系变革。


企业的运维团队不仅需要思考对内保障稳定运行,为业务提供快速问题定位的能力、资产梳理的能力、标准化运维的能力等。对外要为组织提供 IT 价值帮助组织业务的发展,将 IT 能力自助化,提升组织的运转效率,将运维数据转变成能够帮助组织业务发展的运营数据等。


03

百花齐放


随着算力的突破,Deep Learning 迎来了新的春天,大家的想法逐渐变得一致,我们都在思考,能不能在几乎不做改动的情况下,使用 AIOps 的方法,尽可能多的解决问题,例如把告警根因分析解决掉。


但是真正落地过 AIOPS 的企业,都会在开始的时候就碰到了困难,算法工程师会告诉我们,他们需要完整的数据(Log、Metric、Event、资产关联信息......)、规整的数据(清洗好的运维数据)以及先验知识(具体业务领域的知识),我们甚至没法用合适的成本解决告警根因分析这个场景。


于是我们开始思考,这可能并不是 AIOPS 这项技术的问题,而是烟囱式运维系统的设计与不断涌现的业务诉求之间的矛盾。


与此同时,在大洋的彼岸,有一批新兴的闭源软件企业开始用全新的架构,来重新塑造运维系统,例如我们耳熟能详的 Splunk、Datadog、MoogSoft。


以 Splunk 为例,Splunk 设计了一个强大的非结构化数据分析引擎,将所有的运维数据都存放在了一起,让上层的各个 SaaS 在一个统一的数据源上进行演进,出现了如 UEBA、ITSI、SOAR、MLToolkit 等等的 SaaS,运维系统的建设逐渐迎来了百花齐放的时代。


04

融合联动,重塑运维工具


在商业级闭源软件再次崛起的过程中,开源社区也没有停下自己的脚步,蓝鲸平台通过构建 PaaS 底座,在设计之初就拒绝烟囱建设的思路,为我们提供了重塑运维系统的一种选择。


同时蓝鲸配套的社区、认证体系,让大家在同一套规则下进行 SaaS 的演进,使得我们可以避免运维系统的逐渐黑箱化。


而嘉为科技 WeOps 团队在社区版蓝鲸平台的基础上,进行了整合封装、提供了企业级的必备功能,并且提供了培训赋能、系统维保等服务。目标是帮助中型企业用最合适的成本,获得企业级的能力以及支撑,更好的应对新的 IT 环境与文化。


05

应对变化,伴随成长


WeOps 规划了三个大的版本:


3.0(融合联动)

3.0 系列我们以融合联动为主题,主要提供:基础监控、资产管理、自动化运维以及运营服务等能力。


4.0(可观测)

4.0 系列将提供日志分析、APM、Log、RUM 等板块。


5.0(智能化)

5.0 系列将通过 Al 技术,使整个运维效能得到更大幅度地提升。


WeOps 采用订阅模式,帮助企业渐进使用,用更低的成本去获得一套一体化运维平台,渐进式模式可以使得企业根据自身需求,使用部分模块,提供更好的现金流保障。企业不再需要一次性投入大量成本进行运维系统的建设,使用较低成本与产品共同成长。而企业也可快速通过低成本去检验产品与自身的适配性,避免试错高风险。


WeOps 产品始终坚持开源共建的思路,我们会不断对 WeOps 板块进行持续性开源,与蓝鲸社区进行生态共建,更好地回馈社区。


如果您的企业对 WeOps 平台、订阅制一体化运维平台感兴趣,欢迎联系我们,我们将为您提供专业的产品试用和产品演示等服务。


查看回放及下载 PPT 请关注公众号:嘉为蓝鲸


用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
嘉为科技吴文豪:重塑运维系统,跨越烟囱式建设的陷阱_运维_嘉为蓝鲸_InfoQ写作社区