SREWorks 数智运维平台开源一周年 | 回顾与展望
距离 SREWorks 第一行代码提交到 github 已经整整一年了。在慎重地敲下 git push 的那个回车时,我们充满了期待也有满满的担忧。那时,我们还在猜是几个月、半年或甚至更长时间,项目会涨到 100 个 star,现在一转眼已经是 1200 个 star 了。不过即使没有这些 star,我们也对这一年的开源的进展感到满足和欣慰,下面来回顾一下我们的开源故事。
开源故事
相信大家或多或少听说过飞天的 5K 项目,这是一个中国云计算的里程碑式的项目,我们团队承担了其中的运维工作。超大规模集群的运维保障任务,让我们意识到:如果没有系统性的运维工程,即便我们再殚精竭虑,集群稳定性也是会是一件靠天吃饭的事情。于是我们逐步将大量的运维实践进行工程化落地,使之成为了一个可靠的运维平台,在内部我们称之其为 ABM:Apsara Bigdata Manager -- 飞天大数据运维平台。
有了 ABM 之后,我们常常会对外分享平台化的运维工程实践,也收到了较好的同行反馈。本着 "Talk is cheap. Show me the code." 的想法,我们进一步探索如何将这些平台工程实践代码进行开源,帮助更多从业者提升运维效能。
随着云原生以及 Kubernetes 集群的大量推广,我们发现这些大规模的工程实践,同样适用于 k8s 集群。于是,我们对 ABM 进行了分层改造,升级为应用引擎 + 运维平台。抽取其核心引擎部分为 AppManager,其原理及实现可以参考如下文章:
QCon 演讲实录(下):多云管理关键能力实现与解析 -AppManager
同时,我们将运维平台 ABM 移植到 k8s 集群下,并进行了优化裁剪,这个过程有点像从 Mac OS X 中裁剪 iOS--我们将这个裁剪出来平台命名为 SREWorks。有了 SREWorks 之后,我们的各种对外经验分享对于同行来说不再处于隔靴搔痒的状态,我们有方案有实践有代码可落地。
开源历程
在这一年时间里,SREWorks 进行了几次重要的版本发布:
SREWorks v1.1 版本发布 | 组件插拔场景化部署能力
SREWorks v1.4 版本发布 | 离线安装&前端重构
承蒙广大开发者和用户的支持与认可,SREWorks 在 2022 年底被 InfoQ 评为开发者最喜爱的十大开源项目。
开源意义
在这开源的一年里,在与外部的讨论沟通上,我们常常会不可避免的碰到这么一个问题:为什么国内开源项目做成功的这么少?我们可以从开源项目使用者的角度,来思考这个问题:一个开源项目应该更像个工程还是更像个工具?似乎优秀的开源项目通常两者兼有之:方便快捷的工具帮助开发者快速解决问题,吸引他们快速入坑;工程的深度吸引业界高手持续往里填坑。反之,缺乏工程深度项目能帮助用户解决短平快的问题,但无法持续发展,而缺乏快捷工具的工程如无源之水无本之木,还未积累足够的用户基数用户案例就枯竭了。
再往深分析一层,为什么国内开源项目常常会陷入上段提到这些困境?因为开源项目的推广并不像朋友圈的点赞,认同这个项目的人,会将这个项目实际用起来,继而接纳开源项目作者在项目中所传达的思想及方法。所以开源项目必须要有其独创性,才能服众,否则使用者就会产生一种“好像我也行”的冲动另起炉灶。这就像老生常谈的那句话“一流企业做标准、二流企业做品牌、三流企业做产品”,一个优秀的开源项目常常引导了这个领域的一些标准的落地。
我们希望通过 SREWorks 数智运维平台,让更多从业者利用“大数据和人工智能”的能力做好运维,进入到“数据化、智能化”时代。从代码到线上业务服务的全流程,我们划分了“交付、监测、管理、控制、运营、服务”六大场景,每个场景中都其有代表性的核心功能。
开源生态
围绕着 SREWorks 数智运维平台,我们秉承开放协作共享的理念,致力于构建一个人人可参与的生态圈。
前端可视化生态
前端可视化常常成为一个产品功能快速迭代的瓶颈,SREWorks 中提供了自由的前端低代码组件布局方案,无需前端开发同学配合,只需要轻松地拖拉拽一把,就可以快速将几个前端页面落地。大家在 SREWorks 中看到的所有功能页面,均是通过这种可视化布局产生的,我们的前端研发提供了丰富的前端组件库供布局使用,具体对此感兴趣的同学可以参考下面两篇文章或直接上手体验一把:
SREWorks 前端低代码组件生态演进:monorepo 架构重构和远程组件加载实践
我们的前端研发同学生怕各种组件无法完全满足业务需求,想方设法提供了各类组件扩展及能力增强方案:
组件不够多?我们利用 monorepo 架构将组件部分变成一个独立的 npm 工程,方便开发者二次开发以及往里新增组件。
接口数据格式无法完全匹配组件?我们在组件中提供各种数据处理插槽,允许用户直接写 js 函数来处理数据。
组件的文字格式上希望做一些调整?各种展示文本均支持使用 React JSX 进行格式渲染增强。
想嵌入一些自己开发的组件?也不是基于 React 开发的?没关系,远程组件加载满足你,Vue 组件轻松加载。
不想在本地开发代码,但想快速把几个页面元素合成一个新组件?我们支持使用 React JSX 在前端直接编写新组件。
应用及插件生态
在应用开发中,构建环节是至关重要的。有时候线上环境看起来十分井井有条,但是构建环境却会为了快速出包,暗藏各种脚本或有状态的小魔法。时间一长,这条清澈的小溪就会布满各种岩石、急流、暗礁,大多数情况能有惊无险地通过,但总会有那么几次问题的排查让人刻骨铭心。SREWorks 基于 k8s 提供完整的云原生研发及构建方案,没有有状态的构建机,每次构建都是一个独立 Pod,用完即毁,保持良好的弹性伸缩能力。具体技术细节可以参考 :SREWorks 持续交付云原生化: 镜像构建
SREWorks 中所有功能都是由应用构成的,应用就是组成平台的最小原子。同时,我们将 SREWorks 中的应用划分成两个大类:运维应用和企业应用:在运维应用中,我们如上文提到的“交付、监测、管理、控制、运营、服务”六大场景,内置了丰富的运维应用;在企业应用中,研发同学可以借助 SREWorks 的云原生研发流程快速落地功能。
在 v1.2 版本之后,所有的 SREWorks 平台实例中都上线了公共应用市场,也就意味着已经部署 SREWorks 的用户可以通过这个公共应用市场,来持续安装以及升级应用、增强能力。我们鼓励 SRE 同学将各种经验沉淀成一个应用,进而设计成一个完整的应用产品,上架到市场供更多的同行使用。
另外一方面,为了能够满足更丰富的应用形态需求,我们在 v1.3 版本上线了插件机制,提供了工作负载等插槽允许用户通过插件进行扩展。当前工作负载中已有插件是微服务和 Helm,后续会上架更多的插件,也欢迎有需求的公司进行插件共建。
数智运维生态
在 SREWorks 中我们提供了基于 ElasticSearch 的完整的数据运维平台以及智能运维平台,但说实话,数据化和智能化这块能力让公司来一键接入还是有难度的,于是我们基于 SLS(阿里云日志服务)的 SREWorks 微应用,无需部署 SREWorks,帮助部分用户一键体验轻量级 SREWorks 的数智服务,需要深入了解的同学可移步这篇文章 :SREWorks 数智服务尝鲜,你的数据准备好了吗?
在智能运维算法这块,对外我们不断规划更多的算法开源,对内我们不断夯实算法理论基础:
在 2021 年我们团队与达摩院决策智能团队合作撰写的论文《CloudRCA:面向云计算平台的通用根因分析框架》,国际顶会 CIKM2021 的 Applied Research Track 录取。
在 2022 年,我们与达摩院时序智能团队合作的《NetRCA: An Effective Network Fault Cause Localization Algorithm》在 ICASSP‘22 AIOps Challenge 通信网络智能运维大赛获得冠军。
我们欢迎在数智运维领域与使用 SREWorks 的公司有更多的共建与合作,持续打磨工程及算法,使之获得更广泛的应用产生更大的价值。
后续规划
在引擎(Appmanager)上我们会进一步完善插件机制,同时引入更多的工作负载(workload)和运维特征(trait)来实现更丰富的应用场景。在应用持续集成(CI)链路上,我们会根据已有案例持续进行打磨能力,使得应用开发及构建方案对其他公司更加适配。
在平台层(PaaS)上我们会进一步增强权限体系和接口服务,使得 SREWorks 在其他公司中嵌入集成更加简单。同时我们会将中台能力进一步抽取,使得运维应用之间通过中台能力交叉引用更加方便高效。
在应用层(SaaS)上我们会根据内部新上线的功能情况进行开源,可能会包含应用管理的增强以及业务流程编排相关的功能点。
在数智能力(DataOps&AIOps)上我们在今年会开源基于 Flink ML 的日志聚类算法服务,更强的异常检测服务,大敬请期待。
在开发者生态(Developer Ecosystem)上我们今年会进一步扩充应用市场的应用,提供更多的培训课程及文档,方便更多用户,能快速基于 SREWorks 完成云原生的应用开发。同时今年会上线 SREWorks 应用测评系统,在日常组织一些比赛进行基于 SREWorks 的应用开发比赛。
写在最后
开源并非一件易事,曾有人这样问我:“你们开源是怎么活下来的?” 通过内部大量的工程实践的打磨,使得我们孵化了这样的平台,磨合了这样的一种工作方式:我们希望将这其中的价值以及思考传递给更多的人,路虽远行则将至,事虽难做则必成。
版权声明: 本文为 InfoQ 作者【阿里云大数据AI技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/060a9eee50b2808fca5fc6b6a】。文章转载请联系作者。
评论