写点什么

看 DLI 服务 4 核心如何提升云服务自动化运维

发布于: 2020 年 08 月 12 日

摘要:今天我们来说说 DLI 是如何实现监控告警来提升整体运维能力,从而为客户更好的提供 Serverless 的 DLI。


DLI 是支持多模引擎的 Serverless 大数据计算服务,免运维也是其作为 Serverless 云服务面向客户时的一个重要的特性。那么对于服务本身我们是如何实现整个服务的运维呢?今天我们来说说 DLI 是如何实现监控告警来提升整体运维能力,从而为客户更好的提供 Serverless 的 DLI。



上图是 DLI 服务的整体部署架构,作为 Serverless 服务其全面拥抱云原生技术,无论是对外提供任务管理的微服务还是最终执行任务的计算单元,其都是基于 Kubernetes 来部署,这也更好的实现了 Serverless 的快速弹性伸缩。


对于 DLI 服务的监控告警我们当前主要从以下几个方面来考虑:


1.全局维度,主要是整体 API 的 QPS、成功率和响应时延


DLI 作为 Serverless 大数据计算服务,其对外均以 REST API 的形式提供服务,因此 API 的 QPS 和响应时延直接反映了服务对外的能力,而成功率更是服务 SLA 的直接体现。


2.OS 维度,主要是容器宿主的 CPU 使用率、内存使用率、磁盘使用率、上下行流量


无论部署的架构、技术如何演进,对基础资源的监控都是最基本和必须的。


3.容器维度,主要是 CPU 使用率、内存使用率、K8s 空间和用户空间使用率、POD 的健康度


容器是虚拟机的演进,因此对于容器的资源监控也是最基本的。我们的微服务或计算单元都是以容器运行在 Kubernetes 集群上,因此对于 POD 的健康状态的监控也是必须的。


4.微服务维度,主要是流量、性能、健康检查和关键日志等


监控是为了更好的发现和解决问题,因此核心还是业务层面的监控。DLI 是一个复杂的分布式 Serverless 应用,其内部根据不同领域模型又分为不同的微服务,因此对于微服务内部的流量、性能等的监控则是衡量各微服务可靠性的重要指标。一个好的系统往往有完善的日志体系,通过对关键日志进行监控则能够帮助我们快速发现和定位问题,因此这也是我们在业务维度的监控上的重点。


上述几个方面的监控,是我们实现云服务自动化运维的一些关键步骤,通过这些我们能够做到更好的先于客户发现问题,保障服务 SLA。当然这些远远不够,正所谓“路漫漫其修远兮,吾将上下而求索”,更加自动化、智能化的运维才是 Serverless 服务的目标。


点击关注,第一时间了解华为云新鲜技术~


发布于: 2020 年 08 月 12 日阅读数: 87
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
看DLI服务4核心如何提升云服务自动化运维