写点什么

监控系统

0 人感兴趣 · 26 次引用

  • 最新
  • 推荐

还在服务器上捞日志?试试这款可视化监控系统吧,真香!

如果线上出现问题后,直接去服务器上查看日志,不仅仅效率低,而且还是严重滞后,所以对于一个应用系统必须要具备分布式监控的能力!

https://static001.geekbang.org/infoq/43/43fddd90bd9934c76cb8938b7ee691ca.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

ps vs top:CPU 占用率统计的两种不同方式

简单来说,进程的 CPU 占用率指的是 CPU 有多少时间花费在了运行进程上。在 Linux 系统里,进程运行的时间是以jiffies[1]统计的,通过计算jiffies * HZ,就可以得到进程消耗的 CPU 时间,再除以 CPU 的总时间,就可以得到进程的 CPU 占用率

https://static001.geekbang.org/infoq/45/45246d7f8caf3727a29206c49b17fbac.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

突破传统监测模式:业务状态监控 HM 的新思路

在系统架构设计中非常重要的一环是要做数据监控和数据最终一致性,这里主要讲如何去补偿?补偿的方案哪些?这就引出来数据监控系统了。有小伙伴会问了,为什么业务状态监控系统可以做补偿?别急,且看本文。

https://static001.geekbang.org/infoq/35/35c642357c6ec19d638dc10c26271451.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

通过应用场景深度理解监控宝在业务中的实践价值

近年来,越来越多的企业实现了核心业务系统互联网化,无论是企业内部员工还是企业外部用户或是供应链上下游合作伙伴,均通过互联网和Web应用与企业建立起了紧密的联系。

https://static001.geekbang.org/infoq/3b/3b2630038164f45f43e441af83a2c45c.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

监控系统工作原理

数据中心各类监控系统,主体模块一般可分为:代理层、汇聚层、核心层、展现层。

https://static001.geekbang.org/infoq/04/0487b7b2cab1edc6866096d0561c9d87.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

监控系统的阶段建设

监控的工作就是发现故障、定位故障、解决故障、预防故障、及时准确告警、分析定位故障、高效快速排障、资源架构优化的过程。

https://static001.geekbang.org/infoq/fd/fd727007c3ca1be9c32cfa5141e57769.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

关于运维监控系统实践中的一些 tips

监控是一场攻坚战,更是持久战,一方面监控系统的功能需要持续优化,另一方面监控策略需要持续完善。

https://static001.geekbang.org/infoq/28/28b4004f32e266b2d935b8453b9073d4.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SLO 新解,一种行之有效的故障处理方法

用户头像
华明
2022-09-07

本文主要不是普及 SLO 概念,而是分析"跟风"SLO方法时可能出现的错误,并介绍一种应用于故障处理场景,并行之有效的"类SLO"实践。

https://static001.geekbang.org/infoq/4e/4e93bd19256d0598f93fa30e69f518de.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

搭建前端监控,如何采集异常数据?

用户头像
杨成功
2022-06-12

前端监控的一个关键环节是如何采集异常数据,应用的异常多种多样,本篇介绍如何优雅的采集并进行处理和分类

https://static001.geekbang.org/infoq/01/01f2fe85d1cfaf814dc97795fcb12bd0.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

HertzBeat 赫兹跳动 v1.0.beta.4 发布, 易用友好的高性能监控告警系统

用户头像
TanCloud探云
2022-03-01

HertzBeat赫兹跳动 是由Dromara孵化,TanCloud开源的一个支持网站,API,PING,端口,数据库,全站等监控类型,支持阈值告警,告警通知(邮箱,webhook,钉钉,企业微信,飞书机器人),拥有易用友好的可视化操作界面的开源监控告警项目。   

https://static001.geekbang.org/infoq/c6/c6272c05ce7e6372dd994e056d4b3028.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

裸辞全职开源的监控告警项目

用户头像
TanCloud探云
2022-02-16

HertzBeat赫兹跳动 - 开源监控告警系统。 网站监测,PING连通性,端口可用性,数据库监控,API监控,全站监控,自定义监控,阈值告警,告警通知。

基于云的技术架构设计实践 - 第 2 篇

用户头像
hackstoic
2021-12-03

业务部署上去了,要想知道业务是不是正常,需要怎么做? 这时候监控就很重要。监控是业务的眼睛,如果没有监控,我们就会抓瞎。

为什么那么多人在用 WGCLOUD

用户头像
王逅逅
2021-11-09

我们项目中使用 WGCLOUD两年多了,目前管理大概100多台服务器,有linux也有windows,想在此总结下它的特点

https://static001.geekbang.org/infoq/45/45e62f004d2d62abb692609a548d4e86.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

vivo 全球商城 - 营销价格监控方案的探索

本文分享了vivo官网商城营销价格能力矩阵及价格监控实现思路。

https://static001.geekbang.org/infoq/b5/b5d7795caf0872e102c836a1adb452d2.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

如何做好 Clickhouse 集群的监控覆盖?

用户头像
BUG侦探
2021-08-30

在clickhouse上生产环境之前,我们就得制定好相关的监控方案,包括指标采集、报警策略、图形化监控大盘。有了全面有效的监控,我们就仿佛拥有了千里眼顺风耳,对于线上任何风吹草动都能做到及时感知,在必要的情况下提前介入以避

https://static001.geekbang.org/infoq/5f/5f5c296a5ad837e7b4509b49d5d4f923.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

百度商业大规模微服务分布式监控系统 - 凤睛

凤睛是百度商业业务系统的性能监控系统(APM),它能够对主流中间件框架( Spring Web、RPC、数据库、缓存等)进行自动埋点,实现全栈式性能监控和全链路追踪诊断,为百度各业务线提供微服务系统性能指标、业务黄金指标、健康状况、监控告警等。

https://static001.geekbang.org/infoq/3e/3eb63598798c807bb865546bf8d250eb.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

3 分钟评估 你的运维监控系统是“救命稻草”还是“鸡肋”

用户头像
鹿小U
2021-07-08

摘要:如何提升企业运维监控能力,让我们先从监控成熟度评估开始吧。从运维监控到服务观测,3分钟,5个维度,快速获悉企业的IT资源监控现状。

搭建亿级时间线数据的监控系统,我有绝招!

​​​​​​​​​​​​​​​​摘要:本文为你带来如何使用华为云数据库GaussDB(for Influx) + Grafana搭建亿级时间线数据的监控系统。

https://static001.geekbang.org/infoq/67/67f86e75076ccf35eac095a7fc002130.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Mac 下 brew 更新及安装 Prometheus+Grafana

近来在做容器研究,本地也打算做一次基于原生k8s的动态扩容。k8s提供了基于cpu和内存的扩容方案,但如果需要根据其他规则,例如接口访问次数等等,就需要其他的一些辅助工具,例如监控:prometheus。本篇先准备好相关环境,并了解Prometheus和Grafana的使用

https://static001.geekbang.org/infoq/7d/7d3affd47b29cd4b7c449b7e69353775.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

搭建一个 802.1x 的 web 测试服务

用户头像
冯骐
2021-03-01

802.1x 是一种二层认证协议,结合 EAP,它能够为无线网络提供安全的,无感知的认证服务。因此许多大型的园区网都选择使用 802.1x 作为无线网络的认证模式。

https://static001.geekbang.org/infoq/d6/d6107ff07a0153740d27e5fa669a505a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

树莓派上的家庭监控中心

用户头像
冯骐
2021-03-01

上回在 树莓派上的温湿度环境监控 里提及过,Open-Falcon 也是可以直接装在树莓派上的。所以其实可以使用树莓派在家里做一个小型的监控中心,把相应的监控指标采集过来推给树莓派上的 Open-Falcon 就好了嘛

https://static001.geekbang.org/infoq/3d/3d477be116d086688432647ae61d8b30.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

常见运维监控系统的技术选型

用户头像
OpsMind
2021-01-25

当今监控乃至整个运维行业正处在变更之际,面对诸多变化和不确定性,运维监控的规划应该首先考虑保证技术投资的可持续性,避免锁定在某一具体的架构和方案上,而是立足核心技术要点与诉求,跟随技术潮流,平滑演进,保持技术先进性,在演进过程中分阶段……

https://static001.geekbang.org/infoq/5f/5f4fe21dad3298f2d6974d5b89a193f6.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

【运维思考】运维对象快速扩展,监控如何精准实时的覆盖?

用户头像
嘉为蓝鲸
2020-10-21

基于传统建设监控系统的方式,你会发现如果想要覆盖全面的运维对象,所需建设各种场景监控系统就会越来越多,海量无效的告警事件接踵而来,同时围绕同一故障的告警信息都分布在各个监控系统中,这么一来就很难实现快速的告警定位分析。

监控系统_监控系统技术文章_InfoQ写作社区