写点什么

线上故障

0 人感兴趣 · 10 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/1b/1b4baf25ada63d40b24877d8a61f7cab.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

【稳定性】揭秘团队快速排查问题的三字经,你学会了吗? | 京东物流技术团队

基于日常实际工作经验和个人心得,我整理了一份团队遇到故障问题或者疑似问题快速排查的三字经清单及正确✅案例和错误❌案例。这份清单将帮助你在遇到问题时进行快速排查,无需担心在高压环境下忙中出错,遗漏关键步骤环节。掌握

https://static001.geekbang.org/infoq/0e/0e8b11f647fd6a08ec8e7a7fe3152f42.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一次排查某某云上的 redis 读超时经历

最近一两天线上老是偶现的redis读超时报警,并且是业务低峰期间,甚是不解,于是开始着手排查。

https://static001.geekbang.org/infoq/99/994a4ade495aa269706ba4d2df8780a4.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一次系统延迟性优化案例

线上隔三差五晚上10点左右总会有sql报警出现,且是同样的sql,我们的sql报警是在应用程序内部通过对sql操作增加钩子函数,对sql前后执行的位置记录下时间戳,然后sql执行完毕后,对时间戳进行相减得到sql执行时长,大于1s则报警。

https://static001.geekbang.org/infoq/49/49953431be6540dd7d9dcc695619c829.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

mysql invalid conn 排查

我们的服务端程序是使用golang进行开发 ,mysql的客户端库是go-mysql-driver ,系统测试环境频繁总时不时报出invalid conn 错误,但实际拿sql执行时却是正常执行。

https://static001.geekbang.org/infoq/95/9599948133e7e065c415c4773a681639.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一次 goroutine 泄漏排查案例

这是一个比较经典的golang协程泄漏案例。

https://static001.geekbang.org/infoq/78/78611ddb6a52ec42968ea1bcdb532e92.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一名曾因线上 P0 故障导致月工资扣了 10% 的码农心得:如何在故障 10 分钟黄金时间快速排障

用户头像
KINDLING
2022-12-14

“ 本文作者是曾有4年开发经验,期间担任过多个项目团队的开发leader,现任Kindling开源团队的产品经理。作者曾因一次愚蠢的操作引发了线上P0故障,导致月工资扣了10%,年底绩效-1,连带上级leader也被扣钱,全公司邮件通报批评,大型社死现场。作者想通过自

https://static001.geekbang.org/infoq/03/036612e64f8ad4d8396e7e240fa4e1ef.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

线上问题如何复盘

用户头像
老张
2022-09-02

问题复盘的最佳实践。

https://static001.geekbang.org/infoq/4a/4abf950166b7b9a2e7861e194aea2a3d.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

消费类电子线上问题定位,分析和解决落地

用户头像
wood
2021-12-09

解决线上问题,是产品考验逻辑和执行能力,沟通能力的高光时刻,属于MOT中的关键时刻,必须培养出这种应对任何问题的能力,做到事无巨细,胸有成竹。

线上故障后的第一要务

用户头像
鱼天翱
2021-03-03

发生了线上故障后,问责是不是第一要务?

线上故障_线上故障技术文章_InfoQ写作社区