写点什么

开发质量提升系列:问题登记列表(上)

用户头像
罗小龙
关注
发布于: 2021 年 01 月 26 日
开发质量提升系列:问题登记列表(上)

在系统运营的过程中会遇到许多奇奇怪怪的问题,比如在一段很长的时间里系统都没有发生过变更了,系统服务却突然发生异常;投产内容明明在开发阶段都测试了 N 多遍,可是上线之后却报出在开发阶段未曾出现过的问题。产生问题不可怕,写程序就相当于写 BUG 了,哪怕是大神,也有程序出现 BUG 的一天。关键是,怎样才能把问题彻底修复,避免重复犯错,这时候,很多童鞋的做法都是有问题的。

很多童鞋在处理生产问题的时候,都是头痛医头脚痛医脚。比如系统的服务突发异常,经排查是数据库服务中断超过 1 分钟导致服务丢失数据库服务连接导致的,在这个时候,重启数据库服务及发生异常的服务,系统又能正常运行了。结果从那天开始,异常的服务开始隔三岔五出现异常,而且异常的原因还是数据库服务中断引起的,虽然重启服务不难,关键是折磨人啊,说不定被领导发现了还得批评一顿。所以,我们应如何解决上述的生产问题呢?

实际上,当系统在生产环境发生故障时,第一时间先让系统恢复正常运行是正确的,因为这样可以保持系统的连续性,避免影响公司的业务开展。这种先让系统恢复正常的方案,是治标不治本的,所以称为临时方案。临时方案绝大多数的童鞋都能条件反射式地使出来,但是,如果需要一个治标又治本的方案,必须要先把生产问题的根本原因挖掘出来,再对根本原因对症下药,才能达到药到病除的效果,这种从生产问题的根本原因来解决的方案,称为长期方案

所以,解决生产问题的思路是:

  • 先进行紧急修复,让系统恢复正常,避免影响业务开展,保证业务的连续性;

  • 尽快找出问题的根本原因,然后根据根本原因制定长期方案;

  • 把长期方案落实到系统上。

    那么问题登记列表在解决生产问题的方法论中起到什么作用,又该如何去编写呢,且听下回分解。


发布于: 2021 年 01 月 26 日阅读数: 13
用户头像

罗小龙

关注

镜花水月 2020.08.18 加入

数据工作者,目前就职于商业银行数据部门,擅长数据架构、数据建模、数据开发及数据分析

评论

发布
暂无评论
开发质量提升系列:问题登记列表(上)