开发质量提升系列:问题登记列表(上)
在系统运营的过程中会遇到许多奇奇怪怪的问题,比如在一段很长的时间里系统都没有发生过变更了,系统服务却突然发生异常;投产内容明明在开发阶段都测试了 N 多遍,可是上线之后却报出在开发阶段未曾出现过的问题。产生问题不可怕,写程序就相当于写 BUG 了,哪怕是大神,也有程序出现 BUG 的一天。关键是,怎样才能把问题彻底修复,避免重复犯错,这时候,很多童鞋的做法都是有问题的。
很多童鞋在处理生产问题的时候,都是头痛医头脚痛医脚。比如系统的服务突发异常,经排查是数据库服务中断超过 1 分钟导致服务丢失数据库服务连接导致的,在这个时候,重启数据库服务及发生异常的服务,系统又能正常运行了。结果从那天开始,异常的服务开始隔三岔五出现异常,而且异常的原因还是数据库服务中断引起的,虽然重启服务不难,关键是折磨人啊,说不定被领导发现了还得批评一顿。所以,我们应如何解决上述的生产问题呢?
实际上,当系统在生产环境发生故障时,第一时间先让系统恢复正常运行是正确的,因为这样可以保持系统的连续性,避免影响公司的业务开展。这种先让系统恢复正常的方案,是治标不治本的,所以称为临时方案。临时方案绝大多数的童鞋都能条件反射式地使出来,但是,如果需要一个治标又治本的方案,必须要先把生产问题的根本原因挖掘出来,再对根本原因对症下药,才能达到药到病除的效果,这种从生产问题的根本原因来解决的方案,称为长期方案。
所以,解决生产问题的思路是:
先进行紧急修复,让系统恢复正常,避免影响业务开展,保证业务的连续性;
尽快找出问题的根本原因,然后根据根本原因制定长期方案;
把长期方案落实到系统上。
那么问题登记列表在解决生产问题的方法论中起到什么作用,又该如何去编写呢,且听下回分解。
版权声明: 本文为 InfoQ 作者【罗小龙】的原创文章。
原文链接:【http://xie.infoq.cn/article/75aaa42c32d49d95026d62ff6】。文章转载请联系作者。
评论