运维常见问题及排查思路
防患未然
备份
1.做任何修改之前一定要备份,方便出问题进行回滚。
2.数据库备份,安装程序备份,条件允许最好异地备份。
权限
1.需要登录服务器的人,分配可以完成工作的最小权限。
2.敏感操作要进行逐级确认之后进行操作。
对症下药
重启大法
1.重启应用程序
2.重启服务器
3.重启数据库服务
查看日志
1.检索日志
2.查看实时打印的日志
系统指标
1.硬盘容量(比如日志文件耗尽了硬盘容量)
2.内存使用率(程序出现内存泄漏导致内存溢出)
3.CPU使用率(死循环耗尽CPU资源)
推荐使用gotop[1]插件,可以从终端直观的、实施的查看CPU、内存、磁盘等指标。
数据库
1.与应用分开部署时,需要确定网络是否连通
2.Oracle表空间不足,扩大表空间
3.Oracle监听服务死掉,重启监听服务
4.Oracle安装目录磁盘空间不足,扩容或删除备份文件
网络
1.服务器防火墙未设置永久关闭,应用程序安装之后,发生服务器宕机,重启后防火墙默认开启,导致应用无法访问。
2.网管平台对防火墙配置了新的规则而未接到通知,尤其涉及到内外网通信,如果发生诡异问题,要优先考虑下网络原因。
3.有些服务之间的调用涉及到了IP与域名的映射,必要时候需要修改hosts文件。
其他
1.解压备份的文件时最好指定解压到的文件夹,防止误操作覆盖已有的文件
2.备份文件要加上备份的日期,必要时候附加说明,多个版本便于恢复。
References
[1]
gotop: https://github.com/cjbassi/gotop
上一篇
欢迎关注我的微信公众号「编程随想曲」
版权声明: 本文为 InfoQ 作者【编程随想曲】的原创文章。
原文链接:【http://xie.infoq.cn/article/3a1f05889143ce65352ca6c86】。文章转载请联系作者。
评论