运维常见问题及排查思路

用户头像
编程随想曲
关注
发布于: 2020 年 05 月 02 日

​防患未然

备份

        1.做任何修改之前一定要备份,方便出问题进行回滚。

        2.数据库备份,安装程序备份,条件允许最好异地备份。

权限

        1.需要登录服务器的人,分配可以完成工作的最小权限。

        2.敏感操作要进行逐级确认之后进行操作。



对症下药

重启大法

        1.重启应用程序

        2.重启服务器

        3.重启数据库服务

查看日志

        1.检索日志

grep keyValue foo.log

        2.查看实时打印的日志

tail -f foo.log

系统指标

        1.硬盘容量(比如日志文件耗尽了硬盘容量)

df -h

        2.内存使用率(程序出现内存泄漏导致内存溢出)

free

        3.CPU使用率(死循环耗尽CPU资源)

top

推荐使用gotop[1]插件,可以从终端直观的、实施的查看CPU、内存、磁盘等指标。



数据库

        1.与应用分开部署时,需要确定网络是否连通

ping dataBaseServerIP

        2.Oracle表空间不足,扩大表空间

        3.Oracle监听服务死掉,重启监听服务

        4.Oracle安装目录磁盘空间不足,扩容或删除备份文件

网络

        1.服务器防火墙未设置永久关闭,应用程序安装之后,发生服务器宕机,重启后防火墙默认开启,导致应用无法访问。

        2.网管平台对防火墙配置了新的规则而未接到通知,尤其涉及到内外网通信,如果发生诡异问题,要优先考虑下网络原因。

        3.有些服务之间的调用涉及到了IP与域名的映射,必要时候需要修改hosts文件。

其他

        1.解压备份的文件时最好指定解压到的文件夹,防止误操作覆盖已有的文件

        2.备份文件要加上备份的日期,必要时候附加说明,多个版本便于恢复。


References

[1] gotop: https://github.com/cjbassi/gotop



上一篇

Arthas安装及基本用法



欢迎关注我的微信公众号「编程随想曲」



发布于: 2020 年 05 月 02 日 阅读数: 35
用户头像

编程随想曲

关注

学如逆水行舟,不进则退。 2018.03.11 加入

微信公众号「编程随想曲」作者。

评论

发布
暂无评论
运维常见问题及排查思路