甲方日常 27
一知半解
本来昨天和今天是在家办公的。家里有事跟领导说了下。于是开车回家,结果在返程的高速上通知我服务器出问题了,于是在服务区开了1个小时的电话会议。
20201010
白天
今天本来没什么事,结果开车返程的时候接到同事电话说服务器出问题了。通过了解得知,原来是ERP的某台服务器宕机,然后服务不可用了。本来也不是什么大事,于是出现了以下的情况:
先接到部门的副部长电话,说问我知不知道ERP的XX服务器宕机了。我心想,这些事都不归我管1年多了,也没人跟我汇报啊。
于是一会就来了电话会议,分管的领导又问我知不知道怎么回事,我说我今天刚知道的情况。
接着又讲了一遍过程
等到分析原因的时候,好家伙,竟然能扯到java环境损坏,做了这么长时间开发和运维,头一次听说jdk坏了。
于是又听了一堆怎么解决啊这个那个,排查出什么问题没有这个那个的。
我.......一脸呵呵的听着
其实这个问题7月份出过,当时找了ERP厂商的人员也没找到具体问题,着急恢复业务,于是直接在这台机器上还原了备份。但后来就没有人去找原因了。
不过也巧了,这边刚完事,另外一个同事在群里说另外一个服务器也出现了问题,好在只是组件挂了。
晚上
于是晚上开始排查问题
从运维平台着手,发现了机器掉线警告和恢复的时间段。
到vsphere上看了下日志,发现2台出问题的服务器都进行了迁移,其中后一台失败后自动回退然后重启。
ERP这台出问题的,发现网卡被改过,机器被重启过,和同事的描述符合。
登陆到ERP出问题的那台服务器,发现系统依赖的服务没了,于是和同事沟通,说是手工给卸载了。
呵呵了,然后问卸载了为啥不装上啊,结果说安装了,但是脚本闪退,因为jdk坏了。我就呵呵了,运行安装脚本都不指定参数,能成功那是见了鬼了。
问了下领导,说是先不要动了,于是没有进行后续的处理。
回头看了下vsphere上,之前做的资源隔离都没了,DRS全是默认配置。这么多机器,不划资源池,完全DRS,不出问题都怪了。就不能看看官方的《vsphere资源管理》的文档么。
于是整理问题过程,梳理问题点,写邮件
最后想想,这TMD关我什么事啊,我都不负责这些了。还有那些半吊子,干什么一知半解的,看看文档不行么。
封面来源:媳妇手绘的,如需使用,请联系我.
联系方式:先在评论里说吧,还没想好是否要留邮箱.
版权声明: 本文为 InfoQ 作者【句子】的原创文章。
原文链接:【http://xie.infoq.cn/article/28e0c980b6992e253e08124e9】。文章转载请联系作者。
评论