写点什么

甲方日常 27

用户头像
句子
关注
发布于: 2020 年 10 月 11 日
甲方日常 27

一知半解

本来昨天和今天是在家办公的。家里有事跟领导说了下。于是开车回家,结果在返程的高速上通知我服务器出问题了,于是在服务区开了1个小时的电话会议。

20201010

白天

今天本来没什么事,结果开车返程的时候接到同事电话说服务器出问题了。通过了解得知,原来是ERP的某台服务器宕机,然后服务不可用了。本来也不是什么大事,于是出现了以下的情况:

  • 先接到部门的副部长电话,说问我知不知道ERP的XX服务器宕机了。我心想,这些事都不归我管1年多了,也没人跟我汇报啊。

  • 于是一会就来了电话会议,分管的领导又问我知不知道怎么回事,我说我今天刚知道的情况。

  • 接着又讲了一遍过程

  • 等到分析原因的时候,好家伙,竟然能扯到java环境损坏,做了这么长时间开发和运维,头一次听说jdk坏了。

  • 于是又听了一堆怎么解决啊这个那个,排查出什么问题没有这个那个的。

我.......一脸呵呵的听着

其实这个问题7月份出过,当时找了ERP厂商的人员也没找到具体问题,着急恢复业务,于是直接在这台机器上还原了备份。但后来就没有人去找原因了。

不过也巧了,这边刚完事,另外一个同事在群里说另外一个服务器也出现了问题,好在只是组件挂了。

晚上

于是晚上开始排查问题

  • 从运维平台着手,发现了机器掉线警告和恢复的时间段。

  • 到vsphere上看了下日志,发现2台出问题的服务器都进行了迁移,其中后一台失败后自动回退然后重启。

  • ERP这台出问题的,发现网卡被改过,机器被重启过,和同事的描述符合。

  • 登陆到ERP出问题的那台服务器,发现系统依赖的服务没了,于是和同事沟通,说是手工给卸载了。

  • 呵呵了,然后问卸载了为啥不装上啊,结果说安装了,但是脚本闪退,因为jdk坏了。我就呵呵了,运行安装脚本都不指定参数,能成功那是见了鬼了。

  • 问了下领导,说是先不要动了,于是没有进行后续的处理。

  • 回头看了下vsphere上,之前做的资源隔离都没了,DRS全是默认配置。这么多机器,不划资源池,完全DRS,不出问题都怪了。就不能看看官方的《vsphere资源管理》的文档么。

  • 于是整理问题过程,梳理问题点,写邮件



最后想想,这TMD关我什么事啊,我都不负责这些了。还有那些半吊子,干什么一知半解的,看看文档不行么。



封面来源:媳妇手绘的,如需使用,请联系我.

联系方式:先在评论里说吧,还没想好是否要留邮箱.

发布于: 2020 年 10 月 11 日阅读数: 32
用户头像

句子

关注

某农业公司码农 2018.03.21 加入

每一个句子 都是生活的历程

评论

发布
暂无评论
甲方日常 27