甲方日常 30

用户头像
大橘子
关注
发布于: 2020 年 10 月 14 日
甲方日常 30

坑B

20201014

上午

早上起来刚把机器打开,那边领导电话就催来了。说是OA系统又不好使了(OA和其他系统有集成)。于是赶紧起来排查。发现一个和OA集成的系统中部分表单打不开,浏览器debug看发现对面服务器报了500。

排查

这个错误不用说都知道是服务问题,但是这个系统又依赖了第三个系统(C),于是先排查第三个系统的接口,一切ok,那么说肯定是中间这个系统(B)的问题了。

系统B的架构比较简单,前端3台应用负载,2台接口负载,后端有MQ+LDAP+DB。前端最初就500了,于是先排查前端这3台应用的日志,发现日志中有提示链接被拒绝。于是在群里反馈并把日志发出来。

在甲方就这个问题比较麻烦,虽然定位到问题了,但是有些系统是乙方产品化的,自己没法搞,之前负责实施的自己人文档不熟,也没给我们培训,于是把问题让同事反馈给乙方。不出所料,是2台接口负载的服务器出问题了,其中一台服务挂了,导致部分用户没法访问(还不知道这两台负载策略是什么,坑)。

解决

快中午时候,乙方给回复说是服务起来了,一切正常。但是服务为什么挂了还是要继续找原因的。

下午

猜测和前几天的DRS导致服务器重启有关,于是到vsphere上查日志,发现果然是DRS导致服务器关机了,然后又自动重启。然后服务没有配置开机自动启动。

扯皮

下午又是开会讨论资源问题,本来总体资源够用,但是DRS全自动,机器到处各种迁移,不出现死机的都怪了。最初实施的时候,各个应用系统玩了命要资源,就说系统慢,也每个具体说法,我就说不能分那么高,本来业务系统没什么压力,并发也不高。分那么高资源一旦出现迁移,很容易出现资源不足的情况(一共108台服务器)。最后又让总结方案,我就说了2个方法:

  • 买服务器

  • 各个应用系统把配置减下来,没那么高负载分那么高资源干嘛



干的心累MMP,合同还有3年了,早做打算



封面来源:媳妇手绘的,如需使用,请联系我.

联系方式:先在评论里说吧,还没想好是否要留邮箱.



发布于: 2020 年 10 月 14 日 阅读数: 12
用户头像

大橘子

关注

某农业公司码农 2018.03.21 加入

学而未成 持续学习

评论

发布
暂无评论
甲方日常 30