甲方日常 30
坑B
20201014
上午
早上起来刚把机器打开,那边领导电话就催来了。说是OA系统又不好使了(OA和其他系统有集成)。于是赶紧起来排查。发现一个和OA集成的系统中部分表单打不开,浏览器debug看发现对面服务器报了500。
排查
这个错误不用说都知道是服务问题,但是这个系统又依赖了第三个系统(C),于是先排查第三个系统的接口,一切ok,那么说肯定是中间这个系统(B)的问题了。
系统B的架构比较简单,前端3台应用负载,2台接口负载,后端有MQ+LDAP+DB。前端最初就500了,于是先排查前端这3台应用的日志,发现日志中有提示链接被拒绝。于是在群里反馈并把日志发出来。
在甲方就这个问题比较麻烦,虽然定位到问题了,但是有些系统是乙方产品化的,自己没法搞,之前负责实施的自己人文档不熟,也没给我们培训,于是把问题让同事反馈给乙方。不出所料,是2台接口负载的服务器出问题了,其中一台服务挂了,导致部分用户没法访问(还不知道这两台负载策略是什么,坑)。
解决
快中午时候,乙方给回复说是服务起来了,一切正常。但是服务为什么挂了还是要继续找原因的。
下午
猜测和前几天的DRS导致服务器重启有关,于是到vsphere上查日志,发现果然是DRS导致服务器关机了,然后又自动重启。然后服务没有配置开机自动启动。
扯皮
下午又是开会讨论资源问题,本来总体资源够用,但是DRS全自动,机器到处各种迁移,不出现死机的都怪了。最初实施的时候,各个应用系统玩了命要资源,就说系统慢,也每个具体说法,我就说不能分那么高,本来业务系统没什么压力,并发也不高。分那么高资源一旦出现迁移,很容易出现资源不足的情况(一共108台服务器)。最后又让总结方案,我就说了2个方法:
买服务器
各个应用系统把配置减下来,没那么高负载分那么高资源干嘛
干的心累MMP,合同还有3年了,早做打算
封面来源:媳妇手绘的,如需使用,请联系我.
联系方式:先在评论里说吧,还没想好是否要留邮箱.
版权声明: 本文为 InfoQ 作者【大橘子】的原创文章。
原文链接:【http://xie.infoq.cn/article/9399aa14145772148950f24dd】。文章转载请联系作者。
评论