导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?
导致服务器不可用的因素分为有计划和无计划的两种。
其中无计划宕机原因有:
系统级的故障 – 包括主机、操作系统、中间件、数据库、网络、电源以及外围设备
数据和中介的故障 – 包括人员误操作、硬盘故障、数据乱了
还有:自然灾害、人为破坏、以及供电问题。
有计划的宕机原因有:
日常任务:备份,容量规划,用户和安全管理,后台批处理应用
运维相关:数据库维护、应用维护、中间件维护、操作系统维护、网络维护
升级相关:数据库、应用、中间件、操作系统、网络、包括硬件升级
保障系统稳定高可用的方案有:
负载均衡
数据库复制与失效转移
消息队列隔离
限流和降级
异地多活
High Availability,is a characteristic of a system which aims to ensure an agreed level of operational performance, usually uptime, for a higher than normal period. -- wiki
是的,要干出高可用的系统,这TMD就是一套严谨科学的工程管理,其中包括但不限于了:
软件的设计、编码、测试、上线和软件配置管理的水平
工程师的人员技能水平
运维的管理和技术水平
数据中心的运营管理水平
依赖于第三方服务的管理水平
深层交的东西则是——对工程这门科学的尊重:
对待技术的态度
一个公司的工程文化
领导者对工程的尊重
以上来自陈皓老师的《关于高可用的系统》
版权声明: 本文为 InfoQ 作者【escray】的原创文章。
原文链接:【http://xie.infoq.cn/article/132b10ce236094d4b360715eb】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论