导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?

用户头像
escray
关注
发布于: 2020 年 12 月 06 日
导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?

导致服务器不可用的因素分为有计划和无计划的两种





其中无计划宕机原因有:





  • 系统级的故障 –  包括主机、操作系统、中间件、数据库、网络、电源以及外围设备

  • 数据和中介的故障 – 包括人员误操作、硬盘故障、数据乱了

  • 还有:自然灾害、人为破坏、以及供电问题。



有计划的宕机原因有:





  • 日常任务:备份,容量规划,用户和安全管理,后台批处理应用

  • 运维相关:数据库维护、应用维护、中间件维护、操作系统维护、网络维护

  • 升级相关:数据库、应用、中间件、操作系统、网络、包括硬件升级



保障系统稳定高可用的方案有:



  1. 负载均衡

  2. 数据库复制与失效转移

  3. 消息队列隔离

  4. 限流和降级

  5. 异地多活



High Availability,is a characteristic of a system which aims to ensure an agreed level of operational performance, usually uptime, for a higher than normal period. -- wiki



是的,要干出高可用的系统,这TMD就是一套严谨科学的工程管理,其中包括但不限于了:



  • 软件的设计、编码、测试、上线和软件配置管理的水平

  • 工程师的人员技能水平

  • 运维的管理和技术水平

  • 数据中心的运营管理水平

  • 依赖于第三方服务的管理水平



深层交的东西则是——对工程这门科学的尊重:



  • 对待技术的态度

  • 一个公司的工程文化

  • 领导者对工程的尊重



以上来自陈皓老师的《关于高可用的系统



发布于: 2020 年 12 月 06 日阅读数: 32
用户头像

escray

关注

Let's Go 2017.11.19 加入

大龄菜鸟项目经理

评论

发布
暂无评论
导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?