架构师训练营第 1 期 -week11
问题1
导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?请分别列举并简述。
引起故障的主要原因
硬件故障
软件 bug
系统发布
并发压力
网络攻击
外部灾害
高可用架构
提高代码可用性
- 高内聚、低耦合组件设计
- 面向对象设计
- DDD 建模
使用服务集群
假设只有一台服务器执行所有应用,只要有人不小心踩到了电源插头,就可以导致整个服务宕机。通常系统设计时通常会将应用部署到不同的服务器上:若一台服务器宕机的概率为 10%,即可用性为 90% ;三台同样的服务器的可用性就可以提高到 1 - 10% ^3 = 99.9%
,可用性明显上升。当然,服务集群意味着更高的硬件成本,现在比较流行虚拟化容器等技术降低成本。
无状态组件
部署服务集群是保证高可用的最基本需求:确保任何一个节点都可以断连、关机、升级,但是剩余的服务依旧正常工作。应用集群一般设计为无状态服务,通过 Session、cache 或是数据库共享信息。
Load Balancing
负载均衡既是应对网络并发压力的解决方案,也可以在检测到某实例故障时,无缝切换流量,提高系统容错能力。
降级、熔断、限流
- 降级也就是当我们的服务器压力剧增为了保证核心功能的可用性,而选择性的降低或是直接关闭一些次要功能
- 熔断一般是指依赖的外部接口出现故障的情况断绝和外部接口的联系
- 限流也就是系统规定了多少承受能力,只允许这么些请求能过来,拒绝超载请求
数据备份、恢复
数据库奔溃比服务器宕机危害更大,因为用户的数据很可能会就此丢失,后果不堪设想。数据库冗余备份是系统设计时必须的考量。每个数据中心都应该具有完整的备份,并事先计划好数据丢失和恢复的策略。
Failover
失效转移指的是当主要组件异常时,其功能转移到备份组件。其要点在于有主有备,且主故障时备可启用并设置为主。通常的实现手段有:主从复制、主主复制,也可以结合数据分片等等技术。
异地多活
服务集群、数据库扩展后,有些安全隐患依旧不可避免,比如地震、火灾这类自然灾害很可能导致整个机房遭遇重大破坏。为了避免这类事故,一般会在多地部署机房,实现异地容灾容错。当然地球爆炸时,异地多活也会失效,所以以防万一我们也可以将服务部署在卫星上
故障恢复计划
如上的架构设计仅仅是提高系统的可用性,但依旧不可能完全避免故障产生。因而还得建立一套系统的故障恢复流程:
- 能及时地隔离故障设备,确保剩余系统功能正常
- 建立故障历史记录,并追踪问题根源
- 通过监控系统收集负载数据并分析趋势
- 建立一系列恢复手册,并定期测试其实用性
- 员工培训,以提高设计、部署、运维的能力
- 还应制定安全策略,抑制安全漏洞
问题2
请用你熟悉的编程语言写一个用户密码验证函数,Boolean checkPW(String 用户 ID,String 密码明文,String 密码密文),返回密码是否正确 boolean 值,密码加密算法使用你认为合适的加密算法。
评论