架构入门感悟之十一
Questions
问题 1
导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?请分别列举并简述。
导致系统不可用的原因:
1、硬件故障;2、软件 bug;3、系统发布;4、并发压力;5、网络攻击;6、外部灾害
保障系统稳定高可用的方案:
1、解耦
遵循以下原则进行解耦:
1、高内聚、低耦合的组件设计原则;2、面向对象基本设计原则
3、面向对象设计模式;4、领域驱动设计建模
2、隔离
• 业务与子系统隔离
• 微服务与中台架构
• 生产者消费者隔离
• 虚拟机与容器隔离
3、异步
• 多线程编程
• 反应式编程
• 异步通信网络编程
• 事件驱动异步架构
4、备份
• 集群设计
• 数据库复制
• CAP 原理
5、Failover(失效转移)
数据库主主失效转移
负载均衡失效转移
设计无状态的服务
6、幂等
应用调用服务失败后,会将调用请求重新发送到其他服务器,但是这个失败可能是虚假
的失败。比如服务已经处理成功,但是因为网络故障应用没有收到响应,这时应用重新
提交请求就导致服务重复调用,如果这个服务是一个转账操作,就会产生严重后果。
服务重复调用有时候是无法避免的,必须保证服务重复调用和调用一次产生的结果相同,
即服务具有幂等性。有些服务天然具有幂等性,比如将用户性别设置为男性,不管设置
多少次,结果都一样。但是对于交易等操作,问题就会比较复杂,需要通过交易编号等
信息进行服务调用有效性校验,只有有效的操作才继续执行。
7、事务补偿
传统事务的 ACID
• 原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation,又称独立性)、持久性
(Durability)
分布式事务的 BASE
• 基本可用(Basic Availability )、软状态(Soft-state)、最终一致性(Eventual consistency)
事务补偿:通过执行业务逻辑逆操作,使事务回滚到事务前状态
8、重试
远程服务可能会由于线程阻塞、垃圾回收或者网络抖动,而无法及时返还响应,调用者
可以通过重试的方式修复单次调用的故障。
• 上游调用者超时时间要大于下游调用者超时时间之和。
9、熔断
当某个服务出现故障,响应延迟或者失败率增加,继续调用这个服务会导致调用者请求
阻塞,资源消耗增加,进而出现服务级联失效,这种情况下使用断路器阻断对故障服务
的调用。
• 断路器三种状态:关闭,打开,半开
10、限流
在高并发场景下,如果系统的访问量超过了系统的承受能力,可以通过限流对系统进行
保护。限流是指对进入系统的用户请求进行流量限制,如果访问量超过了系统的最大处
理能力,就会丢弃一部分的用户请求,保证整个系统可用,保证大部分用户是可以访问
系统的。这样虽然有一部分用户的请求被丢弃,产生了部分不可用,但还是好过整个系
统崩溃,所有的用户都不可用要好。
限流的几种算法
• 计数器算法(固定窗口)
使用计数器在周期内累加访问次数,当达到设定的限流值时,触发限流策略。下一个周期开始
时,进行清零,重新计数。
固
固定窗口算法的临界点问题:假设 1min 内服务器的负载能力为 100,因此一个周期的访问量限
制在 100,然而在第一个周期的最后 5 秒和下一个周期的开始 5 秒时间段内,分别涌入 100 的访问
量,虽然没有超过每个周期的限制量,但是整体上 10 秒内已达到 200 的访问量,已远远超过服务
器的负载能力
• 计数器算法(滑动窗口)
将时间周期分为 N 个小周期,分别记录每个小周期内访问次数,并且根据时间滑动删除
过期的小周期。
假设时间周期为 1min,将 1min 再分为 2 个小周期,统计每个小周期的访问数量,则可以
看到,第一个时间周期内,访问数量为 75,第二个时间周期内,访问数量为 100,超过
100 的访问则被限流掉了
• 令牌桶算法
以固定的速度向令牌桶中增加令牌,直到令牌桶满,请求到达时向令牌桶请求令牌,如
获取到令牌则通过请求,否则触发限流策略
• 漏桶算法
访问请求到达时直接放入漏桶,如当前容量已达到限流值,则进行丢弃。漏桶以固定的
速率进行释放访问请求,直到漏桶为空。
11、自适应限流
没有提前的人工评估, 便没有提前的评估过时与人的评估疏漏/错误!
• 实时自动评估 QPS
• 业务流量的不确定性与技术方案的自适应性天生一对!
12、降级
有一些系统功能是非核心的,但是它也给系统产生了非常大的压力,比如说在电商系统
中有确认收货这个功能,即便我们不去确认收货,系统也会超时自动确认收货。
但实际上确认收货这个操作是一个非常重的操作,因为它会对数据库产生很大的压力:
它要进行更改订单状态,完成支付确认,并进行评价等一系列操作。如果在系统高并发
的时候去完成这些操作,那么会对系统雪上加霜,使系统的处理能力更加恶化。
解决办法就是在系统高并发的时候,比如说像淘宝双 11 的时候,当天可能整天系统都处
于一种极限的高并发访问压力之下,这时候就可以将确认收货、评价这些非核心的功能
关闭,将宝贵的系统资源留下来,给正在购物的人,让他们去完成交易。
13、异地多活
如果整个数据中心都不可用,比如说数据中心所在城市遭遇了地震,机房遭遇了火灾或
者停电,这样的话,不管我们的设计和系统多么的高可用,系统依然是不可用的。
为了解决这个问题,同时也为了提高系统的处理能力和改善用户体验,很多大型互联网
应用都采用了异地多活的多机房架构策略,也就是说将数据中心分布在多个不同地点的
机房里,这些机房都可以对外提供服务,用户可以连接任何一个机房进行访问,这样每
个机房都可以提供完整的系统服务,即使某一个机房不可使用,系统也不会宕机,依然
保持可用。
异地多活的难点是数据一致。
Summary
1、网络安全(常见攻击类别)
1.1 XSS 攻击
1.1.1 攻击类别
1.1.2 防护手段
消毒:XSS 攻击者一般都是通过在请求中嵌入恶意脚本达到攻击目的,这些脚本是一般
用户输入中不使用的,如果进行过滤和消毒处理,即对某些 HTML 危险字符转义,如
“>”转义为“>”、“<”转义为“<”等,就可以防止大部分攻击。为了避免对不
必要的内容错误转义,如“3<5”中的“<”,需要进行文本匹配后再转义,如“<img
src=”这样的上下文中“<”才转义。事实上,消毒几乎是所有网站最必备的 XSS 防攻
击手段。
1.2 SQL 注入攻击
1.2.1 获取数据库表结构手段
1、开源:如果网站采用开源软件搭建,如用 Discuz! 搭建论坛网站,那么网站数据库结构
就是公开的,攻击者可以直接获得。
2、错误回显:如果网站开启错误回显,攻击者故意构造非法参数,服务端异常信息会输出
到浏览器端,为攻击猜测数据库表结构提供了便利。
3、盲注:网站关闭错误回显,攻击者根据页面变化情况判断 SQL 语句的执行情况,据此猜
测数据库表结构,此种方式攻击难度较大。
1.2.1 含义
1.2.2 防护手段
1、消毒:和防 XSS 攻击一样,请求参数消毒是一种比较简单粗暴又有效的手段。通过正则
匹配,过滤请求数据中可能注入的 SQL 文。
如“drop table”、“\b(?:update\b.?\bset|delete\b\W?\bfrom)\b”等。
2、SQL 预编译参数绑定:使用预编译手段,绑定参数是最好的防 SQL 注入方法。目前许
多数据访问层框架,如 myBatis,Hibernate 等,都实现 SQL 预编译和参数绑定,攻击
者的恶意 SQL 会被当做 SQL 的参数,而不是 SQL 命令被执行。
1.3 CSRF 攻击
1.3.1 含义
1.3.2 防御手段
1、表单 Token:CSRF 是一个伪造用户请求的操作,所以需要构造用户请求的所有参数才
可以。表单 Token 就是阻止攻击者获得所有请求参数的可能,在页面表单中增加一个随
机数 Token,每次请求的 Token 都不相同,请求提交后检查 Token 的值是否正确以确
定请求提交者是否合法。
2、验证码:相对说来,验证码则更加简单有效,即请求提交时,需要用户输入验证码,以
避免在用户不知情的情况下被攻击者伪造请求。但是输入验证码是一个糟糕的用户体验,
所以必要的时候才使用,如支付交易等关键页面。
3、Referer check:HTTP 请求头的 referer 域中记录着请求来源,可通过检查请求来源,
验证其是否合法。但是该方法有一定局限性,referer 也并不一定总能得到。
1.4 其他攻击
1、Error Code:也称作错误回显,许多 Web 服务器默认是打开异常信息输出的,即服务器
端未处理的异常堆栈信息会直接输出到客户端浏览器,这种方式虽然对程序调试和错误
报告有好处,但同时也给黑客造成可乘之机。通过故意制造非法输入,使系统运行时出
错,获得异常信息,从而寻找系统漏洞进行攻击。防御手段也很简单,通过配置 Web 服
务器参数,跳转 500 页面(HTTP 响应码 500 表示服务器内部错误)到专门的错误页面即
可,这个功能 Web 应用常用的 MVC 框架也可以做到。
2、HTML 注释:为了程序调试方便或其他不恰当的原因,有的时候程序开发人员会在 PHP、
JSP 等服务器页面程序中使用 HTML 注释语法进行程序注释,这些 HTML 注释就会显
示在客户端浏览器,给黑客造成攻击便利。程序最终发布前需要进行代码 review 或自动
扫描,避免 HTML 注释漏洞。
3、文件上传:一般网站都会有文件上传功能,设置头像、分享视频、上传附件等。如果上
传的是可执行的程序,并通过该程序获得服务器端命令执行能力,那么攻击者几乎可以
在服务器上为所欲为,并以此为跳板攻击集群环境的其他机器。最有效的防御手段是设
置上传文件白名单,只允许上传可靠的文件类型。此外还可以修改文件名、使用专门的
存储等手段,保护服务器免受上传文件攻击。
4、路径遍历:攻击者在请求的 URL 中使用相对路径,遍历系统未开放的目录和文件。防御
方法主要是将 JavaScript、CSS 等资源文件独立服务器、独立域名,其他文件不使用静
态 URL 访问,动态参数不包含文件路径信息。
1.5 开源 Web 应用防火墙 ModSecurity
ModSecurity 是一个开源的 Web 应用防火墙,探测攻击并保护 Web 应用程序,既可以
嵌入到 Web 应用服务器中,也可以作为一个独立的应用程序启动。ModSecurity 最早只
是 Apache 的一个模块,现在已经有 Java、.NET 多个版本,并支持 Nginx。
ModSecurity 采用处理逻辑与规则集合分离的架构模式。处理逻辑负责请求和响应的拦
截过滤,规则加载执行等功能。而规则集合则负责对具体的攻击的规则定义、模式识别、
防御策略等功能。处理逻辑比较稳定,规则集合需要不断针对漏洞进行升级,这是一种
可扩展的架构设计。
1.6 网站安全漏洞扫描
网站安全漏洞扫描工具是根据内置规则,模拟黑客攻击行为,用以发现网站安全漏洞的
工具。许多大型网站的安全团队都有自己开发的漏洞扫描工具,不定期的对网站的服务
器进行扫描,查漏补缺。
2、高可用
2.1 架构方法
2.1.1 指标
业界通常用多少个 9 来衡量网站的可用性
对可用性的定性描述,两个 9 是基本可用,年度停机时间小于 88 小时;3 个 9 较高可用,
年度停机时间小于 9 小时;4 个 9 是具有自动恢复能力的高可用,年度停机时间小于 53 分
钟;5 个 9 是极高可用性,年度停机时间小于 5 分钟。由于可用性影响因素很多,对于网站
整体而言,达到 4 个 9,乃至 5 个 9 的可用性,除了过硬的技术、大量的设备资金投入和工
程师的责任心,还要有个好运气。
2.2 运维
版权声明: 本文为 InfoQ 作者【莫问】的原创文章。
原文链接:【http://xie.infoq.cn/article/1641562dd797b488d4026505c】。未经作者许可,禁止转载。
评论