写点什么

第四周作业

用户头像
晴空万里
关注
发布于: 2020 年 11 月 15 日

问题描述:一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?请列举描述。



大型互联网应用系统脱胎于传统软件架构设计,符合软件设计模式,就有一些规律和章法可循,在构建一个大型互联网应用过程中,人们逐渐总结并积累了一些通用性的、经过验证的且成熟的局部解决方案,这就是教授在《大型互联网技术架构》一书中所描述的内容。



关于什么是模式,这个来自与建筑学的词汇是这样定义的:“每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样,你就能一次又一次地使用该方案而不必做重复工作”。



这些互联网系统涉及的核心技术方案、手段包括:前端优化、CDN、反向代理、缓存、消息队列、分布式存储、分布式服务、NoSQL存储、搜索、监控、安全等一系列保证大型网站安全可靠运行的关键技术。



下面,本文从以下几个方面进行描述使用了哪些:

  1. 分层

  2. 分割

  3. 分布式

  4. 集群

  5. 缓存

  6. 异步

  7. 冗余

  8. 自动化

  9. 安全

分层

分层是企业系统中最常见的一种架构模式,将系统在横向维度上划分几个部分,每个部分负责一个相对比较单一的职责,然后通过上层对下层的依赖和调用组成一个完整的系统。



分层结构在计算世界中无处不在,网络的7层通信协议是一种分层结构;计算机硬件、操作系统、应用软件也可以看作是一种分层结构。在大型网站架构中也采用分层结构,将网站软件系统分为应用层、服务层、数据层。

  • 应用层:负责具体业务和视图展示,如网站首页及搜索输入和结果展示

  • 服务层:为应用层提供服务支持,如用户管理服务、购物车服务等

  • 数据层:提供数据存储访问服务,如数据库、缓存、文件、搜索引擎等

分割

如果说分层是将软件在横向方面进行切分,那么分割就是在纵向方面对软件进行切分。

网站越大,功能越复杂,服务和数据处理的种类也越多,将这些不同的功能和服务分割开来,包装成高内聚低耦合的模块单元,一方面有助于软件的开发和维护;另一方面,便于不同模块的分布式部署,提高网站的并发处理能力和功能扩展能力。

分布式

对于大型网站,分层和分割的一个目的是为了切分后的模块便于分布式部署,即将不同模块部署在不同的服务器上,通过远程调用协同工作。分布式意味着可以使用更多的计算机完成同样的功能,计算机越多,CPU、内存、存储资源也就越多,能够处理的并发访问和数据量就越大,进而能够为更多的用户提供服务。

在网站运营中,常用的分布式解决方案有以下几种:

  • 分布式应用和服务

将分层和分割后的应用和服务模块分布式部署,除了可以改善网站性能和并发性、加快开发和发布速度、减少数据库连接资源消耗外;还可以使不同应用复用共同的服务,便于业务功能扩展。

  • 分布式静态资源

网站的静态资源如JS、CSS、Logo等图片资源独立分布式部署,并采用独立的域名,即人们常说的动静分离。静态资源分布式部署可以减轻应用服务器的负载压力;通过使用独立域名加快浏览器并发加载的速度;由负责用户体验的团队进行开发维护有利于网站分工合作,使不同技术工种术业有专攻。

  • 分布式数据和存储

大型网站需要处理以P为单位的海量数据,单台计算机无法提供如此大的存储空间,这些数据需要分布式存储。除了对传统的关系数据库进行分布式部署外,为网站应用而生的各种NoSQL产品几乎都是分布式的。

  • 分布式计算

严格来说,应用、服务、实时数据处理计算都是计算,网站除了要处理这些在线业务,还有很大一部分用户没有直观感受的后台业务要处理,包括搜索引擎的索引构建、数据仓库的数据分析统计等。这些业务的计算规模非常庞大,目前网站普遍使用Hadoop及其MapReduce分布式计算框架进行此类批处理计算,其特点是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

此外,还有可以支持网站线上服务配置实时更新的分布式配置;分布式环境下实现并发和协同的分布式锁;支持云存储的分布式文件系统等。

集群

使用分布式虽然已经将分层和分割后的模块独立部署,但是对于用户访问集中的模块(比如网站的首页),还需要将独立部署的服务器集群化,即多台服务器部署相同的应用构成一个集群,通过负载均衡设备共同对外提供服务。

因为服务器集群有更多服务器提供相同服务,因此可以提供更友好的并发特性,当有更多用户访问的时候,只需要向集群中加入新的机器即可。同时因为一个应用由多台服务器提供,当某台服务器发生故障时,负载均衡设备或者系统的失效转移机制会将请求转发到集群中的其它服务器上,使服务器故障不影响用户使用。所以在网站应用中,即使是访问量很小的分布式应用和服务,也至少需要部署两台服务器构成一个小的集群,目的就是提高系统的可用性。

缓存

缓存就是将数据存放在距离计算最近的位置以加快处理速度。缓存是改善软件性能的第一手段,现代CPU越来越快的一个重要原因是使用了很多的缓存,在复杂的软件设计中,缓存几乎无处不在。大型网站架构设计在很多方面都使用了缓存设计。

  • CDN:即内容分发网络,部署在距离终端用户最近的网络服务商,用户的网络请求总是先到达它的网络服务商那里,在这里缓存网站的一些静态资源(较少变化的数据),可以就近以最快的速度返回给用户,如视频网站和门户网站会将用户访问量大的热点内容缓存在CDN。

  • 反向代理:反向代理属于网站前端架构的一部分,部署在网站的前端,当用户请求到达网站的数据中心时,最先访问到的就是反向代理服务器,这里缓存网站的静态资源,无需将请求继续转发给应用服务器就能返回给用户。

  • 本地缓存:在应用服务器本地缓存着热点数据,应用程序可以在本机内存中直接访问数据,而无需访问数据库。

  • 分布式缓存:大型网站的数据量非常庞大,即使只缓存一小部分,需要的内存空间也不是单机能承受的,所以除了本地缓存,还需要分布式缓存,将数据缓存在一个专门的分布式缓存集群中,应用程序通过网络通信访问缓存数据。

异步

计算机软件发展的一个重要目标和驱动力是降低软件耦合性。事物之间直接关系越少,就越少被彼此影响,越可以独立发展。大型网站架构中,系统解耦合的手段除了前面提到的分层、分割、分布式等,还有一个重要手段就是异步,业务之间的消息传递不是同步调用,而是将一个业务操作分成多个阶段,每个阶段之间通过同享数据的方式异步执行进行协作。

在单一服务器内部可通过多线程共享内存队列的方式实现异步,处在业务操作前面的线程将输出写入到队列,后面的线程线程从队列读取数据进行处理。在分布式系统中,多个服务器集群通过分布式消息队列实现异步,分布式消息队列可以看作内存队列的分布式部署。

异步架构是典型的生产者、消费者模式,两者不存在直接调用,只要保持数据结构不变,彼此功能实现可以随意变化而不互相影响,这对网站扩展新功能非常便利。

冗余

网站需要7*24小时连续运行,但是服务器随时可能出现故障,特别是服务器规模比较大的时候,出现某台服务器宕机是必然事件。要想保证在服务器宕机的情况下网站依然可以继续服务,不丢失数据,就需要一定程度的服务器冗余运行,数据冗余备份,这样当某台服务器宕机时,可以将其上的服务和数据访问转移到其他机器上。

访问和负载很小的服务也必须部署至少两台服务器构成的集群上,其目的就是通过冗余实现服务高可用。数据库除了定期备份、存档保存,实现冷备份外,为了保证在线业务高可用,还需要对数据库进行主从分离,实时同步实现热备份

为了抵御地震、海啸等不可抗力导致的网站完全瘫痪,某些大型网站会对整个数据中心进行备份,全球范围内部署灾备数据中心。网站程序和数据实时同步到多个灾备数据中心。

自动化

在无人值守的情况下网站可以正常运行,一切都可以自动化是网站的理想状态。目前大型网站的自动化架构设计主要集中在发布运维方面。

发布对网站都是头等大事,许多网站故障出现在发布环节,网站工程师经常加班也是因为发布不顺利。通过减少人为干预,使发布过程自动化可有效减少故障。发布过程包括诸多环节。

自动化代码管理、代码版本控制、代码分支创建合并等过程自动化,开发工程师只要提交自己参与开发的产品代号,系统就会自动为其创建开发分支,后期会自动进行代码合并;

自动化测试,代码开发完成,提交测试后,系统自动将代码部署到测试环境,启动自动化测试用例进行测试,向相关人员发送测试报告,向系统反馈测试结果;

自动化安全测试,安全监测工具通过对代码进行静态安全扫描及部署到安全测试环境进行安全攻击测试,评估其安全性;

最后进行自动化部署,将工程代码自动部署到线上生产环境。

此外,网站在运行过程中可能会遇到各种问题:服务器宕机、程序bug、存储空间不足、突然爆发的访问高峰。

网站需要对线上生产环境进行自动化监控,对服务器进行心跳监测,并监控其各项性能指标和应用程序的关键数据指标。如果发现异常、超出预设的阈值,就进行自动化报警,向相关人员发送报警信息,警告故障可能会发生。

在检测到故障发生后,系统就会进行自动化失效转移,将失效的服务器从集群中隔离出去,不再处理系统中的应用请求。待故障消除后,系统进行自动化失效恢复,重新启动服务,同步数据保证数据一致性。在网站遇到访问高峰,超过网站最大处理能力时,为了保证整个网站的安全可用,还会进行自动化降级,通过拒绝部分请求及关闭部分不重要的服务将系统负载降至一个安全的水平,必要时,还需要自动化分配资源,将空闲资源分配给重要的服务,扩大其部署规模。

安全

互联网的开放特性使得其从诞生起就面对巨大的安全挑战,网站在安全架构方面也积累了许多模式:

  • 通过密码和手机校验码进行身份认证;

  • 登录、交易等操作需要对网络通信进行加密,网站服务器存储的敏感数据如用户信息等也进行加密处理;

  • 为了防止机器人程序滥用网络资源攻击网站,网站使用验证码进行识别;

  • 对于常见的用于攻击网站的XSS攻击SQL注入,进行编码转换等相应处理;

  • 对于垃圾信息、敏感信息进行过滤

  • 对交易转账等重要操作根据交易模式和交易信息进行风险控制



基于上述的一些技术手段,主要解决性能、可用性、伸缩性、扩展性、安全这五个方面;同时从多个层面为如何构建一个高可用、高性能、高可扩展性的网站系统给出了指导。



参考:《大型网站技术架构》



用户头像

晴空万里

关注

还未添加个人签名 2018.07.18 加入

还未添加个人简介

评论

发布
暂无评论
第四周作业