架构实战营 模块五
设计微博系统中”微博评论“的高性能高可用计算架构。
基于模块 5 第 6 课的微博实战案例,分析“微博评论”这个核心场景的业务特性,然后设计其高性能高可用计算架构,包括但不限于如下内容:
计算性能预估(不需要考虑存储性能);
非热点事件时的高性能计算架构,需要考虑是否要拆分独立的服务;
热点事件时的高可用计算架构。
一、计算性能估算
1.1 用户量预估
【用户量】1.2020.9 月月活 5.11 亿,日活 2.24 亿(参考《微博 2020 用户发展报告》)。
【关键行为】1.写评论;2.看评论。
1.2 用户行为建模和性能需求计算
【写评论】
考虑到微博评论是一个看得多写得少的业务,而且大 V 和明星的微博评论量会远远超过普通的微博,姑且假设每条微博平均有 10 条评论,微博每天的发送量约为 2.5 亿条,则评论每天的发送量约为 25 亿条。大部分的人写评论集中在早上 8:00~9:00 点,中午 12:00~13:00,晚上 20:00~22:00,假设这几个时间段写的总量占比为 60%,则这 4 个小时的平均写评论的 TPS 计算如下:25 亿* 60%/(4* 3600)≈ 100K/s。
【看评论】
由于绝大部分微博用户看微博的对象是大 V 和明星,姑且假设再点进去看评论的人数为看微博人数的 20%,因此我们假设平均一条微博观看人数有 100 次,则观看评论的次数为:2.5 亿* 100*20%=50 亿。大部分人看评论的时间段和发微博的时间段基本重合,因此看评论的平均 QPS 计算如下:50 亿* 60%/(4*3600)=200K/s。
二、高性能计算架构设计
2.1 写评论
【业务特性分析】是一个典型的写操作,因此不能用缓存,可以用负载均衡。
【架构分析】用户量过亿,应该要用多级负载均衡架构,覆盖 DNS->F5->Nginx->网关的多级负载均衡。【架构设计】
负载均衡算法选择
写评论的时候依赖于登录状态和所评论的微博 ID,登录状态和微博 ID 一般都是保存在分布式缓存中的,因此写评论的时候,将请求发送给任意服务器都可以,这里选择“轮询”或者“随机”算法。
业务服务器数量估算
写评论涉及几个关键的处理:内容审核(依赖审核系统)、数据写入存储(依赖存储系统)、数据写入缓存(依赖缓存系统),因此按照一个服务每秒处理 800 来估算,完成 100K/s 的 TPS,需要 125 台服务器,加上一定的预留量,150 台服务器差不多了。
2.2 看评论
【业务特性分析】
看评论是一个典型的读场景,由于发了后不能修改,因此非常适合用缓存架构,同时由于请求量很大,负载均衡架构也需要。
【架构分析】
用户量过亿,应该要用多级负载均衡架构;
请求量达到 50 亿,应该要用多级缓存架构,尤其是 CDN 缓存,是缓存设计的核心。
【架构设计】
负载均衡算法选择游客都可以直接看评论,因此将请求发送给任意服务器都可以,这里选择“轮询”或者“随机”算法。
业务服务器数量估算假设 CDN 能够承载 90%的用户流量,那么剩下 10%的读评论的请求进入系统,则请求 QPS 为 200K/s* 10%=20K/s,由于读取的处理逻辑比较简单,主要是读缓存系统,因此假设单台业务服务器处理能力是 1000/s,则机器数量为 20 台,按照 20%的预留量,最终机器数量为 24 台。
2.3 整体架构设计
【计算高性能】
任务分配:需要双机房或者三机房。
任务分解:写评论和看评论不需要拆分不同服务。主要原因是写和看都是对所关联的微博操作同一个评论列表数据,有利于提高缓存利用效率。
【多级负载均衡】
【多级缓存】
三、高可用计算架构设计
3.1 用户行为建模和性能估算
热点事件指某个大 V 或者明星爆料或者官宣,虽然只有一两条微博,但引起大量用户在短时间内访问,给系统造成很大压力。
【写评论】造成热点事件的微博自己只有 1~2 条,但是用户围观后会有很多评论以及转发微博的评论,假设有 10%的围观用户会在事件发生后 60 分钟内评论。
【看评论】很难预估,和事件的影响力和影响范围有关。
3.2 业务特性分析
在热点事件发生后,绝大部分写评论和看评论的请求都落在了导致热点事件发生的那一条微博或者转发的微博上面。
3.3 架构设计分析
可以考虑对“写评论”限流,由于评论能带来更好的传播,因此尽量少丢弃请求,考虑用“漏桶算法”。
看评论很明显,热点事件微博存在缓存热点问题,可以考虑“多副本缓存”,由于原有的缓存架构已经采用了“应用内的缓存,总体上来看,缓存热点问题其实不一定很突出。
评论