模块五作业 ”微博评论“的高性能高可用计算架构

作者：小朱

2021 年 12 月 01 日
本文字数：1093 字
阅读完需：约 4 分钟

一、计算性能预估

【用户量】

2020.9 月月活 5.11 亿，日活 2.24 亿（参考《微博 2020 用户发展报告》）。

【关键行为】

1. 发微博；

2. 看微博；

3. 评论微博。

【发微博】考虑到微博是一个看得多发的少的业务，假设平均每天每人发 1 条微博（只考虑文字微博），则微博每天的发送量约为 2.5 亿条。大部分的人发微博集中在早上 8：00~9：00 点，中午 12：00~13：00，晚上 20：00~22：00，假设这几个时间段发微博总量占比为 60%，则这 4 个小时的平均发微博的 TPS 计算如下： 2.5 亿 * 60% / (4 * 3600) ≈ 10 K/s。

【看微博】由于绝大部分微博用户看微博的对象是大 V 和明星，因此我们假设平均一条微博观看人数有 100 次，则观看微博的次数为： 2.5 亿 * 100 = 250 亿。大部分人看微博的时间段和发微博的时间段基本重合，因此看微博的平均 QPS 计算如下： 250 亿 * 60% / (4*3600) = 1000K/s。

【评论微博】只有看微博后才会评论微博，我们假设平均每 10 次看微博就会产生 1 次评论微博，看微博的时间段和评论微博的时间段基本重合，因此评论微博的平均 TPS 计算如下： 1000K/s * 10% = 100K/s。我们再从发微博的角度验证下评估结果：发微博的 TPS 为 10K/s, 评论微博 TPS100K/s 除以 10K/s=10，意味着平均一条微博会有 10 个评论，基本合理。

二、非热点事件时的高性能计算架构

【业务特性分析】

评论微博属于写操作，但评论的内容相比“发微博”没有那么重要，允许丢失一点点数据，因此可以用写缓冲。量级较大，需要负载均衡。

【架构分析】

用户量过亿，需要采用多级负载均衡架构，覆盖 DNS--》F5--》Nginx--》网关的多级负载均衡。

【架构设计】

1 负载均衡算法选择

与发微博类似，评论微博依赖登录状态，而登录状态一般都保存在分布式缓存中，因此评论微博的时候，将请求分发到任意一台服务器都可以，因此可以采用“轮询”或“随机”的算法。

2 业务服务器数量估算

评论微博时涉及几个关键的处理：内容审核（依赖审核系统），数据写入缓冲（依赖缓存系统）。因此，按照一台服务器每秒处理 1000 个请求计算， 100K/s 需要 100 台服务器。

考虑到评论微博的重要性不及写微博，需要将评论微博拆分为独立的服务，便于更好地管理发微博服务、写微博服务、评论微博服务。比如突发情况下，可以采用降级策略，停止评论微博服务，而保留重要性更高的看微博服务和发微博服务。

至于评论微博后的“看评论”操作，比“看微博”的性能需求要低，因为看评论的请求肯定比看微博本身的请求要少，“看微博”的架构肯定能够满足“看评论”。