2021 年 10 月 4 日 Facebook 史上最严重宕机复盘分析
1、相关新闻
据 BBC 等媒体报道,UTC 时间 2021 年 10 月 4 日 15 时 39 分(即北京时间 10 月 4 日 23 时 39 分),社交网络 Facebook 及其子公司 Messenger、Instagram 和 WhatsApp 全球无法使用长达 7 个小时。
Facebook 在其 twitter 中发表官方声明“Our engineering teams have learned that configuration changes on the backbone routers that coordinate network traffic between our data centers caused issues that interrupted this communication. This disruption to network traffic had a cascading effect on the way our data centers communicate, bringing our services to a halt” (翻译:调度数据中心之间流量的骨干网路由器配置变化造成了这次通讯中断。这种网络流量中断对数据中心的通信产生了连锁效应,最终导致我们服务宕机。)
可以看出官方的答复并没有很清楚地说明错误原因。因此我们复盘给出宕机事故的根本原因。
2、Downdetector 监测到 Facebook 网络波动
图 1 Downdetector 监测到 Facebook 网络波动
Downdetector 网站通过收集社交网络中的中断信息来推断断网,如图 1 所示。Downdetector 在 EDT 时间的 10 月 4 日 11 时 44 分(即北京时间 10 月 4 日 23 时 44 分)检测到 Facebook 网络波动问题,具体原因没有说明。
3、Facebook 和 WhatsApp 服务中断原因分析
Facebook 的 AS 为 AS32934,WhatsApp 的 AS 为 AS11917。
北京时间 10 月 5 日凌晨 0 时(UTC 时间 10 月 4 日 16 时整)观察到 Facebook(AS32934)出现网络波动,其 Prefix 数量和 IP 数量都有所减少。直到北京时间 10 月 5 日早上 7 时整,Prefix 数量和 IP 数量恢复,如图 2 所示。其中,Prefix 数量由 10 月 4 日 23 时 30 分的 129 个减少为 10 月 5 日 0 时的 103 个,Prefix 数量减少了 26 个,共计 5,888 个 IP。丢失 IP 块明细如下:
129.134.25.0/24、129.134.26.0/24、129.134.27.0/24、129.134.28.0/24、129.134.29.0/24、129.134.30.0/23、129.134.30.0/24、129.134.31.0/24、129.134.65.0/24、129.134.66.0/24、129.134.67.0/24、129.134.68.0/24、129.134.69.0/24、129.134.70.0/24、129.134.71.0/24、129.134.72.0/24、129.134.73.0/24、129.134.74.0/24、129.134.75.0/24、129.134.76.0/24、129.134.79.0/24、157.240.207.0/24、185.89.218.0/23、185.89.218.0/24、185.89.219.0/24、69.171.250.0/24
图 2 网动仪捕获到 Facebook(AS32934)有明显波动情况发生
Facebook 有 4 个权威 DNS 服务器,分别是 a.ns.facebook.com(129.134.30.12)、b.ns.facebook.com(129.134.31.12)、c.ns.facebook.com(185.89.218.12)和 d.ns.facebook.com(185.89.219.12),4 个 DNS 服务器 IP 都在丢失的 IP 块中。
因此,这次故障的原因是调度数据中心之间网络流量的骨干路由器配置更改导致边界网关协议撤销了 Facebook 自治域 AS32934 下包含 Facebook域名服务器IP 的IP地址块,抹去了 Facebook 需要的 DNS 路由信息,紧接着 DNS 服务器离线,用户无法解析 Facebook 和相关域名并访问服务。
同时,在北京时间 10 月 5 日凌晨 0 时开始也监控到了 WhatsApp(AS11917)下所有 Prefix、IP 和路径的丢失,如图 3 所示。
图 3 网动仪捕获到 WhatsApp (AS11917)有明显波动情况发生
WhatsApp 服务也无法访问的原因是:在 2019 年 Facebook 合并旗下所有服务并实现集中化,使公司可以统一了解用户的互联网使用习惯。但是,这也使得本次单点故障影响了整个 Facebook 服务体系。
综上所述,埃文科技网动仪捕获到 Facebook 的 AS32934 和 WhatsApp 的 AS11917 的网络波动,波动时间也与新闻报道的 Facebook 断网时间吻合。服务中断原因是主干路由器上的配置更改导致边界网关协议(BGP) 撤销了托管 Facebook 域名服务器的 IP 地址前缀,进而引发的一系列服务异常。
评论