写点什么

生产环境全链路压测建设历程之六 淘宝网 2012 年双十一的痛

发布于: 2020 年 12 月 11 日

前面几篇提到

09年淘宝网业务迅猛发展的同时,业务核心链路的不可用时间接近48小时,





但从技术上、组织上、流程上进行了一系列的发力,是拿到了一定的结果了。

从09年的全年累计不可用时长2628分钟(接近2天)。

到2010年,核心链路的不可用时间已经从2628分钟,降低到526分钟了(接近9小时)

再到2011年,开始做一系列的监控工具、发布工具,核心链路的全年累计不可用时长,已经降低到183分钟了(接近3个小时)。



各位看官看到这里,估计会感觉到全年可用率要达到99.99%,已经是触手可及了。

2012年的超卖事件



2009年11月11日,第一个双十一,那时候还叫淘宝商城,只有27个品牌参加,单店最高销售纪录是杰克琼斯的500万。

淘宝全年GMV为2083亿,“双11”GMV为5000万。但对于淘宝网而言,还有一个很特殊的意义,淘宝首次实现收支平衡。



此后,2010年的“双11”,销售额飙升到了9.36亿。

到了2011年,这一数字到了惊人的33.6亿。

从上面的数字可以看出来双十一的意义非凡,交易系统不容有失。

我们当时候,已经从2012年6月份开始进行系统优化、扩容。到时候淘宝网的用户、商品、交易、优惠、店铺、积分等各个中心,以及天猫也有对应的天猫交易中心、优惠中心。

业务系统研发团队,再加上中间件团队、应用运维团队、测试团队、DBA团队、网络团队等等加起来,大约200多号人,持续了5个月,用各种表格来收集各个系统的容量、优化计划等。



会议也是普天盖地的开,正式一点的是订个会议室,小一点的是茶水吧就开搞讨论。



从上面的描述来看,整个筹备双十一的过程还是一项浩大的协作工程。在2012年7月份的时候,业务系统就停止接需求,一心一意迎战双十一。

对于瞬息万变的互联网公司来说,这是一个不可思议的过程。居然有接近4个月的需求冻结期。

但实在没办法,双十一太重要了,所有一些和双十一无关的,都得让路。



因为这个浩大的协作工程,以至于后来阿里集团合伙人、达摩院院长行癫 说了这么一句话:“2013年以前的双十一要花6个月准备战场,2个月打扫战场”。



投入了这么多的人力,时间来做准备,按理来说,2012年双十一应该是平稳过渡吧?



但是,2012年的流量实在是太大了,从后面的统计数据来看, 2012年的“双11”销售额首次突破百亿元大关。



因为流量太大,对热门商品进行扣减库存的时候,出现了各种极端的无法在测试环境模拟的情况、异常,最后的结果是商品库存超卖了。



2012年的时候,淘宝网和天猫网的工程师,都在创业大厦、华星时代广场办公室,还没搬去淘宝网。

在双十一零点的时候,其实我们也知道系统卡顿了一会,但在那时候,没考虑到后续的事情。



在后来几天,陆陆续续的开始接到商家反馈,商品超卖了。

一开始以为是零星的问题,但随着接到的投诉越多,我们隐隐约约感觉到问题很严重。



后来有越来越多的消费者投诉到12315消费者热线,最后还发酵到上了央视新闻,新浪网。







有希望继续探讨生产环境全链路压测的,欢迎加我微信,一起加群探讨交流



发布于: 2020 年 12 月 11 日阅读数: 59
用户头像

还未添加个人签名 2017.12.21 加入

还未添加个人简介

评论

发布
暂无评论
生产环境全链路压测建设历程之六 淘宝网2012年双十一的痛