生产环境全链路压测建设历程之六 淘宝网 2012 年双十一的痛
前面几篇提到
09年淘宝网业务迅猛发展的同时,业务核心链路的不可用时间接近48小时,
但从技术上、组织上、流程上进行了一系列的发力,是拿到了一定的结果了。
从09年的全年累计不可用时长2628分钟(接近2天)。
到2010年,核心链路的不可用时间已经从2628分钟,降低到526分钟了(接近9小时)
再到2011年,开始做一系列的监控工具、发布工具,核心链路的全年累计不可用时长,已经降低到183分钟了(接近3个小时)。
各位看官看到这里,估计会感觉到全年可用率要达到99.99%,已经是触手可及了。
2012年的超卖事件
2009年11月11日,第一个双十一,那时候还叫淘宝商城,只有27个品牌参加,单店最高销售纪录是杰克琼斯的500万。
淘宝全年GMV为2083亿,“双11”GMV为5000万。但对于淘宝网而言,还有一个很特殊的意义,淘宝首次实现收支平衡。
此后,2010年的“双11”,销售额飙升到了9.36亿。
到了2011年,这一数字到了惊人的33.6亿。
从上面的数字可以看出来双十一的意义非凡,交易系统不容有失。
我们当时候,已经从2012年6月份开始进行系统优化、扩容。到时候淘宝网的用户、商品、交易、优惠、店铺、积分等各个中心,以及天猫也有对应的天猫交易中心、优惠中心。
业务系统研发团队,再加上中间件团队、应用运维团队、测试团队、DBA团队、网络团队等等加起来,大约200多号人,持续了5个月,用各种表格来收集各个系统的容量、优化计划等。
会议也是普天盖地的开,正式一点的是订个会议室,小一点的是茶水吧就开搞讨论。
从上面的描述来看,整个筹备双十一的过程还是一项浩大的协作工程。在2012年7月份的时候,业务系统就停止接需求,一心一意迎战双十一。
对于瞬息万变的互联网公司来说,这是一个不可思议的过程。居然有接近4个月的需求冻结期。
但实在没办法,双十一太重要了,所有一些和双十一无关的,都得让路。
因为这个浩大的协作工程,以至于后来阿里集团合伙人、达摩院院长行癫 说了这么一句话:“2013年以前的双十一要花6个月准备战场,2个月打扫战场”。
投入了这么多的人力,时间来做准备,按理来说,2012年双十一应该是平稳过渡吧?
但是,2012年的流量实在是太大了,从后面的统计数据来看, 2012年的“双11”销售额首次突破百亿元大关。
因为流量太大,对热门商品进行扣减库存的时候,出现了各种极端的无法在测试环境模拟的情况、异常,最后的结果是商品库存超卖了。
2012年的时候,淘宝网和天猫网的工程师,都在创业大厦、华星时代广场办公室,还没搬去淘宝网。
在双十一零点的时候,其实我们也知道系统卡顿了一会,但在那时候,没考虑到后续的事情。
在后来几天,陆陆续续的开始接到商家反馈,商品超卖了。
一开始以为是零星的问题,但随着接到的投诉越多,我们隐隐约约感觉到问题很严重。
后来有越来越多的消费者投诉到12315消费者热线,最后还发酵到上了央视新闻,新浪网。
有希望继续探讨生产环境全链路压测的,欢迎加我微信,一起加群探讨交流
版权声明: 本文为 InfoQ 作者【数列科技杨德华】的原创文章。
原文链接:【http://xie.infoq.cn/article/16cab2bab9b47252f827e67af】。文章转载请联系作者。
评论