【Java 每日面试题】大厂是如何设计秒杀系统的?
秒杀服务即使自己扛不住高并发而宕机,也不要造成服务雪崩。
避免恶意攻击,机器人模拟秒杀请求
避免链接暴露,自己工作人员,提前秒杀商品
秒杀读多写少。无需每次实时校验库存。库存预热,放到 Redis,信号量控制进来秒杀的请求。
Nginx 做好动静分离。静态资源 Nginx 直接返回,保证秒杀和商品详情页的动态请求才打到后端服务集群。
使用 CDN 网络,分担本集群压力。
服务网关识别非法攻击请求并进行拦截。
使用各种手段,将流量分担到更大宽度的时间点。比如验证码,加入购物车。
前端限流+后端限流 限制次数,限制总量,快速失败降级运行, 熔断隔离防止雪崩。
1 万个商品,每个 1000 件秒杀。双 11 所有秒杀成功的请求,进入队列,慢慢创建 订单,扣减库存即可。
高并发系统设计的三个目标:性能、可用性和可扩展性。
在提升系统性能方面我们一直关注的是系统的查询性能,比如数据库的分布式改造,各类缓存。因为大部分场景都是读多写少。
比如一个社区系统初期一定是只有少量的种子用户在生产内容,而大部分的用户都在“围观”别人在说什么。此时,整体流量较小,而写流量可能只占整体流量的百分之一,那么即使整体的 QPS 到了 1w,写请求 QPS 也只是到了 100,如果要对写请求做性能优化,性价比不高。
但随着业务发展,可能遇到一些存在高并发写请求场景,比如秒杀。假设你的商城策划了一期秒杀活动,活动在第五天的 00:00 开始,仅限前 200 名,那么秒杀即将开始时,后台会显示用户正在疯狂地刷新 APP 或者浏览器来保证自己能够尽量早的看到商品。
这时,你面对的依旧是读请求过高,那么应对的措施有哪些呢?
丢弃订单
最早期,量太大扛不住,直接前端随机 reject 一些,返回抢单失败,简
单粗暴,但是有效,比如 10 万人抢 100 个 iPhone,只要能提前预测有大概 1 万以上的人参与(通过资格确认、报名等方式收集信息),那么直接请求进来以后随机挡回去
99%的流量都没有啥问题。
优化吞吐
中间有段时间,提前准备一大批机器,服务化、分库分表搞定后端性能,让前端业务可以加一定量的机器,然后搞稳定性,依赖关系,容量规划,做弹性,提升吞吐量。
异步队列
使用可堆积的消息队列或内存消息队列。若抢单具有强顺序,则先都进队列,然后拿前 N (就是库存数)个出来平滑处理,剩下都可作为失败进行批处理,甚至还可以做一个定长队列,再往里写直接提示失败。队列把并发变成串行,从而去掉了分布式锁。
内存分配
某些业务可以考虑预热,提前在每个机器节点内存分配好库存数,然后直接在内存处理库存数。
拆分扩展
对于不同类型、不同商家、不同来源的商品,部署不同的前端促销集群,
分散压力。比如,按每个整点发起秒杀,具体到每个商家,其实量就不大了。
服务降级
越重要的抢单,大家越关心自己有没有抢到,而不是特别在意订单立即处
理完,也就是说,下单占到位置比处理完成订单要更有价值。比如 12306 春运抢票,只要告诉用户你抢到了票,但预计 1 个小时后订单才会处理完,用户有这个明确预期即可。用户不会立马使用这张票,也不会在意 1min 还是 1h 内处理完。
部分方案会导致销售不足或超卖:
销售不足可以从抢购里加一些名单补发,也可以加一轮秒杀
超卖比较麻烦,所以一般会多备一点货,比如抢 100 个 iPhone,提前准备 110 个
因为用户查询的是少量的商品数据,属查询热点数据,
可采用缓存将请求尽量挡在上层缓存,能被静态化的数据(比如商城里的图片和视频数据)尽量做到静态化,这就可命中 CDN 节点缓存,减少 Web 服务器的查询量和带宽负担。Web 服务器比如 Nginx 可以直接访问分布式缓存节点,从而避免请求到达 Tomcat 等业务服务器。
当然,你可以加上一些限流的策略,比如对短时间之内来自某一个用户、某一个 IP 或者某一台设备的重复请求做丢弃处理。
通过这几种方式,请求就可以尽量挡在数据库之外了。
稍微缓解了读请求之后,00:00 分秒杀活动准时开始,用户瞬间向电商系统请求生成订单,扣减库存,用户的这些写操作都是不经过缓存直达数据库的。1 秒钟之内,有 1 万个数据库连接同时达到,系统的数据库濒临崩溃,寻找能够应对如此高并发的写请求方案迫在眉睫。这时你想到了消息队列。
理解消息队列
把消息队列看作暂时存储数据的一个容器,它是一个平衡低速系统和高速系统处理任务时间差的工具。
比如古代臣子朝见皇上陈述国家大事,等皇上决策。但大臣很多,如果同时去找皇上,皇上肯定会崩溃。后来变成臣子到午门后要原地等皇上将他们一个一个地召见进大殿商议,这就缓解皇上处理事情的压力。
可以把午门看作一个暂时容纳臣子的容器,即消息队列:
在 Java 线程池中我们就会使用一个队列来暂时存储提交的任务,等待有空闲的线程处理这些任务
os 中断的下半部分也会使用工作队列来实现延后执行
实现一个 RPC 框架时,也会将从网络上接收到的请求写到队列里,再启动若干个工作线程来处理
那如何用消息队列解决秒杀场景下的问题呢?
削去秒杀场景下的峰值写流量
在秒杀场景下短时间之内数据库的写流量很高,按以前思路,应该分库分表。若已做了分库分表,则需要扩展更多数据库应对更高写流量。
但无论是分库分表还是扩充更多数据库都会很复杂,因为你需要迁移数据库中的数据,这个时间就要按天甚至周计算。
而在秒杀场景下高并发的写请求并不是持续的,也不是经常发生,而只有在秒杀活动开始后的几 s 或十几 s 时间内才存在。
为了应对这十几 s 瞬间写高峰,而去花费几天甚至几周扩容 DB,再在秒杀之后花费几天做缩容,得不偿失!
所以思路是:将秒杀请求暂存在 MQ,然后业务服务器会响应用户“秒杀结果正在计算”,释放了系统资源之后再处理其它用户请求。
评论