一种高并发下的自旋锁优化方案
本文分享自天翼云开发者社区《一种高并发下的自旋锁优化方案》.作者:星空赶路者
1.问题背景
CDN 线上有一些节点机器 cpu 存在突刺,都是在晚上业务高峰期才出现。该节点存在大量的小文件访问,使用了固态硬盘。经过线下压测模拟复现了线上的问题现象。
2.问题原因
通过工具发现 cpu 突刺时的堆栈信息在对一张共享内存哈希表进行非常高频的更新与访问。主要原因为:1.需要更新当前主机 url 的访问量信息。2 需要提供查询接口当前主机 url 的访问信息。
由于存在对临界资源的更新和访问,需要对读写加锁。目前锁为自旋锁,自旋锁在加锁不成功时,一直尝试不会释放 cpu 资源。当临界区操作很短暂时,自旋锁处理的性能就非常高。但如果很多个进程(80 个 nginx worker 进程)同时竞争一把自旋锁时,就会导致锁冲突加剧,cpu 突刺明显。由于不能及时释放 cpu 计算资源,对主机上的其他进程也会产生影响。
3.优化方案
为了避免 n 多个进程竞争同一把自旋锁,需要对锁进行分级管理:分为外层锁和内层锁。外层锁只有有限的 N 把,内层锁只有一把。
进程在读写共享内存哈希表之前,根据一定的哈希算法,哈希到某个外层锁加锁,只有加锁成功后,才有资格对内层锁加锁。
如果外层锁加锁失败,则调度后续其他请求继续处理,将本次请求放到调度队列最后。最终竞争内存自旋锁的只有有限的几个进程。这样就大大降低了冲突概率。







评论