常见线程数量的估算方式
为了提高计算机的执行效率,需要尽量提高 CPU 的有效执行率。由于主流的应用系统以线程为运算执行基本单位,所以线程数可以等同于运算执行单位数量。由于在用户空间,需要用户自行进行线程的调度,那么如何计算最佳的线程数量呢?
从线程的状态当中,可以知晓一个线程并不是总在执行的,它会因为 I/O 等原因陷入阻塞状态,这种状态下,CPU 会处于空闲状态。为了提高 CPU 的利用率,这便需要在某一个线程处于阻塞状态的时候,给 CPU 安排其他线程进行处理,通过 cpu 调度算法,让用户看上去同时执行,增加系统整体的处理效率。
CPU 的利用率
确定需求所期望 CPU 的利用率(0-100%),以及成本可以负担的 CPU 的核心数量:
Ncpu = CPU 核心数
Ucpu = CPU 利用率,0-100%
线程总体运行时间和 CPU 运算时间比率= ((等待时间+CPU 运行时间)/CPU 运行时间)=(1 + W/C)
W/C = 等待时间与 CPU 运算时间的比率 (等待时间/CPU 运算时间的比率)
多核 CPU 的的线程数量计算公式一:
线程数 = Ncpu x Ucpu x (1 + W/C)
假设一个任务运算占总时间的 50%,当我们希望 CPU 利用率为 100% ,
线程数 = Ncpu x 1 x (1 + W/C) =Ncpu x (1 + W/C),
那么对于单核 CPU 来说想保持 100%的 CPU 效率需要的这样的任务数量为
线程数 = 1 x 1 x (1 + W/C) =1 x (1 + W/C) ,
也就是线程数 =1 + (0.5/0.5)=2 这个单核 CPU 可以并发的运行 2 个这样的任务。
若使用 Java 语言实现这个任务,为了简化问题假设不考虑 GC 对于 CPU 损耗,由于 Java 语言是一对一的线程映射模型,所以内核线程数等于用户线程数。我们假设 CPU 具有 4 个内核,所以使用 Java 实现多个任务运算占总时间的 50%的时候,可以运行的线程就是 4 x 1 x (1 + 0.5/0.5) =4 x 2 =8 个线程。
同时,也可以从线程阻塞(等待)情况来进行线程计算,将等待时间等同于阻塞时间,线程阻塞(等待)和总体运行时间和比率定义为 Blocking Coefficient(阻塞系数)
阻塞系数= 阻塞时间/(阻塞时间+CPU 运行时间)
假设一个任务阻塞率是 50%,也就是说这个任务有 50%的时间会被阻塞(例如读取文件,访问数据库网络 i/o 等),那么对于单核 CPU 来说想保持 100%的 CPU 效率需要的这样的任务数量为任务数量= 1/(1 - 0.5)=2,也就是说可以这个单核 CPU 可以并发的运行 2 个这样的任务。
假设使用 Java 语言实现这个任务,为了简化问题假设这里不考虑 GC 对于 CPU 损耗,由于 Java 语言是一对一的线程映射模型,所以内核线程数等于用户线程数,由此 Java 的线程数量在单核 CPU 上的计算公式为:
单核 CPU 任务数量= 1/(1 - 阻塞系数))
多核 CPU 的的线程数量计算公式二:
对于多核 CPU 来说,当每个线程之间没有依赖关系每个内核之间同时运行属于并行运算场景,由此可以得到对应多核 CPU 的的线程数量计算公式二:
线程数= Ncpu * 单核 CPU 任务数量=Ncpu *(1/(1 - 阻塞系数))), N 为 CPU 内核数量。
我们假设 CPU 具有 4 个内核,所以使用 java 实现多个任务阻塞率是 50%时候,可以运行的线程数=4 *(1/(1 - 0.5))=8 个线程。
从上面的例子可以看到当 Ucpu 为 100%时,公式一等同于公式二这两个公式是同一个问题的从两个角度进行的同等阐释。
Amdahl 定律
多线程并不是银弹它也有其极限,对于整个系统的效率提升可以参考计算机科学家 Gene Amdahl 1967 年在 AFIPS 春季联合计算机会议上提出了 Amdahl 定律。这个定律给出了固定工作负载下执行任务延迟,通过改善系统资源得到加速理论。
Slatency 是整个任务执行的理论加速;
s 是系统执行改善的加速倍数;
p 为被改进执行部分所占比例。
对于并行开发来说加速倍数可以等于 CPU 数量,所以 s=Ncpu
假设需要在一个 8 核 CPU 服务器上设计一个 web 系统,需要承受的 QPS 为 1000。平均单个 query 处理时间为 500ms,假设这些 Query 没有 CPU 阻塞,所以 1 秒单个线程最多处理 2 个 Query。同时,没有 CPU 阻塞也就意味着 线程数= Ncpu *( 1/(1 - 0))=Ncpu (是不是需要额外的一个线程防止线程意外停止即线程数= Ncpu+1 看线程切换的代价)。 8 核 CPU 意味着 Ncpu = 8 也就是 8 个线程。8 个线程每秒可以处理的 Query 数量为 8*2=16 个。
这里可以看到 1000 Qps 指标与单台服务器 16 个 Query 线程之间的差距,那就意味着 如果要达到为 1000 的 QPS 的指标需要 1000/16= 62.5 台服务器才能达成。
如果 其中的 network I/O 阻塞占整个 Query 执行时间的 90%,其他条件不便,线程数= Ncpu *( 1/(1 - 0.9))=8*( 1/(1 - 0.9))= 80 个线程,80 个线程每秒可以处理的 Query 数量为 80*2=160 个 Query。要达到为 1000 的 QPS 的指标需要 1000/160= 6.25 台服务器。需要的服务器数量大大减少。
假设,并发 Query 操作步骤占整体系统运行流程的比例为 50%,在保证 QPS 为 1000 的情况下
Slatency(S)= 1/((1-0.5)+0.5/1000 )= 1/( 0.5+0.0005)=1.9998
以上结果说明即使保证了 1000 的 QPS,保证了相应的服务器数量,整体提升比例仍不超过 2 倍。
假设,并发 Query 操作步骤占整体系统运行流程的比例为 95%,在保证 QPS 为 1000 的情况下
Slatency(S)= 1/((1-0.95)+0.95/1000 )= 1(0.05+0.00095)=19.62
以上结果说明即使保证了 1000 的 QPS,保证了相应的服务器数量,整体提升比例可以达到近 20 倍。
从以上的例子可见能够并发、并行操作步骤占整体系统运行流程程度越高,系统优化比例越大,但不能超过一个由串并操作比例决定的极限值。操作中 I/O 密集型占比越高则单个多核服务器可支持并发的任务数就越大,需要的服务器数量就越少。互联网 web 服务器属于 I/O 密集型服务,当进行相应的配置选择时的重要依据之一。
参加文件:
《Java Concurrency in Practice》-8.2 章节,
《Programming Concurrency on the JVM Mastering》
https://en.wikipedia.org/wiki/Amdahl%27s_law
版权声明: 本文为 InfoQ 作者【snlfsnef】的原创文章。
原文链接:【http://xie.infoq.cn/article/2f5da245edf7d8c6e717956a6】。文章转载请联系作者。
评论