ps vs top:CPU 占用率统计的两种不同方式
如何计算 CPU 占用率?
简单来说,进程的 CPU 占用率指的是 CPU 有多少时间花费在了运行进程上。在 Linux 系统里,进程运行的时间是以jiffies
[1]统计的,通过计算jiffies * HZ
,就可以得到进程消耗的 CPU 时间,再除以 CPU 的总时间,就可以得到进程的 CPU 占用率:jiffies * HZ / total_time
。
ps 和 top 的不同之处
ps
和top
是最常用的两种查看 CPU 占用的方式,都可以用来快速找到当前 CPU 占用率高的进程。但实际上这两个工具的统计方式是完全不同的。
我们用下面这个简单的 Go 程序来测试这两个工具的差别:
然后我们运行这个程序,通过top
和ps aux
分别查看进程的 CPU 占用情况。
top -n 1
:
ps aux
:
可以看到,ps
和top
统计的 CPU 占用率是近似的(由于时间点并不完全吻合,统计值也会有轻微差别)。两个工具的差异体现在testBuffer
结束后,top
统计的 CPU 占用率已经接近于 0,但是ps
依然统计到很高的 CPU 占用率:
为什么 ps 和 top 的统计值会有差异?
这两个工具的差异来自于各自运行方式的不同:top 只能持续运行一段时间,而 ps 是立刻返回的。这个差异体现在运行top -n 1
和ps aux
时,top
是延迟后返回的,而ps
是立刻返回的。这两种不同的运行方式就会反映在两个工具的统计算法上。
文章开头我们提到,Linux 的 CPU 时间是按照jiffies
统计的,考虑到效率问题,Linux 只会统计总值,不会记录历史数据。对于 ps
来说,由于只能统计到瞬时值,这个瞬时值的统计算法就必然拿不到实时的 CPU 占用率,因为实时的占用率需要通过 (current_cpu_time - last_cpu_time) / time_duration
来得到,ps
只能统计一次,所以time_duration
为0
,也就无法计算这个占用率。实际上,ps
统计的是整个进程运行周期内的 CPU 占用率[2]:
对于测试程序这种短时间的占用率上升,刚开始的时候 ps
能够统计到近似准确的平均 CPU 占用率,但是 cpu 占用恢复后,ps
的统计值并不会立刻下降,而是会随着进程运行时间total_process_uptime
的增加缓慢下降。
top
命令不同, top
是通过持续运行来更新 CPU 占用率统计的。-n 1
这个参数指定 top
运行一个迭代后退出,top
命令就可以通过这个延迟来可以完成一个迭代内的 CPU 占用率统计:
如何持续监控 CPU 占用率?
通常来说,监控系统分为采集和统计两个不同的组件,采集组件只会采集指标数值,统计功能通过数据库/Dashboard 来实现。要监控 CPU 占用率,ps
是一个非常符合采集组件行为的统计方式,每次采集都可以拿到“当前”的 CPU 占用率。但是受限于算法本身的统计方式,我们实际采集到的是平均 CPU 占用率,无法反映进程的实时状态。
以 INFINI Console 为例,我们运行一个短时间的数据迁移任务负载,然后查看对应 INFINI 网关实例的 CPU 占用监控(payload.instance.system.cpu
,通过ps
方式统计当前 CPU 占用率)。可以看到,CPU 占用率会以一个曲线上升,在任务结束后会缓慢下降:
如果想持续监控实时 CPU 占用率,我们就需要借鉴top
的统计方式,采集原始的进程 CPU 时间,进而通过聚合数据来计算 CPU 占用率。
在 Linux 系统下,ps
和top
命令都会通过/proc/[PID]/stat
提供的信息来计算 CPU 占用率[2]:
获取到每个采样时间的进程信息后,我们就可以通过这个公式来计算采样周期内的 CPU 占用率:
在 INFINI Console,我们可以通过deriative
函数来计算payload.instance.system.user_in_ms
和payload.instance.system.sys_in_ms
相对于timestamp
的占比,进而得到准确的 CPU 占用率统计。
这样,我们就可以统计到网关在运行任务负载前后的实时 CPU 占用率:
总结
虽然top
和ps
都可以统计 CPU 占用率,但统计算法却完全不同。了解这两种算法的底层原理之后,我们就可以设计出适合监控系统的数据采集和数据统计方式,采集到准确的 CPU 占用率。
评论