ps vs top:CPU 占用率统计的两种不同方式

如何计算 CPU 占用率?
简单来说,进程的 CPU 占用率指的是 CPU 有多少时间花费在了运行进程上。在 Linux 系统里,进程运行的时间是以jiffies[1]统计的,通过计算jiffies * HZ,就可以得到进程消耗的 CPU 时间,再除以 CPU 的总时间,就可以得到进程的 CPU 占用率:jiffies * HZ / total_time。
ps 和 top 的不同之处
ps和top是最常用的两种查看 CPU 占用的方式,都可以用来快速找到当前 CPU 占用率高的进程。但实际上这两个工具的统计方式是完全不同的。
我们用下面这个简单的 Go 程序来测试这两个工具的差别:
然后我们运行这个程序,通过top和ps aux分别查看进程的 CPU 占用情况。
top -n 1:
ps aux:
可以看到,ps和top统计的 CPU 占用率是近似的(由于时间点并不完全吻合,统计值也会有轻微差别)。两个工具的差异体现在testBuffer结束后,top统计的 CPU 占用率已经接近于 0,但是ps依然统计到很高的 CPU 占用率:
为什么 ps 和 top 的统计值会有差异?
这两个工具的差异来自于各自运行方式的不同:top 只能持续运行一段时间,而 ps 是立刻返回的。这个差异体现在运行top -n 1和ps aux时,top是延迟后返回的,而ps是立刻返回的。这两种不同的运行方式就会反映在两个工具的统计算法上。
文章开头我们提到,Linux 的 CPU 时间是按照jiffies统计的,考虑到效率问题,Linux 只会统计总值,不会记录历史数据。对于 ps 来说,由于只能统计到瞬时值,这个瞬时值的统计算法就必然拿不到实时的 CPU 占用率,因为实时的占用率需要通过 (current_cpu_time - last_cpu_time) / time_duration来得到,ps 只能统计一次,所以time_duration为0,也就无法计算这个占用率。实际上,ps 统计的是整个进程运行周期内的 CPU 占用率[2]:
对于测试程序这种短时间的占用率上升,刚开始的时候 ps 能够统计到近似准确的平均 CPU 占用率,但是 cpu 占用恢复后,ps 的统计值并不会立刻下降,而是会随着进程运行时间total_process_uptime的增加缓慢下降。
top 命令不同, top 是通过持续运行来更新 CPU 占用率统计的。-n 1这个参数指定 top 运行一个迭代后退出,top命令就可以通过这个延迟来可以完成一个迭代内的 CPU 占用率统计:
如何持续监控 CPU 占用率?
通常来说,监控系统分为采集和统计两个不同的组件,采集组件只会采集指标数值,统计功能通过数据库/Dashboard 来实现。要监控 CPU 占用率,ps是一个非常符合采集组件行为的统计方式,每次采集都可以拿到“当前”的 CPU 占用率。但是受限于算法本身的统计方式,我们实际采集到的是平均 CPU 占用率,无法反映进程的实时状态。
以 INFINI Console 为例,我们运行一个短时间的数据迁移任务负载,然后查看对应 INFINI 网关实例的 CPU 占用监控(payload.instance.system.cpu,通过ps方式统计当前 CPU 占用率)。可以看到,CPU 占用率会以一个曲线上升,在任务结束后会缓慢下降:
 如果想持续监控实时 CPU 占用率,我们就需要借鉴top的统计方式,采集原始的进程 CPU 时间,进而通过聚合数据来计算 CPU 占用率。
在 Linux 系统下,ps和top命令都会通过/proc/[PID]/stat提供的信息来计算 CPU 占用率[2]:
获取到每个采样时间的进程信息后,我们就可以通过这个公式来计算采样周期内的 CPU 占用率:
在 INFINI Console,我们可以通过deriative函数来计算payload.instance.system.user_in_ms和payload.instance.system.sys_in_ms相对于timestamp的占比,进而得到准确的 CPU 占用率统计。
 这样,我们就可以统计到网关在运行任务负载前后的实时 CPU 占用率:
 总结
虽然top和ps都可以统计 CPU 占用率,但统计算法却完全不同。了解这两种算法的底层原理之后,我们就可以设计出适合监控系统的数据采集和数据统计方式,采集到准确的 CPU 占用率。










    
评论