磁盘 I/O 性能监控的指标
服务器硬盘是磁盘资源中最慢的组件,在企业数据中心,注意仔细设计存储子系统,不要让它成为主要性能瓶颈,而最理想的办法是使用 SAN,即使预算不允许,也要想办法确保磁盘资源争用不会导致虚拟机(VM)瘫痪。
首先应将宿主操作系统安装到专用硬盘上,注意不是专用卷,确保宿主操作系统不会与虚拟机抢夺磁盘资源。如果托管服务器可以连接外置存储,还可以考虑将宿主操作系统的分页文件移动到外置存储的专用驱动器上。
RAID 阵列是满足虚拟服务器性能所必需的,至少应该选择使用 RAID1,但“RAID1+RAID0”(RAID10)是更好的选择,因为它能提供容错,并且性能开销也比 RAID5 小。如果可以的话,给每个虚拟服务器分配一个专用磁盘阵列最好。
使用固定大小的虚拟硬盘来配置虚拟服务器会获得额外的性能提升。虽然动态扩展虚拟硬盘很方便,但对服务器的性能是有影响的。
磁盘 I/O 性能监控的指标主要包括以下七个。
1、每秒 I/O 数(IOPS 或 TPS)
对于磁盘来说,一次磁盘的连续读或者连续写称为一次磁盘 I/O,磁盘的 IOPS 就是每秒磁盘连续读次数和连续写次数之和。当传输小块不连续数据时,该指标有重要参考意义。
2、吞吐量
吞吐量即硬盘传输数据流的速度,传输数据为读出数据和写入数据的和。其单位一般为 kbit/s、MB/s 等。当传输大块不连续数据时,该指标有重要参考作用。
3、平均 I/O 数据尺寸
平均 I/O 数据尺寸为吞吐量除以 I/O 数目,该指标对揭示磁盘使用模式有重要意义。一般来说,如果平均 I/O 数据尺寸小于 32KB,可认为磁盘使用模式以随机存取为主;如果平均每次 I/O 数据尺寸大于 32KB,可认为磁盘使用模式以顺序存取为主。
4、磁盘活动时间百分比
磁盘处于活动时间的百分比即磁盘利用率,磁盘在数据传输和处理命令(如寻道)时处于活动状态。磁盘利用率与资源争用程度成正比,与性能成反比。也就是说磁盘利用率越高,资源争用就越严重,性能就越差,响应时间就越长。一般来说,如果磁盘利用率超过 70%,应用进程将花费较长的时间等待 I/O 完成,因为绝大多数进程在等待过程中被阻塞或休眠。
5、服务时间
服务时间即磁盘读或写操作执行的时间,包括寻道、旋转时延和数据传输等时间。其大小一般与磁盘性能有关,CPU/内存的负荷也会对其有影响,请求过多也会间接导致服务时间的增加。如果该值持续超过 20ms,一般认为会对上层应用产生影响。
6、I/O 等待队列长度
I/O 等待队列长度即待处理的 I/O 请求数目,如果 I/O 请求压力持续超出磁盘处理能力,该值将增加。如果单块磁盘的队列长度持续超过 2,一般认为该磁盘存在 I/O 性能问题。需要注意的是,如果该磁盘为磁盘阵列虚拟的逻辑驱动器,需要再将该值除以组成这个逻辑驱动器的实际物理磁盘数目,以获得平均单块硬盘的 I/O 等待队列长度。
7、等待时间
等待时间指磁盘读或写操作等待执行的时间,即在队列中排队的时间。如果 I/O 请求持续超出磁盘处理能力,意味着来不及处理的 I/O 请求不得不在队列中等待较长时间。
通过监控以上指标,并将这些指标数值与历史数据、经验数据以及磁盘标称值对比,必要时结合 CPU、内存、交换分区的使用状况,不难发现磁盘 I/O 潜在或已经出现的问题。但如何避免和解决这些问题呢?这就需要利用磁盘 I/O 性能优化方面的知识和技术了。限于篇幅,在这里仅列出一些常用的优化方法以供参考:
调整数据布局,尽量将 I/O 请求较合理地分配到所有物理磁盘中。
对于 RAID 磁盘阵列,尽量使应用程序 I/O 等于条带尺寸或者为条带尺寸的倍数。并选取合适的 RAID 方式,如 RAID10、RAID5。
增大磁盘驱动程序的队列深度,但不要超出磁盘的处理能力,否则部分 I/O 请求会因为丢失而重新发出,这将会降低性能。
应用缓存技术减少应用存取磁盘的次数,缓存技术可应用在文件系统级别或者应用程序级别。
由于大多数数据库中已包括经优化后的缓存技术,数据库 I/O 宜直接存取原始磁盘分区(raw partition)或者利用绕过文件系统缓存的 DIO(Direct I/O)技术。
利用内存读写带宽远比直接磁盘 I/O 操作性能优越的特点,将频繁访问的文件或数据置于内存中。
版权声明: 本文为 InfoQ 作者【阿泽🧸】的原创文章。
原文链接:【http://xie.infoq.cn/article/66e0ab74f89621e63c1932f5f】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论