写点什么

计算机中的层次化存储是个什么鬼?

用户头像
冰河
关注
发布于: 2021 年 02 月 20 日
计算机中的层次化存储是个什么鬼?

写在前面


撸代码只是程序员的一项最基本的技能,除此之外,还有很多知识需要程序员掌握。【程序员进阶系列】专题,旨在分享程序员想要进一步提升自我,突破发展瓶颈的一系列技术。今天,我们来一起聊聊计算机中的层次化存储结构。


文章已收录到:


https://github.com/sunshinelyz/technology-binghe


https://gitee.com/binghe001/technology-binghe


层次化存储结构


首先,问小伙伴们一个问题:计算机的存储结构为什么需要进行层次化的划分呢?


说的直接一点:就是为了减少经济成本。如果说,CPU 的价格非常便宜的话,根本就不需要内存了。可以把所有的内存容量全部都做到 CPU 里面去,就可以了。但是,事实上,CPU 的内存是很精贵的,至今为止,CPU 中基本上还是一级缓存和二级缓存。三级缓存比较少见。而且,CPU 中的存储容量是非常小的,基本都是 KB 级别的存储,CPU 的内存容量也就几 KB,MB 级别的 CPU 内存也是比较少见的。所以,出于经济成本的考虑,计算机中的存储结构是按照层次进行划分的。


为了能够让小伙伴们更加清晰的理解层次化存储结构,我们先来看一张图。


由上图,可以看出:


(1)层次化的存储结构可以分为:CPU、Cache(高速缓存)、主存(内存)、外存(辅存)。


(2)从上往下,速度越来越慢,容量越来越大。


局部性原理是层次化存储结构的支撑。


局部性原理


一个编写良好的计算机程序常常具有良好的局部性。也就是说。它们倾向于引用临近于其他最近引用过的数据项的数据项,或者最近引用过的数据项本身。这汇总倾向性,就被称为局部性原理,这是一个持久的概念,对硬件和软件系统的设计和性能都有着极大的影响。


之所以有这个规律,很多人认为原因是:程序的指令大部分时间是顺序执行的,而且程序的集合,如数组等各种数据结构是连续存放的。


局部性原理讲的是:在一段时间内,整个程序的执行仅限于程序的某一部分,相应地,程序访问的存储空间也局限于某个内存区域。主要分为两类:



  • 时间局部性:如果程序中的某条指令一旦执行,则不久之后该指令可能再次被执行;如果某数据被访问,则不久之后该数据可能再次被访问。

  • 空间局部性:是指一旦程序访问了某个存储单元,则不久之后,其附近的存储单元也将被访问。


Cache


针对 Cache 相关的技术,我们主要来聊聊 Cache 的概念和映像相关的技术。


Cache-概念


这里的 Cache 表示的是高速缓冲,在计算机的存储体系系统中,Cache 是除寄存器外访问速度最快的层次。 使用 Cache 改善系统性能的依据是程序的局部性原理


如果以 h 代表对 Cache 的访问命中率,t1 表示 Cache 的周期时间,t2 表示主存储器的周期时间,以读操作为例,使用“Cache+主存储器”的系统的平均周期为 t3,则可以得出如下运算公式。


t3 = h * t1 + (1 - h) * t2 
复制代码


其中。(1 - h)又称为失效率,也就是未命中率。


Cache-映像


Cache 的映像分为三种,分别是:直接相联映像、全相联映像、组相联映像。



  • 直接相联映像:硬件电路比较简单,但冲突率最高。

  • 全相连映像:电路难于设计和实现,只适用于小容量的 Cache,冲突率比较低。

  • 组相联映像:直接相联与全相联的折中。


地址映像是将主存与 Cache 的存储空间划分为若干大小相同的页(或称为块)。


例如,一台计算机的主存容量为 1GB,划分为 2048 页,每页 512KB;Cache 的容量为 8MB,划分为 16 页,每页 512KB。接下来,我们由此来详细图解直接相联映像、全相联映像和组相联映像。


直接相联映像


我们可以画一组图来表示 Cache 的直接映像。首先,我们先来简单画一个主存标记、Cache 页号和页内地址的示意图。如下所示。



如上图所示,主存标记为 7 位,Cache 页号为 4 位,页内地址为 19 位。


记录主存区号的示意图如下所示。



有了上面两张图的基础后,我们再来看直接相联映像的示意图如下所示。



这里,我们将容量为 1GB 的主存划分成 2048 页,总共 127 个区,每页的容量为 512KB。将容量为 8MB 的 Cache 划分为 16 页,每页容量为 512KB。


所谓直接相联映像是指 Cache 中的 0 页只能存储主存中 0 页的内容,这里主存中 0 页指的是每个区的 0 页,比如上图中的 0 区的 0 页,1 区的 16 页,127 区的 2032 页等。


在直接相联映像中,只需要记录主存标记、Cache 页号和页内地址就能够快速的找到主存中的数据。


使用直接相联映像有个缺点:那就是如果 Cache 中的 0 页,存储了主存中 0 区 0 页的内容时,如果此时需要存储主存 1 区中的 16 页内容,就只能将主存 0 区中 0 页的内容从 Cache 的 0 页中清除,然后将主存 1 区中 16 页的内容存储到 Cache 中的 0 页内。冲突率比较高。细心的小伙伴会发现:这其实是违背局部性原理的。


直接相联映像访问速度最快,但冲突率最高。


全相连映像


我们先来看下全相联映像的主存页标记和页内地址的示意图,如下所示。



此时,使用 11 位来标识主存页标记,使用 19 位来标识页内地址。


使用全相连映像需要记录主存与 Cache 的对应关系,如下图所示。


接下来,我们来看看全相连映像的示意图,如下所示。



从图中可以看出,Cache 中的任何一个也,都可以存储主存中的任何一个页。


使用全相连映像访问速度最慢,冲突率最低。


组相联映像


组相联映像本质上是直接相联映像和全相联映像的折中。同样的,我们先来看组相连映像的存储示意图。



此时,在组相连映像中,Cache 组号使用 3 位表示,组内页号使用 1 位表示,页内地址使用 19 位表示。其中,3 位的 Cache 组号,1 位的组内页号和前面的 7 位构成了主存页标记;3 位的 Cache 组号,1 位的组内页号和 19 号的页内地址构成了 Cache 地址。


接下来,我们再来看看主存与 Cache 的对应关系,如下图所示。


组相连的映像示意图如下所示。


由上图可知,在组相连映像中,主存的组与 Cache 的组是组相联映像关系,而在组内则是通过直接相联映像来访问和存储数据。


好了,我已经肝不动了。今天就到这儿吧,我是冰河,大家有啥问题可以在下方留言,也可以加我微信:sun_shine_lyz,我拉你进群,一起交流技术,一起进阶,一起牛逼~~


发布于: 2021 年 02 月 20 日阅读数: 18
用户头像

冰河

关注

公众号:冰河技术 2020.05.29 加入

Mykit系列开源框架发起者、核心架构师和开发者,《海量数据处理与大数据技术实战》与《MySQL开发、优化与运维实战》作者。【冰河技术】微信公众号作者。

评论

发布
暂无评论
计算机中的层次化存储是个什么鬼?