Week_08 总结

golangboy

关注

发布于: 2020 年 11 月 15 日

机械硬盘：

扇区和磁道

扇区是磁盘的最小组成单元，通常是 512 字节。（由于不断提高磁盘的大小，部分厂商设定每个扇区的大小是 4096 字节）

磁头和柱面

硬盘通常由重叠的一组盘片构成，每个盘面都被划分为数目相等的磁道，并从外缘的“0”开始编号，具有相同编号的磁道形成一个圆柱，称之为磁盘的柱面。磁盘的柱面数与一个盘面上的磁道数是相等的。由于每个盘面都有自己的磁头，因此，盘面数等于总的磁头数。

磁盘容量计算

存储容量＝磁头数 × 磁道(柱面)数 × 每道扇区数 × 每扇区字节数

每个磁道的扇区数一样是说的老的硬盘，外圈的密度小，内圈的密度大，每圈可存储的数据量是一样的。新的硬盘数据的密度都一致，这样磁道的周长越长，扇区就越多，存储的数据量就越大。

块/簇

磁盘块/簇（虚拟出来的）。块是操作系统中最小的逻辑存储单位。操作系统与磁盘打交道的最小单位是磁盘块。在 Windows 下如 NTFS 等文件系统中叫做簇；在 Linux 下如 Ext4 等文件系统中叫做块（block）。每个簇或者块可以包括 2、4、8、16、32、64…2 的 n 次方个扇区。

为什么存在磁盘块？

读取方便：由于扇区的数量比较小，数目众多在寻址时比较困难，所以操作系统就将相邻的扇区组合在一起，形成一个块，再对块进行整体的操作。
分离对底层的依赖：操作系统忽略对底层物理存储结构的设计。通过虚拟出来磁盘块的概念，在系统中认为块是最小的单位。

page

操作系统经常与内存和硬盘这两种存储设备进行通信，类似于“块”的概念，都需要一种虚拟的基本单位。所以，与内存操作，是虚拟一个页的概念来作为最小单位。与硬盘打交道，就是以块为最小单位。

扇区、块/簇、page 的关系

扇区：硬盘的最小读写单元
块/簇：是操作系统针对硬盘读写的最小单元
page：是内存与操作系统之间操作的最小单元。

磁盘读取响应时间

读写一次磁盘信息所需的时间可分解为：寻道时间、旋转延迟时间、传输时间。为提高磁盘传输效率，软件应着重考虑减少寻道时间和延迟时间。

因此，机械硬盘对顺序读写是非常友好的，对随机读写是不友好的

固态硬盘

https://zhuanlan.zhihu.com/p/104995703?utm_source=wechat_session

结构

SSD 由控制单元和存储单元（FLASH 芯片、DRAM 芯片）组成。数据操作无机械过程，因此读写能力与机械硬盘相比是量级的提升。

固态硬盘的结构

SSD 中一般有多个 NAND-Flash，每个 NAND-Flash 包含多个 Block，每个 Block 包含多个 Page。由于 NAND 的特性，存取都必须以 Page 为单位，即每次读写至少是一个 Page。通常地，每个 Page 的大小为 4K 或者 8K。

特性

只能读写单个 Page，不能覆盖写某个 Page。如果要覆盖写，必须先要清空里面的内容，再写入。由于清空内容的电压较高，必须是以 Block 为单位进行清空，因此，没有空闲的 Page 时，必须要找到没有有效内容的 Block，先擦除再选择空闲的 Page 写入。

SSD 中也会维护一个 mapping table，维护逻辑地址到物理地址的映射。每次读写时，可以通过逻辑地址直接查表计算出物理地址，与传统的机械磁盘相比，省去了寻道时间和旋转时间。

ssd 写入流程

新写入

找到一个空闲 Page。
数据写入到空闲 Page。
更新 mapping table。

覆盖写

SSD 不能覆盖写，因此先找到一个空闲 pageH。
读取 Page-G 中的数据到 SSD 内部的 buffer 中，把更新的字节更新到 buffer。
buffer 中的数据写入到 H。
更新 mapping table 中 G 页，置为无效页。
更新 mapping table 中 H 页，添加映射关系。

如果在覆盖写操作比较多的情况下，会产生较多的无效页，类似于磁盘碎片，此时需要 SSD 的 GC 机制来回收这部分空间了。

B+ tree

传统数据库在进行数据存储时，使用了 B+树的方式进行磁盘数据的存储。

一个节点可以存放多个数据，查找一个节点的时候可以有多个元素，大大提升查找效率，这就是为什么数据库索引用的就是 B+树，因为索引很大，不可能都放在内存中，所以通常是以索引文件的形式放在磁盘上，所以当查找数据的时候就会有磁盘 I/O 的消耗，而 B+树正可以解决这种问题，减少与磁盘的交互，因为进行一次 I/O 操作可以得到很多数据，增大查找数据的命中率。