AntDB-M 设计之内存结构
亚信科技专注通信行业多年,AntDB 数据库从诞生开始,就面对通信级的大数据量应用场景挑战,在性能、稳定性、规模化等方面获得了超过 10 年的通信核心业务系统验证,性能峰值达到每秒百万的通信核心交易量。AntDB-M(AntDB 内存引擎)具有如此卓越的性能,与其优良的内存结构设计密不可分。因此,本文主要阐述 AntDB-M 的内存结构设计。
1
概 述
AntDB-M 是一款全内存态运行 OLTP 数据库,其数据的管理以表为单位,通过表空间进行管理。存储分为两种形态:1)内存态;2)文件态。文件态为内存态的序列化后导出文件,后文表空间均指内存态。
2
表空间
表空间代表的是表的数据存放的内存空间。每个表都有自己独立的一个表空间。表空间在表创建时创建,或者在服务启动加载表时创建。表空间的结构为一个三层结构,内容分为两部分:1)表空间元数据;2)表空间数据块;
三层结构
表空间的内存结构是一个三层结构:1)一级地址;2)二级地址;3)数据块; 通过该结构,每个表空间可以存放的记录条数可以达到 20 万亿条之多。
记录条数 = 一级地址 * 二级地址 * 数据块记录数 = 32K * 32K * 2K =20 万亿条;
图 1:表空间三级结构
表空间元数据
表空间元数据描述了当前空间的大小信息,以及表数据记录在数据块的两级地址信息。它一般被用于表空间数据的管理,以及对表数据的高效访问。表空间的三层结构中,前两层都属于元数据,结构比较简单,存放的是下一层的地址信息。
表空间数据块
表空间数据块是用来存放表数据的地方。数据块的实现结构为一个双向链表。每个数据块分为两部分:1)元数据;2)数据空间;
1)元数据
元数据为当前数据块的管理信息,主要包括:当前数据块大小、可分配数据记录数、分配的记录对象 ID 范围等信息。需要注意的是数据块的大小、可分配数据记录数不是固定的。这是在创建表时,基于表记录实际大小,以及一些额外数据计算而来。
2)数据空间
数据空间为存放表数据实际分配的地址空间,每个数据空间为一个连续地址空间。数据空间根据行大小分为 9 档,依次为:256K,512K,1M,2M,4M,8M,16M,32M,64M。按照每个数据空间可以保存 2K~4K 记录来分配。当记录长度小于 128B 时,记录数可能可能超过 4K。数据空间大小 = 块元数据大小 + 数据块可容纳记录条数 * 表记录行大小(带扩展信息)
图 2:行记录格式
记录编号
每条记录都有自己的一个唯一编号,该编号由数据插入时分配。 数据的插入不是简单的追加,而是找到一个数据空间中的空闲位置插入。数据的查询、修改、删除也是根据记录编号来快速定位数据。每个空闲位置编号唯一。 每个数据块都都会记录当前的空闲位置,这些空闲位置不需要额外的空间进行记录,在数据块内的数据空间被分配给特定记录前,这些原本用于存放记录的空间被用来记录空闲记录位置信息。这些空闲位置信息为一个简单的双向链表,将所有空闲位置串联起来。这样表空间的每行记录都有一个唯一编号,通过该编号可以快速定位所在的数据块、以及块内地址。
图 3:数据块结构图
记录编号与记录地址关系
记录编号通过简单计算即可得到记录实际存放地址。
图 4:记录编号与记录地址关系
数据块的创建
数据块在插入数据、更新数据(记录 redo 记录)、服务启动加载数据到内存时按需创建。数据变更需要创建数据块时,每次只会申请一个数据块,数据加载时会根据当前需要的数据块个数批量申请创建(每次创建一个)。
数据块的释放
一个表空间被创建后,只有在表被 drop、truncate 时,表空间(包括元数据及数据块)才会被释放。rename 表时,仅修改表相关元数据,表空间保持不变。
3
内存管理
表空间的内存管理分为两类:1)数据块,2)非数据块。 不同类型内存管理,可以根据内存大小提供更高效的管理方式。
内存分配分为两种:1)内存;2)内存映射;
-内存,即直接从 RAM 中分配内存。
-内存映射,即通过 pmap 方式映射到文件,只用于超大表(建表时设置了超大表选项)的数据块,其他都使用 “内存”方式。
“内存”方式的分配也分为两种策略:1)RAM;2)PMEM; 其中“PMEM”策略仅适用于安装了 Intel 傲腾持久内存设备的硬件环境。在建表选择表空间的分配时默认为“RAM”策略。
4
溢出列
数据空间中的记录都为定长记录,对于变长类型列,数据不在记录内存放。记录内仅记录数据长度、数据实际位置。 对于溢出列数据,有单独的内存空间存放管理,这里不展开说明。
5
索 引
表的索引分为 hash 索引、btree 索引。两种索引都有各自独立的内存空间。这里不展开说明。
6
总 结
AntDB-M 通过简洁、高效的内存结构设计,为整体的高性能打下了坚实的基础。以少量的内存、支撑了更多的数据记录。让用户可以用更少的成本来支撑更多的业务。
关于 AntDB 数据库
AntDB 数据库始于 2008 年,在运营商的核心系统上,为全国 24 个省份的 10 亿多用户提供在线服务,具备高性能、弹性扩展、高可靠等产品特性,峰值每秒可处理百万笔通信核心交易,保障系统持续稳定运行近十年,并在通信、金融、交通、能源、物联网等行业成功商用落地。
评论