OceanBase 源码解读(三)分区的一生
竹翁,OceanBase 内核研发总监
杨志丰,花名竹翁,毕业于北京大学,长期从事分布式系统和数据库的研发工作,现于阿里巴巴/蚂蚁金服自主研发的分布式关系数据库 OceanBase 团队负责研发工作,致力于把设计先进的 HTAP 数据库系统打造成技术业内标杆的核心基础设施。在 OceanBase 系统中,他先后负责研究 OceanBase 的 SQL 引擎、分布式主控模块、多模数据库方向以及 OceanBase 的数据库平台产品研发,并于近期开始负责内核创新研发工作。竹翁对 C++、分布式系统原理、SQL 查询处理、事务处理、编译技术、工程效率等方面具有深入的理解。
本节主要介绍 OceanBase 的存储层。
前两篇源码解读可参考:
OceanBase 源码解读(一)模块结构:https://xie.infoq.cn/article/596be7c2d704b0954e88a9341
OceanBase 源码解读(二)SQL 的一生:https://xie.infoq.cn/article/199361b644402da1fb7ae0a56
分区是 OceanBase 的一等公民。一个表由一个或者若干个分区组成,分区是 OceanBase 逻辑上水平可扩展概念和物理上数据组织的基本单位。分区是自包含的:每个分区有自己独立的选举和 leader,独立的事务日志、数据存储和索引。分区可大可小,一般大小在 G B 量级,它可以被 RS 在多个节点之间调度以实现负载均衡。
每个分区有一个唯一标识 OBPartitionKey,由租户 id、表 id、分区 id 组成。从存储层来说,每个节点就是存储和组织这些 key 对应的分区副本,每个节点上可以有数万个副本。副本有多种类型,比如只读副本与主副本之间不是通过 paxos 协议,而是异步消息同步事务日志。
storage/ob_partition_service.h 是存储层的总入口,它对外提供了存储层的所有 RPC 服务,如创建删除分区副本。实际上,它是每个节点上所有分区级接口的入口,包括事务控制接口、分区读写的接口等。
前面讲过,建表和新增分区等 DDL 语句是由 RS 执行的,RS 在根据一定策略选定节点后,就会 RPC 调用这里的 create_xxx。
从这个入口一层一层追下去,可以找到所有存储结构。但存储层内部有大量类似的接口,很容易混淆。每个分区都是一个“索引组织表”,索引结构是多层的 LSM-Tree。虽然是多层,但是有参数可以调整,尽量只有内存里的 memtable(见 storage/memtable)和磁盘上的 major sstable(见 storage/blocksstable)两层。每次 major compaction 的时候,memtable, minor sstable 的数据与原来的 major sstable 合并,产生新版本的 major sstable。在合并期间,可能有多个版本的 major sstable 同时提供服务。一个分区副本的多层存储结构合起来,就是类 OBPartitionStore。
前面我好像说过“分区是 OB 的一等公民”?额,其实我撒谎了。PG 才是。此 PG 非彼 PG。PG,Partition Group,表示共享同一个事务日志流和 memtable 的“有紧密关系的”一组分区。外部一般不使用这个特性,一般一个 PG 里面只有一个分区,所以您就当我没说。但是我说了你才能理解这里的存储结构和操作对象为什么有奇怪的 pg 前缀和 OBPGKey。
读到这里,云里雾里?那就对了。看官自己画一个类图吧。
好吧,我知道你懒得画图。为了表达诚意,献上用我最喜欢的文档工具“语雀”画的存储结构相关类图。
一图胜千言。
sql/engine/table 是 SQL 物理执行计划中执行表扫描的算子,它通过 ob_partition_service.h 的 table_scan 接口获得一个迭代器(迭代结束要调用 revert_scan_iter),这就是存储层提供的数据访问入口。还有 DML(sql/engine/dml)使用的 insert_rows, delete_rows, update_rows 和 lock_rows 等接口。
当分区或表被删除的时候,OBPGPartition 及其所有包含的存储结构将被删除。但是并非立即释放资源,要等所有引用失效且资源不被使用时执行清理。
以上便是分区的一生。
如果您有任何疑问,可以通过以下方式与我们进行交流:
微信群:扫码添加小助手,将拉你进群哟~
钉钉群:33254054
厚脸皮地来求个 star
我们想让 Github 上优质的开源项目被更多人看到。
文档都是我们精心整理。如果有帮助的话 求个 star (◕ᴗ◕✿),鼓励鼓励我们哟!
也欢迎大家给我们 提 issue ,请点击 这里。运营小姐姐在此跪谢️️ ❥(^_-)
欢迎大家一起参与 社区贡献 ,指南请参考看 这里
社区答疑:请点击 这里
版权声明: 本文为 InfoQ 作者【OceanBase 开源社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/750d934604810c781a2d82fb8】。文章转载请联系作者。
评论