写点什么

亚信安慧 AntDB-T 数据库内核之 MVCC 机制

  • 2024-09-04
    浙江
  • 本文字数:1995 字

    阅读完需:约 7 分钟

亚信安慧AntDB-T数据库内核之MVCC机制

本文主要介绍 AntDB 数据库内核中的一个很重要的机制——MVCC 机制。

MVCC 简介

MVCC(多版本并发控制)是 AntDB 数据库中实现事务隔离级别的一种机制。它允许多个事务同时对数据进行读写和修改操作,而不会相互干扰。在 MVCC 中,每个数据库事务在读取数据时会看到一个特定的版本,这使得事务之间可以同时进行读写操作,而不会相互冲突。每个事务可以操作自己的数据版本,从而实现了更高的并发性和更好的性能。

MVCC 的核心思想是,对于每个修改操作,不是直接在原始数据上进行修改,而是创建一个新的数据版本,并将修改操作应用于新版本。这样,其他事务仍然可以访问旧版本的数据,而不会受到正在进行的修改的影响。只有在事务提交时,新版本的数据才会替代旧版本,从而实现数据的一致性。

MVCC 实现原理

1、隐藏字段

了解 MVCC 之前,需要先介绍一下数据库内核中几个隐藏的字段,MVCC 机制通过这些隐藏的标记字段来协同实现。

  • oid: 对象标识符,生成的值是全局唯一的,表、索引、视图都带有 oid

  • ctid: 每条记录(称为一个 tuple)在表中的物理位置标识。

  • xmin: 创建一条记录(tuple)时,记录此值为当前事务 ID。

  • xmax: 创建 tuple 时,默认为 0,删除 tuple 时,记录此值为当前事务 ID。

  • cmin/cmax: 标识在同一个事务中多个语句命令的序列值,从 0 开始,用于同一个事务中实现版本可见性判断

2、数据版本

在 AntDB 中,每个数据项都包含一个唯一的版本号,称为 xmin。每个数据项还包含一个删除版本号,称为 xmax。这些版本号用于记录行版本的创建和删除事务。当一个事务读取或修改数据时,它将在内存中创建一个新的数据版本,并分配一个唯一的版本号。这个版本号将与事务 ID 相关联,用于跟踪事务对数据的修改。

3、事务状态

每个事务都有一个唯一的事务 ID,称为 xid。事务 ID 用于标识事务的状态。当事务开始时,它将分配一个唯一的事务 ID,并将其记录在事务状态日志文件中,事务状态日志文件用于记录事务的状态信息。通过事务状态日志文件,AntDB 可以跟踪每个事务的状态,并根据事务 ID 选择适当的数据版本。

4、并发控制

在并发控制中,AntDB 使用了一种称为“读-写偏斜”的技术。这种技术的基本思想是:当一个事务正在修改数据时,其他事务不能同时读取或修改该数据。通过限制并发事务对数据的访问,AntDB 可以避免读写冲突。

当一个事务需要读取数据时,AntDB 会检查该数据的最新版本号(即 xmax)。如果最新版本号等于当前事务的事务 ID,则表示该数据正在被修改,当前事务不能读取该数据。如果最新版本号小于当前事务的事务 ID,则表示该数据已经提交,当前事务可以读取该数据。如果最新版本号介于两个事务 ID 之间,则表示该数据处于中间状态,当前事务需要等待该数据变为可用状态后再进行读取。

当一个事务需要修改数据时,AntDB 会将新数据版本写入磁盘,并将新版本的事务 ID 更新到事务状态日志文件中。其他事务在读取数据时,将检查该数据的事务 ID 是否与它们的事务 ID 相同。如果相同,则读取该版本的数据;如果不同,则读取更高版本的数据。通过这种方式,AntDB 实现了并发控制,避免了读写冲突。

5、可见性判定

在并发控制中,可见性判定是一个重要的环节。它用于确定一个事务能否看到另一个事务提交的数据。在 AntDB 中,可见性判定是通过检查事务 ID 来实现的。如果一个事务的提交顺序在另一个事务之后,那么前一个事务就可以看到后一个事务提交的数据。反之,如果一个事务的提交顺序在前一个事务之前,那么前一个事务就看不到后一个事务提交的数据。通过这种方式,AntDB 实现了可见性的判定。


MVCC 的优点

  • 并发优化

读写不会相互阻塞,写操作并没有堵塞其他事务的读,在写事务未提交前,读取的都是之前的版本,提高了并发的访问效率。

  • 快速回滚

事务可以快速回滚,操作后的 tuple 都带有当前事务 ID,直接标记事务状态日志文件中对应事务的状态就可达到回滚的目的。


MVCC 的缺点

  • 索引维护消耗

当对表执行 UPDATE 查询时,数据库还必须更新该表的所有索引以将条目添加到新版本。这些索引更新增加了内存压力和磁盘 I/O,特别是对于具有大量索引的表,随着表中索引数量的增加,更新元组时产生的开销也会增加。

  • 事务回卷问题

事务 ID 回卷问题会影响到事务的并发访问和提交顺序,可能会导致死锁和幻像读等问题。具体来说,当新的事务 ID 回卷到旧的事务 ID 时,可能会导致旧的事务无法正常提交,因为新的事务会覆盖旧的事务的数据版本。

  • 垃圾数据问题

根据 MVCC 机制,更新和删除的记录都不会被实际删除,操作频繁的表会积累大量的过期数据,占用磁盘空间,当扫描查询数据时,需要更多的 IO,降低查询效率。但是可以通过 vacuum 命令操作来清理过期的数据。


小结

在本文中,我们详细介绍了 MVCC(多版本并发控制)机制的工作原理、优点和缺点,以及它对数据库事务和并发访问的影响。MVCC 是一种强大的并发控制机制,它允许多个事务同时进行读写操作,提高了数据库的并发性和性能,并解决了传统锁定机制可能带来的性能问题和并发冲突。

然而,它也存在一些缺点,所以在使用时需要注意优化。

用户头像

企业数据库创新实践者 2021-07-26 加入

AntDB数据库始于2008年,服务于全国20多个省份的10亿多用户提供在线服务;具备高性能、弹性扩展、高可靠等产品特性,峰值每秒可处理百万笔电信核心交易,并保障系统持续0故障运行近十年。 官网:asiainfoah.com

评论

发布
暂无评论
亚信安慧AntDB-T数据库内核之MVCC机制_AntDB_亚信AntDB数据库_InfoQ写作社区