写点什么

Java 工程师进阶,马士兵架构师破解吧,我的 Java 春季历程

用户头像
极客开源
关注
发布于: 刚刚

MySQL 为何不选择平衡二叉树

既然平衡二叉树解决了普通二叉树的问题,那么 mysql 为何不选择平衡二叉树作为索引呢?

索引需要存储什么

让我们想一想,如果我们要把索引存起来,那么应该存哪些信息呢,它应该存储三块信息:


  • 索引的值:就是表里面索引列对应的值。

  • 数据的磁盘地址(通过磁盘地址找到当前数据)或者直接存储整条数据。

  • 子节点的引用:我们需要从根节点往下走,所以需要知道左右子节点的地址。 根据这三点,可以有如下大致的一个简单的结构图:



上图中数字表示的是索引的值,0x 开头的表示磁盘地址,根节点中存了左右节点的引用。

AVL 树用来存储索引存在什么问题

我们知道,页(Page)是 Innodb 存储引擎用于管理数据的最小磁盘单位,页的默认大小为 16KB。页也就是上图中的节点,每查询一次节点就需要进行一次 IO 操作,IO 操作是一种非常耗时的操作,很多业务系统的瓶颈都是卡在 IO 操作上,所以如果我们需要提高查询效率的办法之一就是减少 IO 次数,那么问题就来了,AVL 树一个节点上只存了一个关键字(索引值)+一个磁盘地址+左右节点的引用,这是远远达不到 16KB 的,会浪费了大量的空间。


上图中如果我们要找到 6 这条数据,需要进行 3 次 IO(获取一个节点就是一个 IO 操作),如果这棵树很高的话,就会进行大量的 IO 操作,所以说 AVL 树存在的最大问题就是空间利用不足,浪费了大量空间,数据量大的时候就会成为一颗瘦高的树,那么我们可以怎么改进呢?答案很明显了,那就是每个磁盘块多存一点东西,也就是说每个磁盘多存几个关键字,因为关键字越多,路数越多;路数越多,树也就越矮越胖,相应的操作 IO 次数就会越少。

多路平衡树(Balanced Tree)

多路平衡树简称 B 树,又称 B-树,和 AVL 树一样,B 树在枝节点和叶子节点存储键值、磁盘地址、左右节点引用。请看下图的一个多路平衡树的示例:


B 树的特点

相比较 AVL 树,B 树一个磁盘上可以存多个关键字(值),而且有一个特点就是:


  • 分叉数(路数)永远比关键字数多 1。 我们可以画出如下简图(下图中只画了 3 路,即两个关键字,实际取决于一页能存储多少个关键字):



从上图可以很明显的看出,同样高度的树,B 树能存的数据远远大于平衡二叉树。

B 树是如何查找数据的

以上图为例,假如我们要找 key=32 这个数字,首先获取到根节点,发现 18 小于 key,所以往右边走,获取到右边的数据,54 和 76,这时候遵循以下原则:


  • key<54,命中最左边分叉;

  • key=54,直接命中,返回数据;

  • 54<key<76,走中间的一个分叉;

  • key=76,直接命中,返回数据;

  • key>76,命中右边分支; 这里因为 key=32,所以走得是第 1 条,命中左边分支,这时候再去获取左边分支,获取到 32 和 50,比较发现 key=32,命中,返回数据。


从上面我们可以看出 B 树效率相对于 AVL 树,在数据量大的情况效率已经提高了很多,那么为什么 MySQL 还是不选择 B 树作为索引呢? 那么接下来让我们先看看改良版的 B+树,然后再下结论吧!

B+树

B+树由 B 树改良而来,属于改良版的多路平衡查找树。 首先让我们来看看 B+树到底长什么样呢:



对比 B+树,我们可以发现一个很明显的区别就是叶子节点有一个箭头指引而且从左到右是有序的。


InnoDB 中使用的 B+树相比较于传统 B+树,改进之后的 B+树具有以下特点

InnoDB 中 B+树的特点

  • 它的关键字的数量是跟路数相等的。

  • B+树的根节点和枝节点中都不会存储数据,只有叶子节点才存储数据。而搜索到关键字不会直接返回,会到最后一层的叶子节点。

  • B+树的每个叶子节点增加了一个指向相邻叶子节点的指针,它的最后一个数据会指向下一个叶子节点的第一个数据,形成了一个有序链表的结构。

  • 它是根据左闭右开的区间来检索数据的 按照 B+树的特点,我们可以画出一个存储数据的简图,如下:



写在最后

作为一名即将求职的程序员,面对一个可能跟近些年非常不同的 2019 年,你的就业机会和风口会出现在哪里?在这种新环境下,工作应该选择大厂还是小公司?已有几年工作经验的老兵,又应该如何保持和提升自身竞争力,转被动为主动?


就目前大环境来看,跳槽成功的难度比往年高很多。一个明显的感受:今年的面试,无论一面还是二面,都很考验 Java 程序员的技术功底。


最近我整理了一份复习用的面试题及面试高频的考点题及技术点梳理成一份“Java 经典面试问题(含答案解析).pdf 和一份网上搜集的“Java 程序员面试笔试真题库.pdf”(实际上比预期多花了不少精力),包含分布式架构、高可扩展、高性能、高并发、Jvm 性能调优、Spring,MyBatis,Nginx 源码分析,Redis,ActiveMQ、Mycat、Netty、Kafka、Mysql、Zookeeper、Tomcat、Docker、Dubbo、Nginx 等多个知识点高级进阶干货!


由于篇幅有限,为了方便大家观看,这里以图片的形式给大家展示部分的目录和答案截图!


Java 经典面试问题(含答案解析)

阿里巴巴技术笔试心得


本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

用户头像

极客开源

关注

还未添加个人签名 2021.03.18 加入

还未添加个人简介

评论

发布
暂无评论
Java工程师进阶,马士兵架构师破解吧,我的Java春季历程