历史记录

清除记录

猜你想搜

AcWing热点
App
登录/注册

面试SQL学习之索引篇（二）

作者：

chxlD , 2019-10-11 20:55:05 , 所有人可见 , 阅读 1557

2

8

面试SQL学习之索引篇（二）

上次讲到了索引的作用，今天我们来看下，索引的数据结构究竟是怎样的？

为什么索引要存放到硬盘上？

B树和B+树的结构是怎样的？为什么我们常用B+树作为索引的数据结构？

为什么索引要存放到硬盘上？

数据库服务器有两种存储介质，分别为硬盘和内存。

内存属于临时存储，容量有限，而且当发生意外时（比如断电或者发生故障重启）会造成数据丢失；
硬盘相当于永久存储介质，这也是为什么我们需要把数据保存到硬盘上。这就是我们所说的 持久化 ！

虽然内存的读取速度很快，但我们还是需要将索引存放到硬盘上。当我们在硬盘上进行查询时，也就产生了硬盘的I/O操作。相比于内存的存取来说，硬盘的I/O存取消耗的时间要高很多。我们通过索引来查找某行数据的时候，需要计算产生的磁盘I/O次数，当磁盘I/O次数越多，所消耗的时间也就越大。

如果我们能让索引的数据结构尽量减少硬盘的I/O操作，所消耗的时间也就越小。

B树

这里就不过多阐述二叉树或者是平衡二叉树为什么不可以做索引的数据结构了（大家可以去查查相关的查询参数）。这里只说一句：如果用二叉树作为索引的实现结构，会让树变得很高，增加硬盘的I/O次数，影响数据查询的时间。 所以我们的做法就是：因此一个节点就不能只有2个子节点，而应该允许有M个子节点(M>2)。

B树的出现就是为了解决这个问题，B树的英文是Balance Tree，也就是平衡的多路搜索树，它的高度远小于平衡二叉树的高度。在文件系统和数据库系统中的索引结构经常采用B树来实现。

在数据库里面，B树的结构如下图所示：

B树作为平衡的多路搜索树，它的每一个节点最多可以包括M个子节点，M称为B树的阶。

同时你能看到，每个磁盘块中包括了关键字和子节点的指针。如果一个磁盘块中包括了x个关键字，那么指针数就是x+1。对于一个100阶的B树来说，如果有3层的话最多可以存储约100万的索引数据。对于大量的索引数据来说，采用B树的结构是非常适合的，因为树的高度要远小于二叉树的高度。

然后我们来看下如何用B树进行查找。假设我们想要查找的关键字是9，有以下几步：

我们与根节点的关键字(17，35）进行比较，9小于17那么得到指针P1；

按照指针P1找到磁盘块2，关键字为（8，12），因为9在8和12之间，所以我们得到指针P2；

按照指针P2找到磁盘块6，关键字为（9，10），然后我们找到了关键字9。

在B树的搜索过程中，我们比较的次数并不少，但如果把数据读取出来然后在内存中进行比较，这个时间就是可以忽略不计的。而读取磁盘块本身需要进行I/O操作，消耗的时间比在内存中进行比较所需要的时间要多，是数据查找用时的重要因素，B树相比于平衡二叉树来说磁盘I/O操作要少，在数据查询中比平衡二叉树效率要高。

B+树

B+树基于B树做出了改进，主流的DBMS都支持B+树的索引方式，比如MySQL。他们两个有这么几个差别：

有 k 个孩子的节点就有k个关键字。也就是孩子数量=关键字数

非叶子节点的关键字也会同时存在在子节点中，并且是在子节点中所有关键字的最大（或最小）。

非叶子节点仅用于索引，不保存数据记录，跟记录有关的信息都放在叶子节点中。

所有关键字都在叶子节点出现，叶子节点构成一个有序链表，而且叶子节点本身按照关键字的大小从小到大顺序链接。

再回到 B树：

孩子数量=关键字数+1。【对比1】

非叶子节点既保存索引，也保存数据记录。【对比3】

Include：

它的键一定会出现在叶子节点上，同时也有可能在非叶子节点中重复出现。而 B 树中同一键值不会出现多次。

举个例子看看上面的描述：一棵B+树，阶数为3，根节点中的关键字1、18、35分别是子节点（1，8，14），（18，24，31）和（35，41，53）中的最小值。每一层父节点的关键字都会出现在下一层的子节点的关键字中，因此在叶子节点中包括了所有的关键字信息，并且每一个叶子节点都有一个指向下一个节点的指针，这样就形成了一个链表。