本文主要基于https://blog.csdn.net/daliaojie/article/details/8230544进行修改。
网上一些帖子说Sqlite中组织管理数据库文件存储的机制为B-树。实际上根据《the definitive guide to sqlite》SECOND EDITON中的描述发现,SQLite是把B树和B+树统称为B树,但两者在SQLite中都使用到了(也有一说是用了B*树和B树)。
B+树用于组织table及其内容,叶子节点中存放的是数据记录record,内部节点不存放数据,只存放指向内部节点或者叶子节点的指针,如下图所示(整个表是要存到磁盘上去的例如为table文件,叶子节点(包含具体的record数据)和内部节点都是以页为单位存储到磁盘上的),B+树的查询我们已经清楚了,可以很快查询到叶子节点,然后获取数据。
但对于有些查询来说,比如确定某个Key是否存在,这里Key可能是主键,我们并不需要查询到B+树的叶子节点,所以可以再构建一个只有key的B树,可以快速确定结果(对于这种B树,其高度比B+树还要低)。这个结构就比较简单了,在这里就不再给出图了。
https://sqlite.org/src/file/src/btree.c
https://www.sqlite.org/fileformat2.html
1.索引
对索引多说几句吧,我们去砍树,可以用手把它推到,但是利用斧子可以很快的把树干倒。检索操作(更新,删除,插入都会用到检索操作)就如砍树,索引就是我们的斧子。斧子很好用,加快了检索速度。但是它不是让你白用的:
(1)你需要先购买斧子(购买花费金钱,借来花费人情,就如同创建索引需要时间开销),总之就是使用索引(斧子)去检索数据(去看书)是需要代价的。
(2)此外,斧子放在家里占地方啊,索引也是占内存的啊。而且如果不是内存数据库,索引还要占外存的地方呢。所以,它还需要空间开销。
(3)除了检索操作不需要更新索引,删除,插入都要更新索引啊,这就是辅助性工具的开销(也就是时间)。
我们一定要明确一点。索引和表、数组、一个变量一样是实实在在的在我们的硬盘上或者内存中躺着的。说的再直白一些,他就是个数据结构(其实数据结构这个词听抽象的,你觉得呢?)。总之就是,占内存,我们用程序可以直接控制他的。
我们比较典型的索引数据结构有两大类,
(1)散列,其通过一个叫散列函数的东西,利用数值计算,便可很快得知目标记录所在散列表位置,然后根据散列表位置里的信息便可快速找到它了。又分静态散列和动态散列。
(2)树,随着数据量的增长,树能自己调整自己。可以容纳很多数据。利用对比来快速定位,往往对比次数与树的深度有很大关系。一般成对数级的时间复杂度。一般典型的有B数(又名B-树,不要说有那么一个树叫B减树或者B杠树),B+树,AVL树,红黑树(RBTree)。
2.存储
数据库文件大,内存装不下,怎么办?解决方法很简单。先装一部分,先使吧。很眼熟啊感觉。操作系统里有木有?(动态或静态)页面管理机制有木有?缺页中断有木有?
这里有个概念“页面(pager)”。sqlite中是这么说的。一个数据库文件被连续的分割成了X个页面,并给个页面号。就是“块儿”和“块儿号”。
3.SQLite中B树和B+树的应用。
SQLite数据库中的页面都是从1开始顺序编号的。一个数据库中可以有多个B树----每个表或者索引都对应着一个B树(这里它把B树和B+树都统称为了B树。在SQLite中,B+树用于组织和存储表table,B树用于组织和存储索引index)。在数据库中每一个表或者索引都有一个用于定义其首页面位置的根页面(这样就有了很多根页面)。所有索引和表的根页面都存储在SQLITE_master表中。
在SQLite的B树结构中,只用到了key,没有用到value。也就是说在查询的时候,会根据需要选择查询B树还是B+树。如果只是确定某个key是否存在,则查询B树即可,如果要拿数据,则需要查询B+树。那你可能会问,反正B+树也能干活,为什么还要B树呢?因为B树中只有key,相同page大小情况下,B树的node的order更大,也就是树更矮,查询速度更快。
总之,这本书中,对B树和B+树统称为B树,没有加以细分。但是我们这些读者要搞清楚,什么时候是B树,什么时候是B+树。关于他们的理论知识和SQLite中的相关东西请参考其他资料。
(1)在B+树中,由于跟记录有关的信息存放在叶结点中,查找时若在上层已找到待查的关键码,并不停止,而是继续沿指针向下一直查到叶结点层的关键码。此外,B+树的所有叶结点构成一个有序链表,可以按照关键码排序的次序遍历全部记录。上面两种方式结合起来,使得B+树非常适合范围检索。
(2)B树的好处,就是成功查询特别有利,因为树的高度总体要比B+树矮。不成功的情况下,B树也比B+树稍稍占一点点便宜。有很多基于频率的搜索是选用B树,越频繁query的结点越往根上走,前提是需要对query做统计,而且要对key做一些变化。
(3)内存中B+树是没有优势的,但是一到磁盘,B+树的威力就出来了"。