数据库行式存储和列式存储的区别

本文探讨了数据库中行式存储和列式存储的区别。行式存储按照行的方式组织数据,适合频繁的更新操作和事务处理,常见于OLTP系统。而列式存储利于快速查询特定列,减少磁盘读取,适用于OLAP分析和大数据处理。总结来说,行式存储适用于业务数据,列式存储适用于分析数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假设我们有一张student数据表:

name

gender

 age

score

张三

16

67

李四

18

98

王五

17

85

假设我们有一个磁盘,那么在经典的行式存储中,数据是怎么存储的呢,数据是按照一行一行的方式存储到数据库当中的,如下图:

 

 

列式存储则是:

 

存储结束后,接下来,我们查询一下数据 

select  age  from  t1 where age = ‘男’;

橙色的箭头是磁盘指针第一次指向处,白色箭头则代表磁盘指针取数的第二次指向处;

对于行式存储的数据库,磁盘指针如图所示:

此时,指针会跳过不符合条件的记录,”李四“ 的这条数据,指针会扫描全部区域

那么,对于列式存储来说,则应该是这样取数的:

可以看到如图中所示,磁盘指针只会在存储 “性别” 的这块磁盘片区取数,指针所需要扫描的区域很小。

针对这两种存储方式,我们分别从写入和查询这两个方面进行对比:

行存储列存储
写入写入一次性完成,保证数据完整性

把一行记录拆成单列保存,写入次数一般会比行存储多

数据修改写入方便不轻易做数据修改写入操作
适用于关系型数据库适用于分析型数据库
读取将一整行的数据全部读出,如果只需要其中的一列或者某几列数据,就会存在冗余列,会有消除冗余列的操作

读取的时候只读需要的列,

不存在冗余性问题

同一行数据,数据类型一般是不同的,数据解析时需要在多种不同数据类型之间频繁转换,比较消耗CPU,增加解析的时间

针对某列数据,数据类型是相同的,

所以在读取的时候一般不需要在各种不同

的数据类型之间频繁切换

按行压缩,当一行有多个字段,每个字段对应的数据类型可能不一致,压缩性能压缩比就比较差

按列压缩,由于每一列对应的相同

数据类型的数据

那么我们可以看到,对于行式数据库来讲,更适合处理OLTP类型的数据, 一般用于关系型数据库当中,比如mysql,oracle等等,存储的一般是业务数据。对于列式数据库来讲,更适用于OLAP的数据,如GreenPlum,Treadata等,另外hadoop组件当中就提供的hdfs模块+hive模块就提供了列式存储的功能。

所以,总结来讲,行式存储更适用于传统的关系型数据库,通常用于业务数据存储;而列式存储则更适用于需要进行数据分析的分析型数据库,通常用于分析数据存储。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值