
大数据OLAP体系技术栈
文章平均质量分 90
持续OLAP技术栈更新,一杯奶茶钱/一顿饭钱/一包烟钱即可永久学习OLAP技术栈!快点订阅吧
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
IT贫道
10余年大数据架构行业工作经验,多年线下和线上大数据教学经验,专注于大数据技术分享。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Flink连载(三十六):Flink基于Kubernetes部署(6)-Kubernetes 集群搭建-2
K8s使用calico部署集群网络,安装参考网址:https://projectcalico.docs.tigera.io/about/about-calico。只需要在Master节点安装即可。主要用来验证k8s集群节点网络是否正常。这里只需要在Master节点安装就可以。原创 2024-03-02 11:45:00 · 264 阅读 · 0 评论 -
Apache Flink连载(三十五):Flink基于Kubernetes部署(5)-Kubernetes 集群搭建-1
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~这里安装Kubernetes版本为1.25,在所有主机(node1,node2,node3)安装kubeadm,kubelet,kubectl。原创 2024-03-01 21:10:34 · 457 阅读 · 0 评论 -
Apache Doris (七十): Doris优化
Doris中的优化涉及到的方面非常多,例如在分区、分桶、join、查询、参数等各个方面都有优化对应策略,具体可以参考前面每个部分内容,这里大体总结下Doris中的优化相关内容:原创 2024-01-24 11:45:00 · 833 阅读 · 0 评论 -
Apache Doris (六十九):JDBC Catalog
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~JDBC Catalog 通过标准 JDBC 协议,连接其他数据源。连接后,Doris 会自动同步数据源下的 Database 和 Table 的元数据,以便快速访问这些外部数据,数据不会同步到Doris中,Doris只是通过JDBC方式来访问外部数据库中的数据。目前Catalog支持MySQL、PostgreSQL、Oracle、SQLServer、Clickhouse、Doris。原创 2024-01-23 22:09:17 · 791 阅读 · 0 评论 -
Apache Doris (六十八): DataX DorisWriter - (2) - Doris参数介绍
目录编辑1. DorisWriter参数介绍2. DataX同步MySQL数据到Doris关于DorisWriter插件的介绍可以参考:https://github.com/apache/doris/blob/master/extension/DataX/doriswriter/doc/doriswriter.md,DorisWriter支持将大批量数据写入Doris中。DorisWriter 通过Doris原生支持Stream load方式导入数据, DorisWriter会将reader读取的数据进行原创 2024-01-22 11:45:00 · 419 阅读 · 0 评论 -
Apache Doris (六十七): DataX DorisWriter - (1) - 源码编译及集成
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。原创 2024-01-20 11:45:00 · 259 阅读 · 0 评论 -
Apache Doris (六十六): Flink Doris Connector - (3)-配置及类型映射
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~原创 2024-01-19 11:45:00 · 249 阅读 · 0 评论 -
Apache Doris (六十五): Flink Doris Connector - (2)-使用
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~Flink操作Doris有两种方式,一个是DataStream方式,另外一种就是SQL方式操作,这两种方式官方建议使用SQL方式进行编程,相对比较简单。通过Flink Doris Connector可以通过Flink读取Doris中的数据,原创 2024-01-18 11:45:00 · 178 阅读 · 0 评论 -
Apache Doris (六十四): Flink Doris Connector - (1)-源码编译
🏡🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。通过Flink Doris Connector 可以将Doris表映射为DataStream或者Table对象,此外,修改和删除只支持在 Unique Key 模型上,目前的删除是支持 Flink CDC 的方式接入数据实现自动删除,如果是其他数据接入的方式删除需要自己实现。原创 2024-01-17 22:45:56 · 493 阅读 · 0 评论 -
Apache Doris (六十三): Spark Doris Connector - (3)-配置型及列映射关系
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频。原创 2024-01-08 11:45:00 · 1344 阅读 · 0 评论 -
Apache Doris (六十二): Spark Doris Connector - (2)-使用
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频。原创 2024-01-06 11:45:00 · 1407 阅读 · 0 评论 -
Apache Doris (六十一): Spark Doris Connector - (1)-源码编译
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频。原创 2024-01-05 11:45:00 · 1177 阅读 · 0 评论 -
Apache Doris (六十): Doris - 物化视图
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。物化视图是将预先计算(根据定义好的 SELECT 语句)好的数据集,存储在 Doris 中的一个特殊的表。物化视图的出现主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询。在没有物化视图功能之前,用户一般都是使用 Rollup 功能通过预聚合方式提升查询效率的。但是 Rollup 具有一定的局限性,他不能基于明细模型做预聚合。物化视图则在覆盖了 Rollup 的功能的同时,还能支持更丰富的聚合函数。原创 2024-01-04 23:10:35 · 1803 阅读 · 0 评论 -
Apache Doris (五十九): Doris - BITMAP精准去重
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2024-01-03 01:00:00 · 1187 阅读 · 0 评论 -
Apache Doris (五十八): Doris - Join优化原理
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Doris 支持两种物理算子,一类是 Hash Join,另一类是 Nest Loop Join。针对Doris中的Join优化有如下以下方式需要注意。原创 2024-01-02 11:45:00 · 1007 阅读 · 0 评论 -
Apache Doris (五十七): Doris - Runtime Filter
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Runtime Filter 是在 Doris 0.15 版本中正式加入的新功能。旨在为某些 Join 查询在运行时动态生成过滤条件,来减少扫描的数据量,避免不必要的I/O和网络传输,从而加速查询。原创 2024-01-01 11:45:00 · 1132 阅读 · 0 评论 -
Apache Doris (五十六): Doris Join类型 - 四种Join对比
在Doris FE进行分布式查询规划时,优先选择的顺序为 Colocate Join -> Bucket Shuffle Join -> Shuffle Join ->Broadcast Join。则上述的选择优先顺序则不生效。Doris作为分布式的 MPP 数据库, 在 Join 的过程中根据使用的join类型来决定是否需要进行数据的 Shuffle,保证最终的 Join 结果是正确的。上面这 4 种方式灵活度是从高到低的,它对这个数据分布的要求是越来越严格,但 Join 计算的性能也是越来越好的。原创 2023-12-29 12:30:00 · 831 阅读 · 0 评论 -
Apache Doris (五十五): Doris Join类型 - Colocation Join
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-12-28 00:51:06 · 1570 阅读 · 0 评论 -
Apache Doris (五十四): Doris Join类型 - Bucket Shuffle Join
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-17 11:37:37 · 898 阅读 · 0 评论 -
Apache Doris (五十三): Doris Join类型 - Shuffle Join
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-07 07:00:00 · 281 阅读 · 0 评论 -
Apache Doris (五十二): Doris Join类型 - Broadcast Join
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Doris中支持Join语法,Join的类型分为四种,不同Join类型有对应使用场景,下面介绍Doris中Join类型及各个类型之间的对比。Doris Broadcast Join是将小表进行条件过滤后,将其广播到大表所在的各个节点上,形成一个内存 Hash 表,然后流式读出大表的数据进行Hash Join。Broadcast Join会将右表全量数据发送到左表数据所在的每个节点上,这些节点拥有右表全量数据。原创 2023-11-06 21:34:07 · 854 阅读 · 0 评论 -
Apache Doris (五十一): Doris数据缓存
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。大部分数据分析场景是写少读多,数据写入一次,多次频繁读取,比如一张报表涉及的维度和指标,数据在凌晨一次性计算好,但每天有数百甚至数千次的页面访问,因此非常适合把结果集缓存起来。附:LRU: Least Recently Used,又叫淘汰算法,根据数据历史访问记录进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”,用通俗的话来说就是最近被频繁访问的数据会具备更高的留存,淘汰那些不常被访问的数据。原创 2023-11-04 18:45:45 · 765 阅读 · 0 评论 -
Apache Doris (五十): Doris表结构变更-动态分区(2)
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-11-01 07:00:00 · 277 阅读 · 0 评论 -
Apache Doris (四十九): Doris表结构变更-动态分区(1)
在某些使用场景下,用户会将表按照天进行分区划分,每天定时执行例行任务,这时需要使用方手动管理分区,否则可能由于使用方没有创建分区导致数据导入失败,这给使用方带来了额外的维护成本。通过动态分区功能,用户可以在建表时设定动态分区的规则。FE 会启动一个后台线程,根据用户指定的规则创建或删除分区。用户也可以在运行时对现有规则进行变更。动态分区是在 Doris 0.12 版本中引入的新功能,旨在对表级别的分区实现生命周期管理(TTL),减少用户的使用负担,目前实现了动态添加分区及动态删除分区的功能。原创 2023-10-31 07:30:00 · 267 阅读 · 0 评论 -
Apache Doris (四十八): Doris表结构变更-替换表
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。在 0.14 版本中,Doris 支持对两个表进行原子的替换操作,该操作仅适用于 OLAP 表。原创 2023-10-30 10:31:10 · 744 阅读 · 0 评论 -
Apache Doris (四十七): Doris表结构变更-Schema变更
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。用户可以通过 Schema Change 操作来修改已存在表的 Schema。下面演示对Doris表rollup增加列以及修改列类型来演示Schema Change作业。。原创 2023-10-24 07:45:00 · 374 阅读 · 0 评论 -
Apache Doris (四十六): Doris数据更新与删除 - 批量删除
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。对于数据的删除目前只能通过delete语句进行删除,使用delete 语句的方式删除时,每执行一次delete 都会生成一个新的数据版本,如果频繁删除会严重影响查询性能,并且在使用delete方式删除时,是通过生成一个空的rowset来记录删除条件实现,每次读取都要对删除条件进行过滤,同样在条件较多时会对性能造成影响。我们可以使用批量删除方式来解决以上问题,原创 2023-10-23 20:16:19 · 778 阅读 · 0 评论 -
Apache Doris (四十五): Doris数据更新与删除 - Sequence 列
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。为了能更好的了解Doris中批量删除,我们需要了解Sequence列。Unique模型主要针对需要唯一主键的场景,可以保证主键唯一性约束,但是由于使用REPLACE聚合方式,在同一批次中导入的数据,替换顺序不做保证。替换顺序无法保证则无法确定最终导入到表中的具体数据,存在了不确定性。原创 2023-10-19 22:10:53 · 944 阅读 · 0 评论 -
Apache Doris (四十四): Doris数据更新与删除 - Delete 数据删除
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Doris 支持通过两种方式对已导入的数据进行删除。一种是通过 DELETE FROM 语句,指定 WHERE 条件对数据进行删除。这种方式比较通用,另一种删除方式仅针对 Unique 主键唯一模型,Doris 内部会通过删除标记位对数据进行最终的物理删除。原创 2023-10-19 07:15:00 · 974 阅读 · 0 评论 -
Apache Doris (四十三): Doris数据更新与删除 - Update数据更新
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。如果我们需要修改或更新Doris中的数据,如何使用UPDATE命令来操作。数据更新对Doris的版本有限制,只能在Doris Version 0.15.x + 才可以使用。,使用场景为:对满足某些条件的行进行修改值或小范围数据更新,待更新的行最好是整个表非常小的一部分。Doris利用查询引擎自身的 where 过滤逻辑,从待更新表中筛选出需要被更新的行。原创 2023-10-18 21:03:22 · 1457 阅读 · 0 评论 -
Apache Doris (四十二): RECOVER数据删除恢复
Doris为了避免误操作造成的灾难,支持对误删除的数据库/表/分区进行数据恢复,在drop table或者 drop database之后,Doris不会立刻对数据进行物理删除,而是在 Trash 中保留一段时间(默认1天,可通过fe.conf中catalog_trash_expire_second参数配置),管理员可以通过RECOVER命令对误删除的数据进行恢复。支持通过name、id来恢复指定的元信息,并且支持将恢复的元信息重命名。🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。原创 2023-10-18 20:54:53 · 738 阅读 · 0 评论 -
Apache Doris (四十一): RESOTRE数据恢复
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Doris 支持BACKUP方式将当前数据以文件的形式,通过 broker 备份到远端存储系统中。之后可以通过 RESOTRE命令进行回复,从远端存储系统中将数据恢复到任意 Doris 集群。通过这个功能,Doris 可以支持将数据定期的进行快照备份。也可以通过这个功能,在不同集群间进行数据迁移。该功能需要 Doris 版本 0.8.2+,使用该功能,需要部署对应远端存储的 broker。如 BOS、HDFS 等。原创 2023-10-13 07:00:00 · 167 阅读 · 0 评论 -
Apache Doris (四十): BACKUP数据备份
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。通过Doris数据导出的各种方式我们可以将Doris中的数据进行备份,除了export方式之外,Doris 还支持Backup方式对数据进行备份,该方式将当前数据以文件的形式,通过 broker 备份到远端存储系统中。之后可以通过恢复命令,从远端存储系统中将数据恢复到任意 Doris 集群。通过这个功能,Doris 可以支持将数据定期的进行快照备份。也可以通过这个功能,在不同集群间进行数据迁移。原创 2023-10-12 07:30:00 · 503 阅读 · 0 评论 -
Apache Doris (三十九):Doris数据导出 - MySQL dump导出
🏡🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。mysqldump是一个常用的 MySQL 数据库备份工具,它可以将 MySQL 数据库中的数据导出为 SQL 格式的文件,从而实现对数据的备份、迁移和恢复等操作。Doris 在0.15 之后的版本已经支持通过mysqldump 工具导出数据或者表结构。原创 2023-10-11 22:10:30 · 1413 阅读 · 0 评论 -
Apache Doris (三十八):Doris数据导出 - Select...into outfile导出
🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。Select...into outfile 用于将Doris查询结果导出为文件,其原理是通过Borker进程,使用S3或者HDFS协议将Doris查询结果导出到远端存储,如:HDFS、S3、COS(腾讯云)上。原创 2023-10-10 08:45:00 · 301 阅读 · 0 评论 -
Apache Doris (三十七):Doris数据导出 - Export导出
关注IT贫道,获取高质量博客内容!🚩 私聊博主:加入大数据技术讨论群聊。Doris Exeport、Select Into Outfile、MySQL dump三种方式数据导出。用户可以根据自己的需求导出数据。此外数据还可以以文件形式通过Borker备份到远端存储系统中,之后可以通过恢复命令来回复到Doris集群中。下面分别介绍Doris中数据导出和备份。原创 2023-10-09 06:45:00 · 326 阅读 · 0 评论 -
Apache Doris (三十六):通过外部表同步数据到Doris及Doris数据导入总结
Doris 中的所有导入操作都有原子性保证,即一个导入作业中的数据要么全部成功,要么全部失败,不会出现仅部分数据导入成功的情况。一个导入作业都会有一个 Label。这个 Label 是在一个数据库(Database)下唯一的,用于唯一标识一个导入作业。Label 可以由用户指定,部分导入功能也会由系统自动生成。Label 是用于保证对应的导入作业,仅能成功导入一次。一个被成功导入的 Label,再次使用时,会被拒绝并报错 Label already used。原创 2023-07-24 09:00:00 · 1427 阅读 · 0 评论 -
Apache Doris (三十五):Doris Stream Load(2)-案例
抓紧订阅专题!后续执行Stream Load 导入任务后,我们会在Doris集群中会查询对应Stream Load任务的情况,默认BE是不记录Stream Load 记录,如果想要在Doris集群中通过mysql 语法来查询对应的Stream Load记录情况,需要再BE节点上配置enable_stream_load_record参数为true,该参数设置为true会让BE节点记录对应的Stream Load信息。原创 2023-07-23 22:36:44 · 764 阅读 · 0 评论 -
Apache Doris (三十四):Doris Stream Load(1)-基本原理及语法
抓紧订阅专题!Stream load 是一个同步的导入方式,用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。Stream load 主要适用于导入本地文件,或通过程序导入数据流中的数据,建议的导入数据量在 1G 到 10G 之间。由于 Stream load 是一种同步的导入方式,所以用户如果希望用同步方式获取导入结果,也可以使用这种导入。原创 2023-07-22 08:30:00 · 328 阅读 · 0 评论 -
Apache Doris (三十三):Doris 数据导入(十一)Routine Load 2- 导入案例及注意事项
抓紧订阅专题!原创 2023-07-21 06:00:00 · 886 阅读 · 0 评论