
Paimon
文章平均质量分 75
鸿乃江边鸟
Apache Spark Contributor
专注于技术的dotaer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Paimon的部分更新以及DeleteVector实现
本文基于Paimon 0.9源码分析了主键表的部分更新和DeleteVector实现机制。部分更新通过MergeTreeWriter的SortBufferWriteBuffer和PartialUpdateMergeFunction实现,按主键+sequenceNumber排序后合并更新字段。DeleteVector在Compaction时生成,通过"Compaction+lookup"机制标记需要删除的记录,仅支持主键表且为bucket级别。核心逻辑集中在MergeTreeWriter的原创 2025-07-23 21:49:40 · 1103 阅读 · 0 评论 -
Spark Paimon 中为什么我指定的分区没有下推
针对于错误的写法,也就是导致读取全量数据的写法,我们分析一下,首先是类型转换阶段,在Spark中,对于类型不匹配的问题,spark会用规则进行转换,具体的规则是。最近在使用 Paimon 的时候遇到了一件很有意思的事情,写的 SQL 居然读取的数据不下推,明明是分区表,但是却全量扫描了。这种情况下,对于文件的读取IO会增大,但是对于shuffle等操作是不会有性能的影响的。对于分区字段来说,我们在写SQL对分区字段进行过滤的时候,保持和分区字段类型一致。可以看到经过了规则转换 所有的过滤条件都下推到了。原创 2023-12-14 18:02:27 · 1009 阅读 · 0 评论