zhixingheyi_tian
Intel Big Data. Spark
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 之 tasks
https://spark.apache.org/docs/latest/monitoring.html#executor-task-metrics原创 2025-08-06 17:06:23 · 87 阅读 · 0 评论 -
Spark 之 DataFrame
【代码】Spark 之 DataFrame。原创 2025-07-23 21:41:32 · 158 阅读 · 0 评论 -
Spark ML 之 LSH
【代码】Spark ML 之 LSH。原创 2025-07-21 15:47:22 · 67 阅读 · 0 评论 -
Spark 之 like 表达式
【代码】Spark 之 like 表达式。原创 2025-07-14 20:16:59 · 277 阅读 · 0 评论 -
Spark 之 Join BoundCondition
【代码】【无标题】原创 2025-07-15 17:10:53 · 95 阅读 · 0 评论 -
Spark Expression codegen
【代码】Spark Expression codegen。原创 2025-07-15 16:25:26 · 163 阅读 · 0 评论 -
Spark SQL 之 UT
【代码】Spark SQL 之 UT。原创 2025-07-14 17:08:18 · 144 阅读 · 0 评论 -
Spark Pushdown
【代码】Spark Filter Pushdown。原创 2025-07-04 14:31:29 · 68 阅读 · 0 评论 -
Spark 之 Corner Cases
【代码】Spark 之 Corner Cases。原创 2025-06-20 16:09:59 · 231 阅读 · 0 评论 -
Spark 之 QueryStage
【代码】Spark 之 QueryStage。原创 2025-06-26 17:15:48 · 176 阅读 · 0 评论 -
Spark 之 AQE & DPP
由上图可见, PlanSubqueries Rule 只是 PlanDynamicPruningFilters Rule 的 补充。针对 ListQuery场景的补充。对于 DPP 来讲,原创 2025-06-25 20:40:27 · 90 阅读 · 0 评论 -
Spark 之 UT
因为 EnsureRequirements 排在 PlanDynamicPruningFilters 之后,所以在进行 PlanDynamicPruningFilters 时,还没有 exchange 相关算子。原创 2025-06-25 16:07:52 · 106 阅读 · 0 评论 -
Spark 之 QueryPlan
【代码】Spark 之 QueryPlan。原创 2025-06-25 12:14:24 · 77 阅读 · 0 评论 -
Spark 之 Reuse
【代码】Spark 之 Reuse。原创 2025-06-24 16:00:54 · 74 阅读 · 0 评论 -
Spark 相关问题汇总
如果一张表没有数据, 只会产生 jobs, 但不产生 stages。原创 2025-06-24 15:24:00 · 42 阅读 · 0 评论 -
Spark 之 Subquery
【代码】Spark 之 Subquery。原创 2025-06-13 15:57:55 · 233 阅读 · 0 评论 -
Spark 之 AQE
AQE 的 循环触发点。原创 2025-06-07 14:55:31 · 390 阅读 · 1 评论 -
Spark 之 DataFrame 开发
【代码】Spark 之 DataFrame 开发。原创 2025-06-06 16:26:03 · 453 阅读 · 0 评论 -
mysql 之 相关
【代码】mysql 之 相关。原创 2025-06-06 12:04:07 · 67 阅读 · 0 评论 -
ICEBerg 之 相关
【代码】ICEBerg 之 相关。原创 2025-06-05 17:33:36 · 126 阅读 · 0 评论 -
Spark 写文件
之所以,最后将一个repartition, 是因为 Spark 最后的shuffle stage , hash key 往往不是 最后 write 的分区key。shuffle partition ,按照新的 写分区列重新 hash ,shuffle, 然后再进行 coalesce。分区组合数:8 个 (from_cluster 和 ds 的组合)总文件数:200 × 8 = 1600 个文件。总文件数 = Task 数量 × 分区组合数。以下是一个单独例子。Task 数量:200。原创 2025-06-05 17:13:11 · 287 阅读 · 0 评论 -
Spark 之 DataSource
HIVE_FILESOURCE_PARTITION_FILE_CACHE_SIZE 设置为 0 可以关闭 partition cache 功能。原创 2025-06-05 11:37:26 · 29 阅读 · 0 评论 -
SparkSQL 之 DataSourceV2 pushdown
【代码】SparkSQL 之。原创 2025-06-03 14:37:58 · 143 阅读 · 0 评论 -
Spark 之 expression
【代码】Spark 之 expression。原创 2023-10-08 10:19:50 · 636 阅读 · 0 评论 -
Spark SQL 之 Analyzer
【代码】Spark SQL 之 Analyzer。原创 2025-05-15 16:47:09 · 216 阅读 · 0 评论 -
Spark SQL 之 Antlr grammar 具体分析
【代码】Spark 之 Antlr。原创 2025-05-15 16:36:56 · 140 阅读 · 0 评论 -
SparkPlan 之 Explain
【代码】SparkPlan 之 Explain。原创 2025-05-08 16:02:56 · 188 阅读 · 0 评论 -
Spark 之 metrics
【代码】Spark 之 metrics。原创 2025-05-08 11:08:29 · 436 阅读 · 0 评论 -
Spark 之 YarnCoarseGrainedExecutorBackend
executor ID , 在日志里也有体现。原创 2025-05-07 21:05:16 · 323 阅读 · 0 评论 -
Spark external shuffle service
对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。原创 2025-05-07 10:35:28 · 170 阅读 · 0 评论 -
Json 相关
【代码】Json 相关。原创 2025-05-06 16:40:11 · 34 阅读 · 0 评论 -
Spark event 解析
【代码】Spark event 解析。原创 2025-04-30 19:51:11 · 129 阅读 · 0 评论 -
Spark SQL 之 DAG
【代码】Spark SQL 之 DAG。原创 2025-04-30 11:51:30 · 239 阅读 · 0 评论 -
Velox之 Spill
【代码】Velox之 Spill。原创 2025-04-16 16:22:09 · 47 阅读 · 0 评论 -
云计算相关概念
1个计算 CU 的计算能力约等于1核 CPU 与4G 内存的服务计算能力:原创 2025-04-08 16:13:12 · 41 阅读 · 0 评论 -
文献 参考
原创 2025-04-02 11:07:45 · 44 阅读 · 0 评论 -
Spark 之 Jira
https://github.com/apache/spark/pull/29916https://issues.apache.org/jira/browse/SPARK-33037原创 2025-04-01 10:24:58 · 64 阅读 · 0 评论 -
Spark2 之 FQA
检查每个 executor 节点上, 是否都存在 jars。原创 2025-03-31 11:28:49 · 48 阅读 · 0 评论 -
Spark2 之 qualification-tool
spark原创 2025-03-28 10:05:35 · 140 阅读 · 0 评论 -
Spark eventlog 、Event、SparkListener
【代码】Spark eventlog。原创 2025-03-12 15:37:53 · 482 阅读 · 0 评论