
Spark系列
文章平均质量分 90
Apache Spark 是一个用于大规模数据处理的统一分析引擎。它提供了 Java、Scala、Python 和 R 的高级 API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括 Spark SQL 用于 SQL 和结构化数据处理。
000X000
愿意放弃自由来换取保障的人,其最终既得不到自由,也得不到保障
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详解SparkSQL并行执行JOB过程
SparkSQL中并行提交多个Job的实现机制。首先分析了Spark调度框架支持多Job并行的原理,指出通过多线程提交Job可实现资源充分利用。接着介绍了Spark ThriftServer作为SQL提交入口的运行机制。重点阐述了在开启/关闭自适应查询时并行Job生成的差异:关闭自适应时由TakeOrderAndProjectExec触发主Job;开启自适应时AdaptiveSparkPlanExec会额外启动广播和MapStage线程提交子Job。原创 2025-06-23 11:42:20 · 724 阅读 · 0 评论 -
大数据之Spark submit参数
大数据之Spark submit参数原创 2024-09-12 11:21:48 · 850 阅读 · 0 评论 -
大数据之Spark Executor资源分配
大数据之Spark Executor资源分配原创 2024-09-12 11:16:00 · 694 阅读 · 0 评论 -
大数据之Spark 资源调度
大数据之Spark 资源调度原创 2024-09-12 10:55:49 · 858 阅读 · 0 评论 -
大数据之Spark RDD 持久化
大数据之Spark RDD 持久化原创 2024-09-12 10:49:24 · 1110 阅读 · 0 评论 -
大数据之Spark 进程模型与分布式计算
大数据之Spark 进程模型与分布式计算原创 2024-09-12 10:38:57 · 967 阅读 · 0 评论 -
大数据之Spark 数据依赖图DAG
大数据之Spark 数据依赖图DAG原创 2024-09-12 10:30:42 · 1088 阅读 · 0 评论 -
大数据之Spark RDD 编程模型
大数据之Spark RDD 编程模型原创 2024-09-12 10:20:49 · 1379 阅读 · 0 评论 -
大数据之Shuffle详解
大数据之Shuffle详解原创 2024-09-12 10:05:59 · 2421 阅读 · 0 评论 -
Spark核心知识要点(八)Shuffle配置调优
Spark核心知识要点(八)Shuffle配置调优原创 2024-07-25 10:44:22 · 1570 阅读 · 0 评论 -
Spark核心知识要点(七)程序开发调优
Spark核心知识要点(六)程序开发调优原创 2024-07-25 10:43:40 · 663 阅读 · 0 评论 -
Spark核心知识要点(六)资源配置调优
Spark核心知识要点(六)资源配置调优原创 2024-07-25 10:42:32 · 1291 阅读 · 0 评论 -
Spark核心知识要点(五)数据倾斜解决方案
Spark核心知识要点(五)数据倾斜解决方案原创 2024-07-25 10:41:03 · 788 阅读 · 0 评论 -
Spark核心知识要点(四)
Spark核心知识要点(四)原创 2024-07-25 10:39:47 · 629 阅读 · 0 评论 -
Spark核心知识要点(三)
Spark核心知识要点(三)原创 2024-07-25 10:39:07 · 1180 阅读 · 0 评论 -
Spark核心知识要点(二)
Spark核心知识要点(二)原创 2024-07-25 10:38:08 · 869 阅读 · 0 评论 -
Spark核心知识要点(一)
Spark核心知识要点(一)原创 2024-07-25 10:37:28 · 995 阅读 · 0 评论 -
Spark Core 企业级开发调优
Spark Core 企业级开发调优原创 2024-06-06 08:57:19 · 1125 阅读 · 0 评论 -
解决Spark流处理产生的小文件问题
解决Spark流批产生的小文件问题原创 2024-06-06 08:47:41 · 1314 阅读 · 0 评论 -
Spark数据倾斜处理过程记录
Spark数据倾斜处理过程记录原创 2022-08-26 09:18:14 · 232 阅读 · 0 评论 -
Hive、SparkSQL是如何决定写文件的数量的?
Hive、SparkSQL是如何决定写文件的数量的?原创 2022-08-16 13:18:02 · 560 阅读 · 0 评论 -
Spark读取Hive表后会有多少个Task?
Spark读取Hive表后会有多少个Task?原创 2022-08-04 10:57:06 · 880 阅读 · 0 评论 -
Spark数据倾斜解决方案
Spark数据倾斜解决方案原创 2022-05-30 15:21:17 · 364 阅读 · 0 评论 -
大数据开发面试之26个Spark高频考点
大数据开发面试之26个Spark高频考点原创 2022-05-16 10:10:01 · 250 阅读 · 0 评论 -
高性能Spark作业调优
高性能Spark作业调优原创 2022-04-11 09:08:26 · 632 阅读 · 0 评论 -
Spark Standalone和yarn区别
Spark Standalone和yarn区别原创 2022-03-16 11:03:05 · 2446 阅读 · 0 评论 -
Spark数据倾斜调优
一 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。1.1数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常原创 2021-08-26 10:27:57 · 287 阅读 · 0 评论 -
SparkSession和sparkSQL
一、概述spark 有三大引擎,spark core、sparkSQL、sparkStreaming,spark core 的关键抽象是 SparkContext、RDD;SparkSQL 的关键抽象是 SparkSession、DataFrame;sparkStreaming 的关键抽象是 StreamingContext、DStreamSparkSession是 spark2.0 引入的概念,主要用在 sparkSQL 中,当然也可以用在其他场合,他可以代替 SparkContex.原创 2021-02-25 11:21:23 · 2440 阅读 · 0 评论 -
理解SparkSession
SparkSession是DataSet和DataFrame编写Spark程序的入口SparkSession的功能:创建DataFrame 以关系型数据库中表的形式生成DataFrame,之后便可以执行SQL语句,适合小数据量的操作 读取.parquet格式的文件,得到DataFrame创建SparkSession对象:>>> spark = SparkSession.builder \ .master("local") \ ...原创 2021-02-25 11:12:54 · 2551 阅读 · 0 评论 -
理解 Spark DataFrame
DataFrame它不是spark sql提出来的,而是早期在R、Pandas语言就已经有了的DataSet: A DataSet is a distributed collection of data. (分布式的数据集)DataFrame:A DataFrame is a DataSet organized into named columns.以列(列名,列类型,列值)的形式构成的分布式的数据集,按照列赋予不同的名称studentid:intname:stringcity:st.原创 2021-02-25 10:41:26 · 485 阅读 · 0 评论 -
Spark DataFrame
目录Spark创建DataFrame的不同方式1. Create Spark DataFrame from RDD2. 从List和Seq集合中创建Spark DataFrame3. 从CSV文件创建Spark DataFrame4. 从text文件创建5. 从JSON文件创建6. 从XML文件创建9. 从HBase创建DataFrameSpark创建DataFrame的不同方式本文介绍了使用Scala示例在Spark中创建DataFrame(createDat.原创 2021-02-25 10:32:23 · 869 阅读 · 0 评论 -
SparkSQL HiveSQL 常用正则表达式
SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式1、匹配汉字:2、匹配手机号码3、匹配身份证:4、SparkSQL HiveSQL 常用正则函数:5、SparkSQL分组 ...原创 2020-12-03 15:30:53 · 5061 阅读 · 0 评论 -
大数据技术:Spark相关问题汇总
问题导读:1、Spark有几种部署方式?请分别简要论述2、Spark任务使用什么方式进行任务提交?3、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?4、简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?上一篇:大数据技术之高频面试题(五):涉及技术Sqoop、Scala4.10 Spark4.10.1 Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构原创 2020-10-23 10:07:08 · 333 阅读 · 0 评论 -
面试最新整理常问Spark知识点
问题导读:1. RDD有哪些特性?2. Map和MapPartitions有哪些区别?3.为什么Spark Application在没有获得足够的资源,job就开始执行了,可能会导致什么什么问题发生?RDD的五个特性:1.A list of partitionsRDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。2.A function for computing.原创 2020-09-18 09:15:23 · 375 阅读 · 0 评论 -
Spark SQL 项目:实现各区域热门商品前N统计
一. 需求1.1 需求简介这里的热门商品是从点击量的维度来看的.计算各个区域前三大热门商品,并备注上每个商品在主要城市中的分布比例,超过两个城市用其他显示。1.2 思路分析使用 sql 来完成. 碰到复杂的需求, 可以使用 udf 或 udaf查询出来所有的点击记录, 并与 city_info 表连接, 得到每个城市所在的地区. 与 Product_info 表连接得到产品名称按照地区和商品 id 分组, 统计出每个商品在每个地区的总点击次数每个地区内按照点击次数降序排列只取前三名. 并把结果保存在数据库中原创 2020-08-18 14:50:52 · 1705 阅读 · 1 评论 -
Spark Streaming架构及工作原理
1、Spark Streaming有哪些组件?2、Micro-Batch Architecture如何理解?3、Spark Streaming工作原理是什么?4、如何进行DStream 操作?一、简介Spark Streaming 是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Red...原创 2020-03-31 14:27:16 · 1612 阅读 · 0 评论 -
Spark实践经验和Spark原理为依据调优spark
1.Executor和分区该如何调优?2.缓存和数据本地性该如何调整?3.在TaskSet级别Spark提供了哪两种模式?概述本文以Spark实践经验和Spark原理为依据,总结了Spark性能调优的一些方法。这些总结基于Spark-1.0.0版本。对于最近推出的Spark-1.1.0版本,本文介绍了几个版本增强。Spark性能调优Executor和分区Executor是一个独立的JV...原创 2020-03-20 09:33:50 · 1137 阅读 · 0 评论 -
Hadoop Spark Flink 比较
1. Hadoop vs Spark vs Flink - 数据处理Hadoop:Apache Hadoop专为批处理而构建。它需要输入中的大数据集,同时处理它并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力,输出会产生延迟。Spark:Apache Spark也是Hadoop Ecosystem的一部分。它也是一个批量处理系统,但它也支持流处理。Flink...原创 2019-12-20 20:57:22 · 2561 阅读 · 0 评论 -
Spark精细深度比较:为何ShuffleManager改成了SortShuffleManager
1.HashShuffleManager 运行原理是什么?2.SortShuffleManager 运行机制及其原理是什么?3.shuffle 相关参数如何使用?在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。在 Spark 1.2 以前,默认的 shuffle 计算引擎是 HashShuffleManager。该 ShuffleM...原创 2019-06-21 21:29:43 · 195 阅读 · 0 评论 -
Spark SQL/Hive调优
1. 数据倾斜的原因1.1 操作关键词 情形 后果 Join 其中一个表较小,但是key集中 分发到某一个或几个Reduce上的数据远高平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理,非常慢 group by group by 维度过小,某值的数量过多 处理某值的reduce非常耗时 ...原创 2019-06-25 17:35:57 · 492 阅读 · 0 评论