1.Spark基础

gdgylpc

于 2020-01-06 13:26:35 发布

阅读量111

点赞数

CC 4.0 BY-SA版权

文章标签：分布式 spark 大数据 hadoop java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/resilienter/article/details/103876432

本文深入探讨了Spark作为集群计算引擎的优势，包括其快速、可扩展及通用的特点。详细介绍了Spark的组成部分，如集群管理器、SparkCore以及高级模块如SparkSQL和SparkStreaming等。此外，还讲解了Spark的运行模式，包括Local、Standalone和Yarn模式，以及关键概念如Master、Worker、DriverProgram和Executor的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark基础

什么是spark

Spark和MapReduce，Tez一样是一个集群计算引擎，具有快速，可扩展，以及通用三个优势，具体可以查看官网~

Spark组成

Spark由三部分组成

集群管理器
Spark Core
SparkSql, SparkStreaming, Spark MLlib 以及 Spark GraghX

Spark的运行模式

Spark常用概念

Master:类似于hadoop的RM,负责整个集群的资源调度，其主要功能有监听Worker，以及接收client提交的application，并将application分发给各个Worker
Worker:掌握该进程所在的slave的资源信息，类似于NM,Master和Worker是一台机器上的守护线程
driver program：驱动程序，其包含有Spark程序的主函数，定义了RDD,再spark中可以通过SparkContext对它进行访问
executor：执行器是每个节点上的执行器。用于执行分配的计算任务以及为节点存储数据
RDDs：弹性分布式数据集，RDD是弹性分布式数据集
cluster managers：为了在一个 Spark 集群上运行计算, SparkContext对象可以连接到几种集群管理器.集群管理器负责跨应用程序分配资源

Local模式

下载spark后，解压即可使用，该模式下通过 --master local[n] 指定核心数来模拟并行运算

standalone

Hadoop可以自己构建一个由Master+Slave构成的Spark集群。

配置Standalone需要配置spark-evn.sh以及slvaes，让后将配置好的spark程序分发。

Yarn

配置yarn配置spark-evn.sh添加YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop即可

其他配置

HA

历史服务器配置

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。