1.Spark基础

本文深入探讨了Spark作为集群计算引擎的优势,包括其快速、可扩展及通用的特点。详细介绍了Spark的组成部分,如集群管理器、SparkCore以及高级模块如SparkSQL和SparkStreaming等。此外,还讲解了Spark的运行模式,包括Local、Standalone和Yarn模式,以及关键概念如Master、Worker、DriverProgram和Executor的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark基础

什么是spark

Spark和MapReduce,Tez一样是一个集群计算引擎,具有快速,可扩展,以及通用三个优势,具体可以查看官网~

Spark组成

Spark由三部分组成

  • 集群管理器
  • Spark Core
  • SparkSql, SparkStreaming, Spark MLlib 以及 Spark GraghX

Spark的运行模式

Spark常用概念

  • Master:类似于hadoop的RM,负责整个集群的资源调度,其主要功能有监听Worker,以及接收client提交的application,并将application分发给各个Worker
  • Worker:掌握该进程所在的slave的资源信息,类似于NM,Master和Worker是一台机器上的守护线程
  • driver program:驱动程序,其包含有Spark程序的主函数,定义了RDD,再spark中可以通过SparkContext对它进行访问
  • executor:执行器是每个节点上的执行器。用于执行分配的计算任务以及为节点存储数据
  • RDDs:弹性分布式数据集,RDD是弹性分布式数据集
  • cluster managers:为了在一个 Spark 集群上运行计算, SparkContext对象可以连接到几种集群管理器.集群管理器负责跨应用程序分配资源

Local模式

下载spark后,解压即可使用,该模式下通过 --master local[n] 指定核心数来模拟并行运算

standalone

Hadoop可以自己构建一个由Master+Slave构成的Spark集群。

配置Standalone需要配置spark-evn.sh以及slvaes,让后将配置好的spark程序分发。

Yarn

配置yarn配置spark-evn.sh添加YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop即可

其他配置

HA

历史服务器配置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值