Hive on Spark 配置

原创

已于 2024-05-31 21:39:00 修改 · 2.5k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#hive #spark #hadoop

于 2024-03-30 10:50:40 首次发布

1 Hive 引擎简介

Hive引擎包括：MR（默认）、tez、spark。

Hive on Spark：Hive既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。

Spark on Hive：Hive 只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用 RDD 执行。

2 Hive on Spark 配置

注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive3.1.2支持的Spark版本是2.4.5，所以需要我们重新编译Hive3.1.2版本。

编译步骤：官网下载Hive3.1.2源码，修改pom文件中引用的Spark版本为3.0.0，如果编译通过，直接打包获取jar包。如果报错，就根据提示，修改相关方法，直到不报错，打包获取jar包。

在这里插入图片描述

2.1 在 Hive 所在节点部署 Spark

（1）Spark官网下载 jar 包地址：http://spark.apache.org/downloads.html

（2）上传并解压解压spark-3.0.0-bin-hadoop3.2.tgz

[huwei@hadoop101 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
[huwei@hadoop101 software]$ mv /opt/module/spark-3.0.0-bin-hadoop3.2 /opt/module/spark

（3）配置 SPARK_HOME 环境变量

[huwei@hadoop101 module]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

使环境变量生效

[huwei@hadoop101 module]$ source /etc

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夏木夕

关注关注

31
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive on Spark配置

ayong95的专栏

12-17

2477

Hive on Spark安装,hadoop-3.3.0,spark-3.4.3-bin-hadoop3,apache-hive-3.1.3

Hive on spark 配置

weixin_44701015的博客

06-19

2932

参考文档 https://docs.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html#hos_running http://bdlabs.edureka.co/static/help/topics/admin_hos_tuning.html https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/admin_hos_tuning.html 1

参与评论您还未登录，请先登录后发表或查看评论

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

最新发布

IT成长日记的博客

05-03

1450

在大数据生态系统中，Hive作为数据仓库基础设施，与Spark SQL作为现代分析引擎的集成已成为企业级数据平台的标配。通过合理的参数调优和架构设计，可以充分发挥各引擎的优势，构建高性能、高效率的数据处理平台

hive on spark 配置和 spark on hive

yang灬仔

03-16

4323

Hive引擎简介 Hive引擎包括：默认MR、tez、spark Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，Spark负责采用RDD执行。 HiveonSpark配置 1）兼容性说明注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive...

配置hive on spark

weixin_56581189的博客

03-15

729

linux虚拟机配置Spark On Hive

【Spark篇】---SparkSQL on Hive的配置和使用

L先生AI课堂

02-08

2284

一、前述 Spark on Hive： Hive只作为储存角色，Spark负责sql解析优化，执行。二、具体配置 1、在Spark客户端配置Hive On Spark 在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml：配置hive的metastore路径 <configurati...

Hive On Spark 概述、安装配置、计算引擎更换

2401_84164672的博客

04-08

1720

因为我们的版本选择的纯净版，所以需要在 Spark 环境文件中指定已经安装的 Hadoop 路径。cd $SPARK_HOME/confmv spark-env.sh.template spark-env.shvim spark-env.sh在该文件末尾添加，指定 Hadoop 路径：export SPARK_DIST_CLASSPATH=$(hadoop classpath)添加完成之后，保存并退出。其中的作用是获取 Hadoop 类路径的值（需要提前配置 Hadoop 的环境变量，否则获取不到）

Hive on Spark

weixin_42073629的博客

10-29

1651

简介本文主要记录如何安装配置Hive on Spark，在执行以下步骤之前，请先确保已经安装Hadoop集群，Hive，MySQL，JDK，Scala，具体安装步骤不再赘述。背景 Hive默认使用MapReduce作为执行引擎，即Hive on mr。实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。因此，Hi

Spark on Hive 环境配置

半吊子Kyle的博客

08-26

4609

Spark on Hive 环境配置搭建准备配置修改启动及测试 Hive Tables - Spark 3.1.2 Documentation (apache.org) 搭建准备 ① 准备 Hadoop 和 Hive 环境 Hadoop 介绍及集群搭建参考 Hive 搭建参考 ② 准备 Spark on Yarn 环境环境搭建-Spark on YARN_ 配置修改修改 hive-site.xml 配置文件：在 3 台 Spark 服务器上都操作 # 进入 Spark 安装目录 cd /opt/serv

Hive 上配置 Hive on Spark

09-16

2272

在 Hive 上配置 Hive on Spark。

hive on spark参数配置

weiha666的博客

12-23

3124

hive on Spark参数： set spark.master=yarn-cluster; #设置spark提交模式 set hive.execution.engine=spark; #设置计算引擎 set spark.yarn.queue=queue_name; #设置作业提交队列 set spa...

Hive on Spark 部署

gm_ji的博客

08-14

571

所以采用 Spark 纯净版 jar 包，不包含 hadoop 和 hive 相关依赖，避免冲突。：Hive 任务最终由 Spark 来执行，Spark 任务资源分配由 Yarn 来调度，该任务有可能被分配到集群的任何一个节点。所以需要将 Spark 的依赖上传到HDFS 集群路径，这样集群中任何一个节点都能获取到。1.上传并解压 spark-3.0.0-bin-without-hadoop.tgz。1.上传并解压解压 spark-3.0.0-bin-hadoop3.2.tgz。

hive on spark配置方案详解

sunxunyong的博客

07-02

1154

spark.driver.extraJavaOptions=-Dhdp.version=3.1.0.0-78 ##如果不配置，spark executor无法启动。2、将该spark客户端，放到/usr/hdp/3.1.0.0-78/hive目录下，命名为sparkengine。1、在/usr/hdp/3.1.0.0-78/hive/lib中添加spark2的依赖包。3、配置conf/spark-default.conf和spark-env.sh。一、安装hive-on-spark客户端。

hive on spark配置

weixin_33910460的博客

12-03

186

1、安装java、maven、scala、hadoop、mysql、hive 略 2、编译spark ./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided" 3、安装spark tar -zxvf spark-1.6.0-bin-hadoop2-without-h...

java hive集群_hive集群配置 hive on spark

weixin_39832727的博客

02-24

259

hive集群配置 hive on sparkhiveHiveServer2的高可用-HA配置hive on spark编译sparkhive on spark要求spark编译时不集成hive，编辑命令如下，需要安装maven，命令中hadoop版本根据实际情况调整#Spark 2.0.0以后./dev/make-distribution.sh--name"hadoop2-without-hive...

hive-on-spark配置和使用方法

lubenweiniubi的博客

03-05

847

hive-on-spark配置和使用方法：配置：1、将Hadoop/etc/hadoop/里面的core-site.xml和Hive/conf里的hive-site.xml复制到Spark/conf里2、注意：如果你的mysql数据库装在windows，需要设置字符集为latin1启动：$SPARK/bin/spark-sql \--master spark://node01:7077 \--ex...

Hive记录-Hive on Spark环境部署

weixin_30668887的博客

10-17

300

1.hive执行引擎 Hive默认使用MapReduce作为执行引擎，即Hive on mr。实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。默认情况下，Hive on Spark 在YARN模式下支持...

hive on spark 配置原理

05-30

在Hive on Spark模式下，Hive使用Spark作为计算引擎来执行查询。...综上所述，Hive on Spark的配置原理是通过在Hive中启用Spark支持，配置Spark相关参数和创建SparkSession，并在Spark集群中配置好资源管理器来实现的。