【免费】HiveonSpark实施笔记1资源-CSDN下载

需积分: 0 28 浏览量 2022-08-08 20:11:33 上传评论收藏 270KB DOCX 举报

《Hive on Spark实施详解》在大数据处理领域，Hive和Spark分别是两个重要的组件，它们各自在数据仓库和分布式计算方面发挥着重要作用。当Hive与Spark结合使用，即Hive on Spark，可以实现更高效的数据处理。本文将详细介绍如何在Ubuntu 14.04环境下编译和配置Hive on Spark，以及测试其运行效果。我们需要准备合适的编译环境。操作系统应为Ubuntu 14.04，同时需要安装Maven和Scala（用于Spark的编译）。确保已设置HADOOP_HOME环境变量，因为Spark需要与Hadoop兼容。此外，由于编译过程中需要下载大量文件，需要保持网络连接畅通，并配置Maven的国内镜像以加速下载。在编译适合Hive的Spark时，由于Spark支持从Hive读取数据，会引入Hive的jar包，可能导致jar冲突。因此，我们需要从源码重新编译不包含Hive相关模块的Spark。下载Spark-1.4.0的源码，并使用指定的编译命令进行编译，如`mvn -DskipTests clean package -Pdist,spark-external -Phadoop-2.6 -Pyarn -Psparkr -Phive -Phive-thriftserver`。编译完成后，将结果复制到目标机器的安装目录，设置环境变量并添加到PATH。安装完成后，需要对Spark进行配置。编辑`conf/spark-env.sh`、`conf/spark-defaults.conf`、`conf/slaves`和`conf/log4j.properties`文件。在`slaves`文件中列出所有Spark集群的worker节点。通过`log4j.properties`，可以根据需求调整日志级别。启动环境时，确保使用JDK 1.7，Hadoop 2.6和Hive 1.2.1。启动Spark集群服务，如果一切配置正确，可以通过Web UI查看Spark Master的状态。配置Hive on Spark时，Hive会在启动时检查是否配置了SPARK_HOME环境变量。如果配置正确，Hive将自动引入Spark支持。关键的配置参数`hive.execution.engine`决定了计算引擎，可以设置为`tez`或`spark`。对于Hive on Spark，还有一些常用的参数，如`spark.master`，`spark.executor.memory`等，可以根据实际需求调整。在测试阶段，可以执行一个触发聚合计算的Hive SQL查询，例如`SELECT COUNT(*) FROM table`。如果集成正常，日志输出应该符合预期。参考文档包括Apache官方的Hive on Spark指南、Spark运行在YARN上的文档，以及相关技术博客，这些资源提供了更多详细的配置和使用信息。 Hive on Spark的实施涉及多个步骤，包括编译、安装、配置和测试。通过遵循上述步骤，可以在Ubuntu环境下成功搭建和运行Hive on Spark，从而提升大数据处理的效率。

资源详情

资源评论

资源推荐