spark-hadoop安装避坑&spark 开发环境避坑

最新推荐文章于 2022-10-08 22:07:55 发布

原创最新推荐文章于 2022-10-08 22:07:55 发布 · 337 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了配置Hadoop时避免将HADOOP_CONF_DIR加入PATH的原因，以及Spark提交时注意脚本与shell中master参数的一致性对资源占用的影响。在Standalone模式下，通过设置--confspark.cores.max和--executor-cores来控制executor的数量和内存。此外，还分享了在Jupyter中使用Scala的两种方法：Apache Toree和almond，以及它们的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、在配置hadoop时不要将HADOOP_CONF_DIR加入到PATH中去，否则会造成只能从hdfs中读数，要从本地读数的就没了

2、使用spark-submit时，jar包中（或脚本文件中）的master会覆盖shell的master参数，因此当发现spark程序占用异常时，可查下这两处的配置！！！

3、standalone模式下使用：
–conf spark.cores.max=32 --executor-memory 2g --executor-cores 32来控制CPU和内存资源，如上executor的数量为"spark.cores.max=32"/–executor-cores 32=1，内存使用为1*2=2g。否则，默认情况下会满核使用。

4、spark关于在jupyter中使用scala的安装配置，我用过两种方式，

Apache Toree
这个比较方便，安装时不会下载其他依赖的包，直接套用spark安装包中的scala，启动jupyter时配置sparkcontext参数即可，比较轻量
almond
这个相对上面来讲会下载很多依赖包，并且要让almond的版本和spark-scala的版本对齐，不能乱下，我当时使用这个是因为上面那种方案jupyter的cell输出中和后台shell中没有任何的报错信息，调试不了才用的这个，很玄学。