
大数据
文章平均质量分 66
hive hadoop spark hbase kafka 等
北京下雨天
半夜醒来,海棠花未眠
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
docker 搭建 cdh 分布式集群
参考地址:1 新建镜像(主节点)docker run --privileged=true --name w1 -h w1 -p 8020:8020 -p 7180:7180 -p 21050:21050 -p 50071:50070 -p 50076:50075 -p 50011:50010 -p 50021:50020 -p 8889:8888 -p 10022:22 -p 8901:8900 9781:9780 8089:8088 ky:master /usr/sbin/原创 2021-03-01 20:27:36 · 1107 阅读 · 0 评论 -
pyspark在分布式环境中引入虚拟环境
背景: 当我们的代码逻辑依赖于一个虚拟环境,怎么将这个环境在一个分布式集群中使用呢?1 我们有一个django项目,里面有venv的虚拟环境我们需要打包这个环境:zip -r ai-alg.zip ai-alg2 程序执行命令主要看椭圆的部分参数说明:–conf spark.pyspark.python=./local_venv/local_venv/bin/python #executor集群端的pyspark配置,即任务执行的机器–conf spark.pyspark.driver.原创 2021-03-01 20:20:18 · 403 阅读 · 0 评论 -
pyspark 引入自定义 的egg模块
1 提交的命令/usr/hdp/2.6.1.0-129/spark2/bin/spark-submit --master yarn-client --executor-memory 29G –num-executors 10 –executor-cores 100 –py-files /data/data1/leopard/bdist/leopard-0.1.dev0-py2.7.egg –conf spark.default.parallelism=200 /data/data1/leo原创 2021-03-01 19:56:18 · 484 阅读 · 2 评论