
计算引擎
计算引擎
zdsg1024
成功的路上并不拥挤,因为坚持的人不多
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark落地到hive表时saveAsTable与insertInto的区别
SaveAsTable//Api的解释Saves the content of the `DataFrame` as the specified table.** In the case the table already exists, behavior of this function depends on the* save mode, specified by the `mod...原创 2019-11-28 14:35:09 · 5117 阅读 · 2 评论 -
Spark中DF落地到hive中进行动态分区以及小文件问题
五个注意点hive的动态分区需要开启非严格模式set hive.exec.dynamic.partition.mode=nonstrictinsertInto方式不支持分区表数据导入saveAsTable与insertInto的区别指定的分区列必须为当前表中的某个列比如一张主题表中想保留Long类型的ct字段,又想根据ct转化为String类型的bdp_day来进行分区,就需要在当...原创 2019-11-28 16:47:05 · 1713 阅读 · 2 评论 -
spark任务在yarn中的资源分配
yarn中spark任务的资源分配监控页面: master://8088所占内存总大小: 参数如下图:实际情况中,应用程序申请到的资源量一定大于所申请的资源量例如:spark driver指定内存 2g,executor指定内存 2g*3 合计应该是8192M内存但实际上分配的内存或许为 12288M 等,为何会出现这样的情况?因为由JVM自身的开销,并且还涉及到一个名词——规整化因子并且yarn的不同任务调度模式下的资源分配总理的计算方式是不同的规整化因子关于内存的默认配置: ya原创 2020-11-02 14:36:09 · 1102 阅读 · 0 评论 -
SparkStreaming之direct方式消费kafka数据偏移量相关问题
SparkStreaming之direct方式消费kafka数据偏移量相关问题direct方式支持不支持自动维护偏移量-----------不支持那么看看direct方式消费时怎么判断偏移量的??stream = KafkaUtils.createDirectStream( jssc, ConsumerStrategies.Subscribe(原创 2020-09-18 18:11:32 · 416 阅读 · 0 评论 -
MapReduce小作业优化之Uber模式
1.什么是Uber模式Uber模式是Hadoop2.0中实现的一种针对MR小作业的优化机制。即如果作业足够小,则所有task在一个jvm(mrappmaster)中完成要比为每个task启动一个container更划算。在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片很多,那么为每个map任务或者reduce任务频繁创建Conta...原创 2019-09-08 16:28:34 · 467 阅读 · 0 评论