
spark
文章平均质量分 66
一代码动乾坤
目前主攻大数据领域的专家。熟悉DSP,DMP等常见在线广告体系、视频新媒体、下线实体数字化、企业级数据管理、数据治理、AI等领域有深耕。最终目标成为一名全栈代码扫地僧。望与大家共勉,一起将快乐代码做成终生事业!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark参数解说
可以看看自己团队的资源队列的最大内存限制是多少,num-executors乘以executor-memory,就代表了你的Spark作业申请到的总内存量(也就是所有Executor进程的内存总和),这个量是不能超过队列的最大内存量的。此外,如果你是跟团队里其他人共享这个资源队列,那么申请的总内存量最好不要超过资源队列最大总内存的1/3-1/2,避免你自己的Spark作业占用了队列所有的资源,导致别的同学的作业无法运行。默认开启,可以更好的利用当个executor的性能,还能缓解小文件的问题。原创 2022-10-24 22:50:48 · 3365 阅读 · 0 评论 -
spark rdd无法toDF()解决
首先 toDF需要导入的包//导入隐饰操作,否则RDD无法调用toDF方法 import sparkSession.implicits._ //(你的SparkSession类)然后就可以todf了如果还不行,检查你的RDD 类型对不对,是不是 RDD[样例类] 或者RDD[structType]...原创 2022-01-12 15:39:13 · 5262 阅读 · 2 评论 -
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进(转载)
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进(转载)本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。前言自适应查询优化(Adaptive Query Execution, AQE) 是 Spark 3.0 版本引入的重大特性之一,可以在运行时动态的优化用户的 SQL 执行计划,很大程度上提高了 Spark 作业的性能和稳定性。AQE 包含动态分区合并、Join 数据倾斜自转载 2021-05-24 13:56:18 · 225 阅读 · 0 评论 -
最新spark,hive,flink,kafka,hadoop,zookeeper,flume,java,maven,Apache历史版本大全下载
spark,hive,flink,kafka,hadoop,zookeeper,flume,java,maven,Apachek开源框架历史版本下载TP通道www.apache.list.cnps:各种Apache组件的历史版本收集,有spark,hive,flink,kafka,hadoop,zookeeper,flume,java,maven,Apache 等。。。。。。。快来找寻你需要的框架吧...原创 2020-09-10 17:54:02 · 365 阅读 · 0 评论 -
Spark中的宽依赖和窄依赖的区别
开门见山,本文就针对一个点,谈谈Spark中的宽依赖和窄依赖,这是Spark计算引擎划分Stage的根源所在,遇到宽依赖,则划分为多个stage,针对每个Stage,提交一个TaskSet:上图:一张网上的图:基于此图,分析下这里为什么前面的流程都是窄依赖,而后面的却是宽依赖:我们仔细看看,map和filter算子中,对于父RDD来说,一个分区内的数据,有且仅有一个子RDD的...转载 2020-03-13 10:34:06 · 1027 阅读 · 0 评论 -
Spark数据本地化的5种方式
Spark中数据的本地化方式分为5种1、PROCESS_LOCAL : 进程本地化,指task计算的数据在本进程(Executor)中2、NODE_LOCAL:节点本地化,指task计算的数据在本节点(node)的磁盘上,当task在本进程中一直没有执行(如果Driver分发task 3s后没有执行,且重复5次后),此时Driver就把这个没有执行的task发送到本节点的其他executo...原创 2020-01-08 11:30:57 · 1254 阅读 · 0 评论 -
字节跳动在Spark SQL上的核心优化实践
字节跳动在Spark SQL上的核心优化实践大数据架构今天以下文章来源于字节跳动技术团队,作者郭俊字节跳动技术团队字节跳动的技术实践分享10月26日,字节跳动技术沙龙| 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人郭俊,Kyligence 大数据研发工程师陶加涛,字节跳动存储工程师徐明敏,阿里云高级技术专家白宸和大家进行分享交流。...转载 2019-11-11 13:13:13 · 1786 阅读 · 0 评论 -
SparkStreaming链接kafka异常 dead for group td_topic_advert_impress_blacklist
Kafka-Spark Streaming 异常: dead for group td_topic_advert_impress_blacklist很有可能是防火墙问题或者是C:\Windows\System32\drivers\etc\hosts文件的问题!!!18/10/31 17:42:58 INFO AbstractCoordinator: Discovered co...原创 2019-11-06 17:45:10 · 486 阅读 · 0 评论 -
Spark3.0动态分区裁剪
静态分区裁剪(Static Partition Pruning)用过Spark的同学都知道,SparkSQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询: SELECT * FROM Sales_iteblog WHERE day_of_week = 'Mon' Spark会自动进行以下的优化:如果想及时了解Spark、Hadoop或者Hbase相关...转载 2019-11-06 17:05:55 · 894 阅读 · 0 评论 -
最新spark函数列表2019(带目录,汉化)
Spark SQL 内置函数列表Spark 下载为PDF文章目录1 ! 2 % 3 & 4 * 5 + 6 - 7 / 8 < 9 <= 10 <=> 11 = 12 == 13 > 14 >= 15 ^ 16 abs 17 acos 18 add_months 19 and 20 approx_co...转载 2019-10-28 18:44:02 · 1045 阅读 · 0 评论 -
2019最新Spark 2.4内置函数-新增
Apache Spark 2.4 新增了24个内置函数和5个高阶函数,本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性,可以参见 《Apache Spark 2.4 正式发布,重要功能详细介绍》。文章目录1 针对数组类型的函数 1.1 array_distinct 1.2 array_intersect 1.3 array_union 1...转载 2019-10-28 17:43:21 · 319 阅读 · 0 评论 -
Spark -SQL中重分区增大or减少并行度
Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)如果你使用SparkRDD 或者 DataFrame 编写程序,我们可以通过coalesce或repartition来修改程序的并行度: val data = sc.newAPIHadoopFile(xxx).coalesce(2).map(xxxx) 或 va...原创 2019-05-06 19:02:07 · 1408 阅读 · 0 评论 -
CDH5升级jdk1.7到1.8---spark1.6升到spark2.3
一、JDK1.7升级到JDK1.8由于之前CDH中安装了spark1.6,为了适配,我安装jdk1.7,但是在spark2.3中jdk1.7的支持已经被移除了,所以我们第一件事需要将jdk版本升级到jdk1.81、停掉所有节点的cloudera manager/opt/cm-5.15.0/etc/init.d/cloudera-scm-server stop/opt/c...原创 2019-04-18 10:17:46 · 357 阅读 · 0 评论 -
scala中使用fastjson来解析字符串
先导入maven依赖<!--fastjson--><dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.56</version></de...原创 2019-03-28 17:05:35 · 445 阅读 · 0 评论 -
spark中 RDD、DataFrame、Dataset的关系及区别
谈谈RDD、DataFrame、Dataset的区别和各自的优势在spark中,RDD、DataFrame、Dataset是最常用的数据类型共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会...原创 2019-04-01 13:37:29 · 1893 阅读 · 0 评论 -
为什么不建议在 HBase 中使用过多的列族
我们知道,一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述:A typical schema has between 1 and 3 column families per table. HBase tables should not be designed to mimic RDBMS tables. 以及 HBase currently...原创 2019-01-09 23:12:36 · 336 阅读 · 0 评论 -
Spark分区
默认分区和HashPartitioner分区默认的分区就是HashPartition分区,默认分区不再介绍,下面介绍HashPartition的使用通过上一章 mapPartitionsWithIndex的例子,我们可以构建一个方法,用来查看RDD的分区def mapPartIndexFunc(i1:Int,iter: Iterator[(Int,Int)]):Iterator[(Int,(...转载 2018-12-06 23:54:47 · 366 阅读 · 0 评论 -
spark开发中的Zip算子灵活使用
本人开发中,需要聚合的文段举个栗子:RDD中有如下元素k v((a,b),List(7,8,9))((a,b),List(1,2,3))((a,b),List(4,5,6))((c,d),List(4,5,6))。。。。。。reducebyke后要对v 操作原理将v 中的list 前后zip 再map 每个元素进行 逐个元组元素(口,口)的累加。a代表...原创 2018-12-04 22:14:48 · 2540 阅读 · 0 评论 -
hbase常用操作命令
启动hbase集群:bin/start-hbase.sh启动完后,还可以在集群中找任意一台机器启动一个备用的masterbin/hbase-daemon.sh start master新启的这个master会处于backup状态安装完后,可以通过web请求访问master的状态信息http://hdp27-01:16010/启动 hbase 的命令行客户端bin/hbase sh...原创 2018-12-04 21:46:29 · 239 阅读 · 0 评论