- 博客(3)
- 收藏
- 关注
转载 spark闭包
什么叫闭包: 跨作用域访问函数变量。又指的一个拥有许多变量和绑定了这些变量的环境的表达式(通常是一个函数),因而这些变量也是该表达式的一部分。 Spark闭包的问题引出: 在spark中实现统计List(1,2,3)的和。如果使用下面的代码,程序打印的结果不是6,而是0。这个和我们...
2020-12-28 14:17:41
220
原创 spark数据持久化
persist、cache和checkPoint 使用场景 1、某个rdd被多次用到时。 2、某个rdd比较重要,或者处理流程多,血缘长时。 相同点 都将数据持久化提高效率。 不同点 1、cache底层用的是persist,但策略是memeory_only,只将数据保存在内存中。好处是效率较高,缺点是不安全,如果数据量大,可能引起内存溢出。 2、persist可以选择持久化策略,使用较多的memeory_and_only,持久化首选,如果内存不够,则写入磁盘。因为可能有磁盘io,所以效率较cache低,但更
2020-12-25 11:01:08
244
原创 reduceByKey、groupByKey和groupBy的区别
groupByKey和groupBy 两者对数据进行分组后的rdd类型不同 reduceByKey和groupByKey 两者对数据进行分组前,都会先将数据分组落到磁盘,然后再读取磁盘里的数据,目的是防止数据量过大导致内存溢出。但落地到磁盘前reduceByKey会进行预聚合以减少落地磁盘的数据量,效率较高。 ...
2020-12-23 15:26:01
861
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人