自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

转载 spark闭包

什么叫闭包: 跨作用域访问函数变量。又指的一个拥有许多变量和绑定了这些变量的环境的表达式(通常是一个函数),因而这些变量也是该表达式的一部分。 Spark闭包的问题引出: 在spark中实现统计List(1,2,3)的和。如果使用下面的代码,程序打印的结果不是6,而是0。这个和我们...

2020-12-28 14:17:41 220

原创 spark数据持久化

persist、cache和checkPoint 使用场景 1、某个rdd被多次用到时。 2、某个rdd比较重要,或者处理流程多,血缘长时。 相同点 都将数据持久化提高效率。 不同点 1、cache底层用的是persist,但策略是memeory_only,只将数据保存在内存中。好处是效率较高,缺点是不安全,如果数据量大,可能引起内存溢出。 2、persist可以选择持久化策略,使用较多的memeory_and_only,持久化首选,如果内存不够,则写入磁盘。因为可能有磁盘io,所以效率较cache低,但更

2020-12-25 11:01:08 244

原创 reduceByKey、groupByKey和groupBy的区别

groupByKey和groupBy 两者对数据进行分组后的rdd类型不同 reduceByKey和groupByKey 两者对数据进行分组前,都会先将数据分组落到磁盘,然后再读取磁盘里的数据,目的是防止数据量过大导致内存溢出。但落地到磁盘前reduceByKey会进行预聚合以减少落地磁盘的数据量,效率较高。 ...

2020-12-23 15:26:01 861

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除