spark 机制原理自问自答

进击成长

于 2017-11-26 13:24:23 发布

阅读量3.7k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： spark经验总结文章标签： spark

本文链接：https://blog.csdn.net/xwc35047/article/details/78636924

本文探讨了Spark中task失败时的重计算情况，区分了shuffle file lost导致的stage重计算和task单独重提交。此外，解释了spark.yarn.executor.memoryOverhead与spark.memory.offHeap.size在表示堆外内存大小时的不同用途，前者用于Executor自身JVM开销，后者用于rdd计算和存储。最后，阐述了shuffle write、shuffle spill (memory)和shuffle spill (disk)的区别，前者涉及executor间数据移动，后两者分别表示内存溢写和磁盘溢写的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要收录spark学习和工作中思考的问题。

####1、当Spark task failed，什么情况下task重计算，什么情况下stage重计算？
答：如果task失败是因为shuffle output files lost，则DAGScheduler会对stage重提交计算；如果不是因为shuffle file lost，则选择resubmit task。这是因为shuffle output file lost涉及stage之间的失误，需要上游重提交stage产生新的shuffle output文件。

####2、参数spark.yarn.executor.memoryOverhead与参数spark.memory.offHeap.size都表示堆外内存大小，有什么区别？
答：作用不同。因为spark.yarn.executor.memoryOverhead表示Executor自身JVM进程需要的内存开销，spark.memory.offHeap.size表示rdd计算执行和数据存储使用的offheap（默认计算和存储各占50%，由参数spark.memory.storageFraction控制）。

####3、关于shuffle write、shuffle spill (memory)、shuffle spill (disk)概念有什么区别？