Spark统计DataFrame每列的缺失率

原创于 2020-03-24 17:04:59 发布 · 2.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#spark

pyspark 专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何使用Scala和Apache Spark SQL统计DataFrame中各列的缺失记录数和缺失率，通过实例展示如何创建DataFrame，统计每列的缺失记录数，计算缺失率并将其转换为DataFrame进行展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

// scala 版本

import org.apache.spark.sql.functions.col

// tax_info 为一个dataframe

val columns=tax_info.columns
val cnt=tax_info.count()

// 统计每列的缺失记录数
val missing_cnt=columns.map(x=>data.select(col(x)).where(col(x).isNull).count)

// 统计每列的缺失率，并保留4位小数
val missing_rate=columns.map(x=>((data.select(col(x)).where(col(x).isNull).count.toDouble/cnt).formatted("%.4f")))

// 将列名和缺失率拼接起来，组成一个dataframe
val  
result=sc.parallelize(missing_cnt.zip(columns)).toDF("missing_rate","column_name")