package org.example
import org.apache.spark.{SparkConf, SparkContext}
object DataFilter {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("DataFilter").setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd = sc.textFile("data/file.txt")
var rdd1 = rdd.filter(line => {
val age = line.split(",")(1)
println(age)
age.matches("\\d+")
})
//将所有的分区的数据合并成一个分区
rdd1 = rdd1.coalesce(1)
//保存到文件
rdd1.saveAsTextFile("output")
}
}
运行结果会生成txt文件。文件名字为output
结果图展示: