spark案例：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量

原创于 2018-12-12 18:51:46 发布

· 3.4k 阅读

14 ·

版权

文章标签：

#spark案例

spark 专栏收录该内容

5 篇文章

订阅专栏

该博客通过一个具体的Spark案例，展示了如何处理一组键值对数据，其中键表示图书名称，值表示图书销量。内容涉及使用Spark代码计算每种图书的每天平均销量，最终得出结果为：spark图书平均销量为4，hadoop图书平均销量为5。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

案例：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key
表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。

spark代码：

import org.apache.spark.{SparkConf, SparkContext}

object tushu {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("paixu").setMaster("local")
    val sc = new SparkContext(conf)
    val book = Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6))
    val rdd = sc.parallelize(book)
    val result = rdd.mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).
      mapValues(x=>(x._1/x._2)).collect().toList

    println(result)
  }
}
//解释：

//1.var d = rdd.mapValues(x => (x,1) )

//得到Array[(String, (Int, Int))] = Array((spark,(2,1)), (hadoop,(6,1)), (hadoop,(4,1)), (spark,(6,1)))

//2.var dd = d.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))

//得到Array[(String, (Int, Int))] = Array((spark,(8,2)), (hadoop,(10,2)))

//3.var ddd = dd.mapValues(x => x._1/x._2).collect().toList

//得到List((spark,4), (hadoop,5))

运行结果：