Apache Kudu与Spark集成快速入门指南

汤涌双

于 2025-06-27 09:08:36 发布

阅读量400

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00359/article/details/148942869

Apache Kudu与Spark集成快速入门指南

概述

本文将通过一个完整的示例，展示如何使用Apache Spark与Apache Kudu进行数据集成和处理。我们将使用旧金山MTA公交系统的GPS数据集，演示从数据准备到Kudu表创建、数据加载、查询和修改的全过程。

环境准备

1. Kudu环境搭建

首先需要搭建Kudu的快速启动环境。Kudu提供了本地开发环境配置方案，支持单机多节点模拟分布式环境。建议配置至少3个tablet server以实现数据高可用。

2. Spark安装

需要安装Apache Spark环境。对于Mac用户，推荐使用Homebrew进行安装：

brew install apache-spark

数据集准备

我们将使用旧金山MTA公交系统的GPS数据集，该数据集包含安装在公交车上的传感器定期传输的原始位置数据。

数据下载与预处理

由于原始数据源访问较慢，我们可以使用镜像数据源，并进行必要的格式转换：

wget http://kudu-sample-data.s3.amazonaws.com/sfmtaAVLRawData01012013.csv.gz
gunzip -c sfmtaAVLRawData01012013.csv.gz | tr -d '\r' | \
  sed 's/PREDICTABLE/PREDICTABLE\n/g' > sfmtaAVLRawData01012013.csv

预处理步骤包括：

解压文件
将DOS格式换行符转换为UNIX格式
修复表头后的缺失换行

Spark与Kudu集成

启动Spark Shell

启动Spark Shell并加载Kudu-Spark集成包：

spark-shell --packages org.apache.kudu:kudu-spark2_2.11:1.17.0

数据加载与预处理

1. 读取CSV数据

val sfmta_raw = spark.sqlContext.read.format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("sfmtaAVLRawData01012013.csv")

2. 数据预处理

关键预处理步骤包括：

将REPORT_TIME从字符串转换为时间戳类型
将主键列(REPORT_TIME和VEHICLE_TAG)标记为非空

import org.apache.spark.sql.types._
import org.apache.spark.sql.DataFrame

def setNotNull(df: DataFrame, columns: Seq[String]): DataFrame = {
  val schema = df.schema
  val newSchema = StructType(schema.map {
    case StructField(c, t, _, m) if columns.contains(c) => 
      StructField(c, t, nullable = false, m)
    case y: StructField => y
  })
  df.sqlContext.createDataFrame(df.rdd, newSchema)
}

val sftmta_time = sfmta_raw
  .withColumn("REPORT_TIME", to_timestamp($"REPORT_TIME", "MM/dd/yyyy HH:mm:ss"))
val sftmta_prep = setNotNull(sftmta_time, Seq("REPORT_TIME", "VEHICLE_TAG"))

Kudu表操作

1. 创建Kudu表

import collection.JavaConverters._
import org.apache.kudu.client._
import org.apache.kudu.spark.kudu._

val kuduContext = new KuduContext("localhost:7051,localhost:7151,localhost:7251", spark.sparkContext)

if(kuduContext.tableExists("sfmta_kudu")) {
  kuduContext.deleteTable("sfmta_kudu")
}

kuduContext.createTable("sfmta_kudu", sftmta_prep.schema,
  Seq("REPORT_TIME", "VEHICLE_TAG"),
  new CreateTableOptions()
    .setNumReplicas(3)
    .addHashPartitions(List("VEHICLE_TAG").asJava, 4))

关键配置说明：

设置3个副本保证高可用
基于VEHICLE_TAG列的4个哈希分区实现数据分布

2. 加载数据到Kudu

kuduContext.insertRows(sftmta_prep, "sfmta_kudu")

val sfmta_kudu = spark.read
  .option("kudu.master", "localhost:7051,localhost:7151,localhost:7251")
  .option("kudu.table", "sfmta_kudu")
  .option("kudu.scanLocality", "leader_only")
  .format("kudu").load

数据查询与修改

1. 查询最高车速记录

spark.sql("SELECT * FROM sfmta_kudu ORDER BY speed DESC LIMIT 1").show()

2. 数据修正示例

发现车辆编号5411的数据异常，需要删除：

spark.sql("SELECT count(*) FROM sfmta_kudu WHERE vehicle_tag = 5411").show()
val toDelete = spark.sql("SELECT * FROM sfmta_kudu WHERE vehicle_tag = 5411")
kuduContext.deleteRows(toDelete, "sfmta_kudu")
spark.sql("SELECT count(*) FROM sfmta_kudu WHERE vehicle_tag = 5411").show()