文章目录
零、本讲学习目标
- 了解Spark SQL的基本概念
- 掌握DataFrame的基本概念
- 掌握Dataset的基本概念
- 会基于DataFrame执行SQL查询
一、Spark SQL
(一)Spark SQL概述
- Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如
JSON
、Parquet
、Avro
、CSV
格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。
(二)Spark SQL主要特点
1、将SQL查询与Spark应用程序无缝组合
- Spark SQL允许使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapReduce作业,底层是基于MapReduce的;而Spark SQL底层使用的是Spark RDD。
- 在Spark应用程序中嵌入SQ