SparkSql如何创建DataFrame

蒙着面会很强

于 2018-10-25 15:11:37 发布

阅读量286

点赞数

CC 4.0 BY-SA版权

分类专栏： SparkSQL 文章标签： SparkSQL

4 篇文章

订阅专栏

本文详细介绍如何使用SparkSession构建会话，创建DataFrame，并解析数据源读写操作。包括通过不同方式创建DataFrame，如从对象列表和指定Schema创建，以及使用SparkSession进行非流式和流式数据读写。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一,如果构建SparkSession

import org.apache.spark.sql.SparkSession;

1,SparkSession.builder().getOrCreate();

2,SparkSession.builder
  .master("local")
  .appName("Word Count")
  .config("spark.some.config.option", "some-value")
  .getOrCreate()

二,创建DataFrame

import spark.implicits._

1. def createDataFrame(data: List[_], beanClass: Class[_]): DataFrame

根据已给的装有对象的list,和对象的JavaBean创建,字段名为属性名

2. createDataFrame(rows: List[Row], schema: StructType): DataFrame

不存在javaBean,自己手动指定对象

三,数据源

SparkSession.read 用来读取非流式数据

SparkSession.readSteam,用来读取流式数据

DataFrameWriter ,写非流式数据