Spark实用议题系列(03)--- Spark SQL中的各种类型(Types)

本文深入探讨了Spark SQL中的数据类型体系,基于Spark源码解析了AbstractDataType.scala文件中的类型类及其继承关系。文章通过图表展示类型结构,并指出私有、保护和公共类型的区分。此外,详细阐述了DataType的7个核心方法及其在不同子类中的实现,通过实例展示了这些方法的执行结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

根据Spark的源码(路径:spark/sql/catalyst/src/main/scala/org/apache/spark/sql/types/),我总结了如下图中的各种类型。

 

这里对图中的各个构件说明:

  • 大框的标题是目录下各个文件的名字,例如AbstractDataType就是指文件AbstractDataType.scala。
  • 大框中的圆弧小框就是各种类型(Types)的类(Class),而箭头的方向表明了它们的继承关系。
  • 两个黄色的大框都是文件AbstractDataType.scala的内容,而这里只是为了显示更清晰的继承关系而将它们分开。
  • 黑色的圆弧小框表示这个类是private的,灰色的是protected,而没有颜色就是public的了。
  • 另外,从StructType,到StructField,到Metadata的虚箭头线,表示了这些类型实体的包含关系。

从图中可以看到,所有的类型都是DataType的子类。抽象类DataType定义了7个方法:defaultSize, typeName, simpleString, catalogString, sql, json, prettyJson,而其子类会重载这些方法以体现各个子类的特性。下面的例子可以得到各种子类在执行这些方法后得到的值:

import org.apache.spark.sql.types._

case class TypeMethods (
        defaultSize: Int,
        typeName: String,
        simpleString: String,
        catalogString: String,
        sql: String,
        /
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值