
SparkSQL
BigMoM1573
淡泊名利
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSQL>Spark-On-Hive
文章目录概述Hive开启MetaStore服务SparkSQL整合Hive MetaStore使用SparkSQL操作Hive表概述官网http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.htmlConfiguration of Hive is done by placing your hive-site.xml...原创 2020-04-15 10:12:33 · 460 阅读 · 1 评论 -
SparkSQL>开窗函数
文章目录概述准备工作聚合开窗函数排序开窗函数ROW_NUMBER顺序排序RANK跳跃排序DENSE_RANK连续排序NTILE分组排名[了解]概述https://www.cnblogs.com/qiuting/p/7880500.html介绍开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算...原创 2020-04-15 09:13:53 · 785 阅读 · 0 评论 -
Spark SQL>自定义函数
文章目录自定义函数分类自定义UDF自定义UDAF[了解]自定义函数分类类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类1.UDF(User-Defined-Function)输入一行,输出一行2.UDAF(User-Defined Aggregation Funcation)输入多行,输出一行3.UDTF(Use...原创 2020-04-14 11:54:10 · 771 阅读 · 0 评论 -
SparkSQL>多数据源交互
Spark SQL可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等准备数据:在本地的D:\data目录下创建一个person.txt19 zhhshang 6620 lisi 6619 wangwu 7731 zhaoliu 6619 maqi 881.写数据import java.util.Propertiesimport org.apache...原创 2020-04-13 11:45:59 · 192 阅读 · 0 评论 -
SparkSQL>SQL概述
文章目录Spark SQL官方介绍Spark SQL 的特点SQL优缺点Hive和SparkSQLSpark SQL数据抽象DataFrameDataSetRDD、DataFrame、DataSet的区别Spark SQL官方介绍官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式...原创 2020-04-12 20:50:38 · 421 阅读 · 0 评论 -
Spark SQL>使用IDEA开发Spark SQL
文章目录1、创建DataFrame/DataSet1.1、指定列名添加Schema1.2、StructType指定Schema-了解1.3、反射推断Schema--掌握2、花式查询3、相互转化4、Spark SQL完成WordCountSQL风格DSL风格准备pom文件<!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <repo...原创 2020-04-13 10:55:44 · 1333 阅读 · 0 评论 -
Spark SQL>DataFrame和DataSet 初体验
文章目录入口-SparkSession创建DataFrame创读取文本文件读取json文件读取parquet文件创建DataSet两种查询风格[先了解]准备工作DSL风格SQL风格总结入口-SparkSession在spark2.0版本之前SQLContext是创建DataFrame和执行SQL的入口HiveContext通过hive sql语句操作hive表数据,兼容hive操作,h...原创 2020-04-12 23:08:08 · 439 阅读 · 0 评论