
scala
文章平均质量分 97
a18792721831
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sparksql将国家统计局csv文件解析并存储在hive表
sparksql将国家统计局csv文件解析并存储在hive表目的分析数据下载数据标准化数据存储开发环境集成实现项目创建依赖数据标准化DataFrame 行列转置数据存储主程序逻辑验证启动本地存储远程存储总结git地址:https://gitee.com/jyq_18792721831/sparkmaven.git目的学习大数据,那么数据从哪来?国家统计局可以免费下载社会上的各种数据,所以从国家统计局下载数据就是一个不错的数据来源渠道。当然这种只是适合自己练习或者有针对性的分析数据。一般各个公司都有自原创 2022-02-26 01:52:26 · 2217 阅读 · 0 评论 -
Hive的hiveserver2和beeline的使用以及spark thritfserver的启动
Hive的hiveserver2和beeline的使用以及spark thritfserver的启动Hive 的hiveserver2介绍hiveserver2 的配置beeline连接hiveserver2配置hiveserver2的界面spark thriftserver的配置beeline 连接spark thriftserverthriftserver和spark-sql对比spark sql 程序连接thriftserverHive 的hiveserver2介绍HiveServer2 (HS2原创 2022-02-24 23:24:19 · 6310 阅读 · 7 评论 -
spark sql 创建rdd以及DataFrame和DataSet互转
spark sql 创建rdd以及DataFrame和DataSet互转使用SparkSession读取本地文件创建rddDateSet的介绍DataFrame的介绍Rdd转DateFrame读取本地文件得到DataFrameDF风格查询sql风格查询查看sql的执行计划RDD通过指定结构转为DataFrameRDD通过反射构造结构转为DataFrameRdd 转DataSet从DataFrame或DataSet中获取RDDDataFrame和DateSet的互转spark sql 连接 thriftser原创 2022-02-24 01:42:37 · 1757 阅读 · 0 评论 -
使用maven集成java和scala开发环境
使用maven集成java和scala开发环境创建项目增加scala依赖创建目录安装scala插件scala的hello worldmaven 插件配置仓库maven-compile-pluginmaven-scala-pluginmaven-jar-pluginmaven-dependency-pluginmaven-assembly-pluginspark 开发环境git地址:https://gitee.com/jyq_18792721831/sparkmaven.git创建项目我们首先创建一个普原创 2022-02-18 01:16:10 · 3230 阅读 · 1 评论 -
spark源码编译和集群部署以及idea中sbt开发环境集成
spark源码编译和集群部署以及idea中sbt开发环境集成源码下载源码编译maven 下载scala 下载编译参数编译编译分发的二进制包单机启动集群部署开发环境集成源码编译的3.2.0版本无法在window上直接用spark-shell启动总结项目地址:https://gitee.com/jyq_18792721831/studyspark.git源码下载打开Apache Spark™ - Unified Engine for large-scale data analytics,下载源码在下载原创 2022-02-13 21:25:24 · 1635 阅读 · 2 评论 -
sbt使用教程
sbt使用教程sbt 配置sbt 单项目构建sbt 多项目构建sbt 配置定义sbt 任务定义sbt 作用域sbt 插件总结sbt 配置sbt 使用ivy作为自己的依赖库,类似maven的.m2文件夹,里面存储了sbt的缓存等信息。sbt本身有一些配置,但是这些配置在官网文档中没有说明,不过我们可以在sbtopts文件中查看相关的配置信息sbtopts文件在/sbt/conf文件夹下首先是仓库信息,配置的仓库决定了我们下载依赖的包的速度,我们可以选择国内的镜像,这样下载速度会比较快。首先在/s原创 2022-02-13 00:29:12 · 5174 阅读 · 2 评论 -
sbt入门
sbt入门sbt 介绍sbt 下载sbt 安装sbt 入门 -- helloworldsbt 目录结构sbt 命令总结sbt 介绍sbt是什么?sbt到底是什么,在网上找找,似乎找不到一个非常准确,而且大家都认可的定义。我自己对sbt的理解没有那么复杂,主要是以下这些。sbt翻译为simple build tool,这是一种较为直观的,而且比较符合sbt官网的一些信息:在官网的首页上第一条就说明sbt是一个简单的构建工具,所以翻译为simple build tool似乎也没有什么不妥。不过就原创 2022-02-10 22:59:09 · 2809 阅读 · 0 评论 -
spark--键值对操作
spark--键值对操作1. pair RDD2. pair RDD 创建3. pair RDD 转化操作3.1 reduceByKey 根据键聚合3.2 groupByKey 根据键分组3.3 keys 获取键3.4 values 获取值3.5 sortByKey 根据键排序3.6 mapValues 值操作3.7 flatMapValues 合并值流操作3.8 combineByKey 根据键自定义聚合3.9 subtractByKey 差集3.10 join 内连接3.11 rightOuterJoi原创 2020-06-01 20:09:10 · 970 阅读 · 0 评论 -
spark--RDD
spark--RDD1. RDD2. RDD操作2.1 转化操作2.1.1 filter2.1.2 union2.1.3 map2.1.4 flatMap2.2 行动操作2.2.1 count2.2.23. 惰性求值4. 函数传递1. RDDspark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。存在两种方式创建RDD:读取程序外部数据集程序内构建RDD举例:RDD支持两种操作:转化操作和行动操作。转化操作和行动操作最大的区别原创 2020-05-29 11:45:35 · 687 阅读 · 0 评论 -
scala模式匹配
scala模式匹配1.匹配值2.守卫匹配3.类型匹配+变量4.类成员匹配5.匹配数组6.匹配列表7.匹配元组8.多选分支9.提取器dit地址https://github.com/a18792721831/studyScala.git1.匹配值模式匹配。匹配值创建函数使用结果2.守卫匹配模式匹配中的守卫模式3.类型匹配+变量4.类成员匹配5.匹配数组...原创 2020-02-11 18:45:54 · 368 阅读 · 0 评论 -
scala中的for
scala中的for1.for循环怎么写2.for守卫3.嵌套for4.for返回值5.for循环条件太多6.switch与matchgit地址https://github.com/a18792721831/studyScala.git1.for循环怎么写在scala中for循环是如何写的?执行结果如下第二种写法依然有其他的方式实现在for循环中,to包含截至范围,untail...原创 2020-02-09 15:50:26 · 631 阅读 · 0 评论 -
scala中缀与后缀
scala中缀与后缀1. 中缀2. 后缀git地址https://github.com/a18792721831/studyScala.git1. 中缀什么是中缀?中缀就是形如 a + b的表达式就是中缀表达式中缀表达式两边是参数,中间是操作。在编程语言中,基本类型支持所有的中缀表达式。比如在Java中,可以写 1+2就是中缀表达。当然,在Java中,除了基本类型,还有包装类型...原创 2020-02-08 22:29:35 · 1454 阅读 · 0 评论 -
scala类-单例对象-特质
scala类1.scala类2.scala方法3.单例对象1.scala类scala类和java类定义类似,格式、组成相同。不同点是scala默认是public,而java默认是package(包内)2.scala方法scala的方法定义的格式与java方法的定义的格式相同。不同点是scala方法默认是public,而且scala的方法的的定义需要在方法名之前加 defscala方法...原创 2020-02-07 19:07:53 · 658 阅读 · 0 评论 -
Scala学习笔记--基础知识-变量、函数、柯里化、可变长度参数
Scala学习笔记1.变量1.1.scala编译的内部类是单例模式,采用饿汉式的创建方式1.2.scala编译后,内部类中所有的变量都是final修饰的。1.3.scala元组最多放22个值1.4.元组存储都是以Object存储1.5.scala中声明的同时进行初始化最优1.6.scala for(a <- 0 to n) <- 语法糖2.函数1.变量变量分为可变变量和不可变变...原创 2020-02-04 16:32:08 · 415 阅读 · 0 评论 -
scala数据类型
scala数据类型1.数据类型2.scala转义1.数据类型scala没有基本类型,在scala中,所有类型都是对象。以java为类比对象。scala有java所有的包装类。同时还有一些scala特有的类:Unit:等同java中的void,Unit有且只有一个实例(),用作方法的返回类型,等同java的voidNull:空引用Nothing:是scala的类层级的最低端;它是任...原创 2019-11-23 18:13:52 · 569 阅读 · 0 评论 -
【转载】理解scala中的Symbol
【转载】理解scala中的Symbol 相信很多人和我一样,在刚接触Scala时,会觉得Symbol类型很奇怪,既然Scala中字符串都是不可变的,那么Symbol类型到底有什么作用呢?简单来说,相比较于String类型,Symbol类型有两个比较明显的特点:节省内存和快速比较。在进入正题之前,让我们先来了解一下Java中String的intern()方法。一、String的inte...转载 2019-11-19 20:00:26 · 242 阅读 · 0 评论