
scala
黑尾土拨鼠
远处的是风景,近处的才是人生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark实战(二)Spark常用算子
一、算子分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算...原创 2018-12-13 17:57:25 · 1627 阅读 · 0 评论 -
Spark实战(四)spark+python快速入门实战小例子(PySpark)
一、flume安装(一)概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现, Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的...原创 2019-01-10 10:55:53 · 17027 阅读 · 1 评论 -
Spark实战(十)sparkSQL保存至数据库三种方式
一、当需保存各字段确定时 在spark官方文档上给出了几种保存数据至数据库的方式,在字段确定时使用非常方便,代码如下:## 读取数据val jdbcDF = spark.read .format("jdbc") .option("url", "jdbc:postgresql:dbserver") .option("dbtable", "schema.tablename")...原创 2019-04-02 09:49:04 · 3143 阅读 · 0 评论 -
Spark实战(九)sparkRDD转为DataFrame的两种方式
一、使用反射的方式 这种方式是使用反射的方式,用反射去推倒出来RDD里面的schema,也就是根据包括case class数据的RDD转换成DataFrame,这个方式简单,在已知schema的时候非常方便def main(args: Array[String]): Unit = {val spark = SparkSession.builder().appName("TopNStat...原创 2019-03-28 20:46:38 · 1401 阅读 · 0 评论 -
HBase配置及操作示例
原创 2019-04-21 20:45:32 · 397 阅读 · 0 评论