- 博客(7)
- 收藏
- 关注

原创 flume 监听linux下的文件夹下所有文件,通过spark批量读取数据
flume 监听linux下的文件夹下所有文件,并将文件内容存入到hdfs,生成多个以时间戳结尾的文件,通过spark批量读取数据。 配置 flume-spooldir.conf ### define agent a3.sources = r3 a3.channels = c3 a3.sinks = k3 ### define sources a3.sources.r3.typ...
2019-03-09 20:12:51
605
原创 spark2.x 读写cassandra
spark2.x 连接 cassandra 示例 import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} def main(args: Array[String]): Unit = { val conf = new SparkConf() .set("spark.cassandra.connection.host", "xxx.xxx.x.xxx,xxx.xxx.x.xxx,xx
2020-06-06 17:52:34
556
原创 spark sql源码浅析
spark 源码简单分析 sparksql 作为新增加的spark1.0所支持的lib库中唯一新增加的lib库,可见其重要地位。 分析内容: spark sql执行流程; hive on spark 和 hive on hadoop 的比较; spark sql执行流程分析 首先我们来分析下sql的通用执行过程: 比如说: select n1,n2,n3 from tableN wher...
2019-02-16 17:12:58
442
原创 RDD基础实例
RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合 什么是弹性: 在任何实收都能进行重新计算,当保存RDD数据的一台机器挂了,spark还可以使用这种特性来重新计算出丢掉的分区,对用户也完全透明。 每个RDD都被分为多个分区,这些分区运行在集群中的不同节点 创建RDD的方式有多种,一是主要读取一个外部的数据集,二是在驱动器程序中的对象集合。 创建出RD...
2019-01-07 23:24:51
362
原创 scala基本操作分解实战
scala基本操作分解 scala> import scala.io.Source import scala.io.Source scala> val lines = Source.fromFile("./TestFile.txt").getLines().toList lines: List[String] = List(Preface, “The Forsyte Saga” was...
2019-01-06 21:27:54
377
转载 大数据分析常见算法
大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。 数据分析18大算法实现 https://github.com/linyiqun...
2019-01-06 20:31:32
13035
原创 RDD简介,spark-shell,spark-submit提交任务简单示例
RDD简介,spark-shell,spark-submit提交任务简单示例 spark RDD简介 弹性分布式数据集RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。 RDD可以帮助重新安排计算并优化数据处理过程。 RDD具有容错性,因为RDD知道如何重新创建和重新计算数据集。 RDD是不可变的。你...
2019-01-06 20:23:15
2229
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人