自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (2)
  • 收藏
  • 关注

原创 大数据学习之 Flink

目录一:简介二:为什么选择Flink三:哪些行业需要四:Flink的特点五:与sparkStreaming的区别六:初步开发七:Flink配置说明八:环境九:运行组件一:简介Flink 是一个框架和分布式得计算引擎,对于无界和有界数据流进行状态计算二:为什么选择Flink流数据更真实地反应了我们得生活方式传统得数据架构是基于有限数...

2020-01-17 16:20:17 652

原创 大数据学习之 Flume + kafka + SparkStreaming

1.搭建Kafka 环境:可参考https://blog.csdn.net/weixin_37835915/article/details/103786157(1)启动zookeeper(2)启动kafka(3)创建topic(4)启动Consumer2. 搭建Flume 环境:http://www.apache.org/dyn/closer.lua/flum...

2020-01-14 16:03:09 253

原创 大数据学习之 spark写入数据到kafka中

目录1. kafka 环境的搭建请参考:2. 准备KafkaSink3.实现代码:4 总结:1. kafka 环境的搭建请参考:https://blog.csdn.net/weixin_37835915/article/details/103786157 2. 准备KafkaSinkpackage com.spark.selfimport java.ut...

2020-01-02 15:58:11 1318

原创 大数据学习之 使用SparkStreaming实时消费kafka数据

目录第一步:准备zookeeper环境第二步:准备kafka环境第三步:开发代码第四步:启动SparkStreaming 程序第五步:生产数据,如下所示:总结:第一步:准备zookeeper环境(1)下载 zookeeper-3.4.14.tar.gz ,解压,把conf 文件夹下面的 zoo.templet.cfg 改成zoo.cfg(2)启动zooke...

2019-12-31 17:25:09 960

原创 大数据学习之 Hive Sql篇

1. 准备数据:score.csv数据如下:01,01,8001,02,9001,03,9902,01,7002,02,6002,03,8003,01,8003,02,8003,03,8004,01,5004,02,3004,03,2005,01,7605,02,8706,01,3106,03,3407,02,8907,03,98student.cs...

2019-12-24 17:48:16 371

原创 大数据学习之 SparkSql + Hive 篇

1. 关于SparkSql的相关用法请参考https://blog.csdn.net/weixin_37835915/article/details/103531043 https://blog.csdn.net/weixin_37835915/article/details/1035995212. 关于hive的相关知识和用法请参考https://blog.csdn.net/we...

2019-12-19 16:50:34 688

原创 大数据学习之 sparkSql UDF(自定义函数)

注意:需要引入spark-hive的依赖目录第一部分:自定义函数(常用的一些窗体函数)第二部分:自定义聚合函数(弱类型)第三部分:自定义聚合函数(强类型)package com.spark.selfimport org.apache.spark.sql.SparkSessionobject UdfDemo { def main(args: Array[...

2019-12-18 16:03:39 397

原创 解决pom文件无法下载jar的方法

如果发现添加的依赖无法下载jar可以从以下几个方面进行检查第一:reimport project第二:pom.xml 添加以下配置<profiles> <profile> <id>aliyun</id> <repositories> <reposito...

2019-12-17 16:29:36 2510

原创 大数据学习之Spark-SQL

第一步:准备json文件,和txt文件内容如下json 文件:{"name":"Michael"},{"name":"Andy", "age":30},{"name":"Justin", "age":19}txt文件:Michael, 29Andy, 30Justin, 19第二步:引入spark-sql 依赖 <dependency> ...

2019-12-13 17:32:23 247

原创 大数据学习之 Hive篇

一 :Hive是什么?1. hive 是一个sql解析引擎,将sql语句转移成Mapreduce 然后在hadoop平台上运行,达到快速开发的目的2.hive中的表是纯逻辑表,就只是表的定义等,即表的元数据,本质就是hadoop的目录、文件达到元数据与数据存储分离的目的3.hive本身不存储数据,完全依赖HDFS和MapReduce4.hive的内容是读多写少,不支持对数...

2019-11-29 15:16:58 630

原创 大数据学习之 Kafka 篇

一:简介一种分布式的基于发布/订阅的消息系统二:场景常用组合:常用 flume (收集数据) --> kafka(把收集来的数据存储到kafka) --> spark Streaming(使用spark Streaming 从kafka中取数据)运用场景:1.系统之间的解耦合 2.峰值压力缓冲 3.异步通信三:特点1.消息持久化 2.高吞吐量 ...

2019-11-26 11:16:31 188

原创 大数据学习之 Flume篇

一. 简介 Flume 是一个分布式,可弹性的弹性系统,用于高效收集、汇聚和移动大规模日志信息从不同的数据源到一个集中的数据存储中心(HDFS,Hbase)注意:数据由agent收集,二.Flume eventFlume使用Event 对象来作为传递数据的格式,是内部数据传输的最基本单位组成:转载数据的字节数组 + 可选头部 Headers :Key/Value + b...

2019-11-21 16:10:45 296

原创 spark jieba 分词 用cluster模式,提交到yarn上

需要在pom 文件中引入 jieba的依赖<dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>1.0.2</version></dependency>ya...

2019-11-20 16:10:02 562

原创 大数据学习之 Spark篇

1.spark 是什么?基于内存的分布式并行的计算框架(还有 mapReduce, storm(目前用的少))spark 的吞吐量更大,但是有秒级别的延迟(storm 是毫秒级的延迟,Flink 也是毫秒级的延迟)executor : 是一个进程,装载在container里运行 ,executor 分配的内存是一个G---------------------------------...

2019-11-20 14:31:10 642

阿里开发手册

阿里开发手册

2017-08-31

ssm框架整合

自己整理的spring+springmvc+mybatis的整合,还有自己的注释

2017-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除