
Spark
会编程的海贼王
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据学习之 spark写入数据到kafka中
目录1. kafka 环境的搭建请参考:2. 准备KafkaSink3.实现代码:4 总结:1. kafka 环境的搭建请参考:https://blog.csdn.net/weixin_37835915/article/details/103786157 2. 准备KafkaSinkpackage com.spark.selfimport java.ut...原创 2020-01-02 15:58:11 · 1325 阅读 · 0 评论 -
大数据学习之 使用SparkStreaming实时消费kafka数据
目录第一步:准备zookeeper环境第二步:准备kafka环境第三步:开发代码第四步:启动SparkStreaming 程序第五步:生产数据,如下所示:总结:第一步:准备zookeeper环境(1)下载 zookeeper-3.4.14.tar.gz ,解压,把conf 文件夹下面的 zoo.templet.cfg 改成zoo.cfg(2)启动zooke...原创 2019-12-31 17:25:09 · 961 阅读 · 0 评论 -
大数据学习之 Hive Sql篇
1. 准备数据:score.csv数据如下:01,01,8001,02,9001,03,9902,01,7002,02,6002,03,8003,01,8003,02,8003,03,8004,01,5004,02,3004,03,2005,01,7605,02,8706,01,3106,03,3407,02,8907,03,98student.cs...原创 2019-12-24 17:48:16 · 381 阅读 · 0 评论 -
大数据学习之 SparkSql + Hive 篇
1. 关于SparkSql的相关用法请参考https://blog.csdn.net/weixin_37835915/article/details/103531043 https://blog.csdn.net/weixin_37835915/article/details/1035995212. 关于hive的相关知识和用法请参考https://blog.csdn.net/we...原创 2019-12-19 16:50:34 · 690 阅读 · 0 评论 -
大数据学习之 sparkSql UDF(自定义函数)
注意:需要引入spark-hive的依赖目录第一部分:自定义函数(常用的一些窗体函数)第二部分:自定义聚合函数(弱类型)第三部分:自定义聚合函数(强类型)package com.spark.selfimport org.apache.spark.sql.SparkSessionobject UdfDemo { def main(args: Array[...原创 2019-12-18 16:03:39 · 399 阅读 · 0 评论 -
大数据学习之Spark-SQL
第一步:准备json文件,和txt文件内容如下json 文件:{"name":"Michael"},{"name":"Andy", "age":30},{"name":"Justin", "age":19}txt文件:Michael, 29Andy, 30Justin, 19第二步:引入spark-sql 依赖 <dependency> ...原创 2019-12-13 17:32:23 · 256 阅读 · 0 评论 -
spark jieba 分词 用cluster模式,提交到yarn上
需要在pom 文件中引入 jieba的依赖<dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>1.0.2</version></dependency>ya...原创 2019-11-20 16:10:02 · 562 阅读 · 0 评论 -
大数据学习之 Spark篇
1.spark 是什么?基于内存的分布式并行的计算框架(还有 mapReduce, storm(目前用的少))spark 的吞吐量更大,但是有秒级别的延迟(storm 是毫秒级的延迟,Flink 也是毫秒级的延迟)executor : 是一个进程,装载在container里运行 ,executor 分配的内存是一个G---------------------------------...原创 2019-11-20 14:31:10 · 671 阅读 · 0 评论