
spark
文章平均质量分 51
连胜是我偶像
软件工程学生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于命令行方式使用Kafka
1. 创建主题 输入:kafka-topics.sh --create --topic itcasttopic --partitions 3 --replication-factor 1 --zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181 2. 创建生产者生产消息 hadoop01中,输入: kafka-console-producer.sh --broker-list hadoop01:9092,hadoop02:9092,hadoop0原创 2022-04-18 19:46:10 · 462 阅读 · 0 评论 -
Spark——Linux环境下 Kafka集群的安装与配置
1. 下载 解压 安装 Kafka安装包 下载地址: Apache Kafka 在hadoop01中 输入:cd /export/software/ 输入:rz -E 选择Kafka安装包 打开并上传,输入ls查看,第一行第二个是Kafka 解压安装包到 /export/servers 输入:tar -zxvf kafka_2.11-2.0.0.tgz -C /export/servers/ 验证安装 输入:cd /export/servers/ 输入:ls ..原创 2022-04-15 11:16:09 · 2661 阅读 · 0 评论 -
Spark DataFrame的创建
目录 1. 环境准备 2. 从 txt 文件创建 DataFrame 3.从 RDD中创建 DataFrame 4. 一些错误 1. 环境准备 开启虚拟机、开启hadoop集群、开启spark集群、开启spark-shell、在spark-shell中导入隐式转换包 hadoop集群 输入:start-all.sh spark集群 输入:cd /export/servers/spark ................. 输入:sbin/start-all.sh spark-shell.原创 2022-04-01 10:25:05 · 4059 阅读 · 0 评论 -
IDEA setting.xml在哪里?配置阿里云仓库的setting.xml?
右键pom.xml文件原创 2022-03-30 23:46:33 · 670 阅读 · 0 评论 -
IDEA中新建中没有Scala Class文件
问题:如果没有新建中没有出现最右边框框中的选项,就得去添加scala SDK 解决:原创 2022-03-30 22:57:11 · 2222 阅读 · 0 评论 -
IDEA开发WordCount程序(1)———— 本地模式执行 Spark 程序 未写完
1. 创建 Maven 项目 ,新建资源文件夹 1.1创建一个maven工程项目,名为“spark chapter02”。 1.2 在main和test目录下分别创建一个名称为scala的文件夹。 test下同样操作 1.3 把Scala文件夹标记成资源文件夹、测试资源文件夹 右键 src->main->scala,光标移动到 Mark Directory as ,点击Sources Root,标记成资源文件夹 右键 src->test->sc..原创 2022-03-30 21:51:15 · 1198 阅读 · 0 评论 -
Spark RDD弹性分布式数据集(3)——常见行动算子
目录 1.RDD的处理过程 2.行动算子 2.1 count()返回元素个数 2.2 first() 返回第一个元素 2.3 take(n) 返回前n个元素 2.4 reduce(func) 返回所有元素的累加值 2.5 collect() 返回所有元素 2.6 foreach(func) 3. 总览 1.RDD的处理过程 2.行动算子 常见行动算子 2.1 count()...原创 2022-03-30 13:36:25 · 436 阅读 · 0 评论 -
Spark RDD弹性分布式数据集(2)——转换算子
1.RDD的处理过程 2.转换算子 转换:根据已有RDD创建新的RDD,每一次通过转换算子计算后都会返回一个新的RDD,供给下一个转换算子使用 常用转换算子: 2.1 filter(func) 筛选 在上一章RDD的创建中,/data目录下有test.txt文件 加载成RDD 输入:val lines=sc.textFile("file:///export/data/test.txt") 使用filter(func) 筛选 输入:val lineswitSpark = lines.原创 2022-03-30 12:13:45 · 1453 阅读 · 0 评论 -
虚拟机中,怎么进入spark shell?
前提:spark已经安装在虚拟机中 输入:cd /export/servers/spark 输入:bin/spark-shell --master local[2] 出现一个很大的spark即可。原创 2022-03-30 11:24:57 · 3954 阅读 · 0 评论 -
Spark RDD弹性分布式数据集(1)——RDD的创建方式
目录 1.从文件系统加载数据创建RDD 1.1从Linux本地文件系统加载数据创建RDD 1.1.1在hadoop01 /export/data/ 目录创建test.txt文件 1.1.2进入Spark shell交互窗口 1.1.3在Linux本地系统读取test.txt文件数据创建RDD 1.2从HDFS中加载数据创建RDD 1.2.1查看HDFS是否有/data目录 1.2.2将test.txt文件上传到HDFS的data目录下 1.2.3HFDS读取test.txt文件数...原创 2022-03-29 21:44:48 · 1504 阅读 · 0 评论 -
Spark基础(1)——搭建Spark开发环境、UI界面查看spark集群
1.环境前提 1.1已经搭建好hadoop环境 Hadoop环境部署,参考我专栏里Hadoop专栏 1.2我的参考配置环境 Linux系统:CentOS-6.8版本 Hadoop:2.7.4版本 JDK:1.8版本 Spark:2.3.2版本 2.Spark部署 Standalone模式(主从) 2.1下载spark安装包 安装包下载网址: Downloads | Apache Spark 标1:现在比较稳定的版本为3.2.1。和支持的Hadoop版本 标2、标3:.原创 2022-03-24 16:14:44 · 7296 阅读 · 0 评论 -
spark能取代Hadoop吗?
不能。因为spark只能进行运算,运算速度高于Hadoop,但是不能进行存储。原创 2022-03-23 20:06:17 · 1836 阅读 · 0 评论 -
hadoop与spark的简单对比
相同点: Hadoop和spark都是大数据计算框架。 不同点: 1.编程方式 Hadoop:使用MapReduce计算数据时,计算过程必须转化为Map和Reduce两个过程 spark:不止以上两种操作,还提供多种数据集的操作类型 2.数据存储 Hadoop:计算产生的中间结果,存储在本地磁盘中 spark:存储在内存中 3.数据处理 Hadoop:执行数据处理时,都需要从磁盘中加载数据,磁盘IO开销较大 spark:执行数据处理时,将数据加载到内存中,直接在内存中进行计算。 4数原创 2022-03-22 21:49:03 · 806 阅读 · 0 评论 -
‘List.type‘ does not take parameters
目录 报错指示:'List.type' does not take parameters 报错代码: 报错原因: 解决: 延申: 参考文章: 报错指示:'List.type' does not take parameters List类型不接受参数 报错代码: 报错原因: 包里面有之前编写的一个List类,编译时优先调用了包里的List而没有调用java.util里面的List。即:注意看上图代码,左上蓝框,的类名,和,右上蓝框,的名字一样,代码里面调用了自己L.原创 2022-03-09 19:55:04 · 2371 阅读 · 0 评论