spark-streaming整合flume实战poll方式 简单流程详细

本文详细介绍了如何使用Poll方式将Spark-Streaming与Flume进行整合,包括安装Flume 1.6以上版本,添加spark-streaming-flume-sink依赖,修改Scala库版本,编写Flume配置文件,启动命令,准备数据文件,以及Spark-Streaming应用程序的代码实现。在实践中要注意避免不同Scala版本的冲突,并确保数据文件的正确处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6.1 Poll方式
(1)安装flume1.6以上
(2)下载依赖包
spark-streaming-flume-sink_2.11-2.0.2.jar放入到flume的lib目录下
(2)写flume的agent,注意既然是拉取的方式,那么flume向自己所在的机器上产数据就行
(3)修改自己的scala-library版本,pom里面什么版本,找到地址传到flume/lib/
在这里插入图片描述
这里我pom是2.11.8,所以传的是该jar包,传完之后把原来的做个备份,mv重命名即可
原来flume的lib下是有一个scala-library-2.10.5的jar包的,因为与maven仓库依赖的flume的版本不兼容所以我换成了scala-library-2.11.8的jar包,原有的scala-library-2.10.5包不要删除,直接mv改名就好如图下所示 以免scala-library-2.10.5与scala-library-2.11.8冲突
在这里插入图片描述在flume的conf目录下编写flume-poll.conf配置文件

a1.sources = r1
a1.sinks = k1
a1.channels = c1
#source
a1.sources.r1.channels = c1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/data<!-虚拟机文件所在的目录>
a1.sources.r1.fileHeader = true
#channel
a1.channels.c1.type =memory
a1.channels.c1.capacity = 20000
a1.ch
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值