6.1 Poll方式
(1)安装flume1.6以上
(2)下载依赖包
spark-streaming-flume-sink_2.11-2.0.2.jar放入到flume的lib目录下
(2)写flume的agent,注意既然是拉取的方式,那么flume向自己所在的机器上产数据就行
(3)修改自己的scala-library版本,pom里面什么版本,找到地址传到flume/lib/
这里我pom是2.11.8,所以传的是该jar包,传完之后把原来的做个备份,mv重命名即可
原来flume的lib下是有一个scala-library-2.10.5的jar包的,因为与maven仓库依赖的flume的版本不兼容所以我换成了scala-library-2.11.8的jar包,原有的scala-library-2.10.5包不要删除,直接mv改名就好如图下所示 以免scala-library-2.10.5与scala-library-2.11.8冲突
在flume的conf目录下编写flume-poll.conf配置文件
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#source
a1.sources.r1.channels = c1
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/data<!-虚拟机文件所在的目录>
a1.sources.r1.fileHeader = true
#channel
a1.channels.c1.type =memory
a1.channels.c1.capacity = 20000
a1.ch