flume读取文件到kafka

这篇博客介绍了如何利用Apache Flume从文件中读取数据,并将其发送到Kafka。首先,启动Zookeeper和Kafka服务,然后编写Flume配置文件,将数据源设置为文件,目标设置为Kafka的主题。接着,通过Kafka命令行工具查看和管理主题,包括删除和查看分区数据。最后,启动Kafka消费者监听数据,并通过命令检查数据一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.进入flume官网  www.org.apache.flume.com

 点击第三个 

2.使用kafka前需要先开启 zookeeper     zkServer.sh start

启动flume flume-ng version  //这个好像不影响 保险起见还是启动了

启动kafka   kafka-server-start.sh /opt/soft/kafka200/config/server.properties

3.编写配置文件

读文件首先最好去头 写好配置文件

#user是agent的名称,user中定义了一个叫r1的source,如果有多个,使用空格间隔
user.sources = r1
user.sinks = k1
user.channels = c1

#组名名.属性名=属性值
#定义source
user.sources.r1.type=spooldir
user.sources.r1.spoolDir=/opt/mydata/users/
user.sources.r1.interceptors=i1
user.sources.r1.interceptors.i1.type = regex_filter
user.sources.r1.interceptors.i1.regex=user.*
user.sources.r1.interceptors.i1.excludeEvents=true
#设置读写行数
user.sources.r1.deserializer.maxLineLength=204800

#定义chanel 
user.channels.c1.type=memory

#定义sink
user.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
user.sinks.k1.kafka.topic=users
user.sinks.k1.kafka.bootstrap.servers=192.168.80.181:9092

#连接组件 同一个source可以对接多个channel,一个sink只能从一个channel拿数据!
user.sources.r1.channels=c1
user.sinks.k1.channel=c1

 文件名称编写为users.conf 放在这个/opt/fconf 目录下

4.查看kafka分区

kafka-topics.sh --zookeeper 192.168.80.181:2181 --list 

 5.删除分区  这里

kafka-topics.sh --zookeeper 192.168.80.181:2181 --delete --topic mydemo03

 6.flume 读取·文件 

flume-ng agent --name user -f /opt/fconf/users.conf

7.开启消费者监听

kafka-console-consumer.sh --bootstrap-server 192.168.80.181:9092 --topic users --from-beginning

8.查看分期区数据

kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.80.181:9092 --topic users --time -1

wc -l 你的文件 可以查看文件有多少行数据 用来对比数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值