flume采集方案nginx日志到hdfs上

该博客介绍了如何使用 Flume 监听 Nginx 访问日志,并将新产生的文件实时传输到 HDFS 上。配置中,Flume 源 (source) 使用 exec 类型监听 `/home/centos/logs/nginx/access.log` 文件的变化,而接收器 (sink) 设置为 HDFS,将数据写入到指定的 HDFS 路径,并以特定格式命名文件。此外,博客还提及了一个清洗脚本,用于将清洗后的数据追加到 MySQL 数据库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#########################################################

##主要作用是监听目录中的新增文件,采集到数据之后,输出到hdfs
#########################################################
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#对于source的配置描述 监听目录中的新增文件
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/centos/logs/nginx/access.log
#对于sink的配置描述 使用log日志做数据的消费
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://bdha/input/data-clean/nginx/%Y/%m/%d
a1.sinks.k1.hdfs.filePrefix = nginx
a1.sinks.k1.hdfs.fileSuffix = .log
a1.sinks.k1.hdfs.inUseSuffix = .tmp
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollInterval = 0
a1.sinks.k1.hdfs.rollCount = 100
a1.sinks.k1.hdfs.serializer = TEXT
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.minBlockReplicas = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#对于channel的配置描述 使用内存缓冲区域做数据的临时缓存
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 1000
#通过channel c1将source r1和sink k1关联起来
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

清洗完的脚本定时追加到MySQL
#!/bin/sh
###############
###############
SQOOP_BIN=/home/centos/sqoop/bin/sqoop
START_DATE=date -d "1 day ago" +%Y-%m-%d
echo “START_DATE=” S T A R T D A T E E N D D A T E = ‘ d a t e + e c h o " E N D D A T E = " {START_DATE} END_DATE=`date +%Y-%m-%d` echo "END_DATE=" STARTDATEENDDATE=date+echo"ENDDATE="{END_DATE}
YEAR=date -d "1 day ago" +%Y
echo “YEAR=” Y E A R M O N T H = ‘ d a t e − d " 1 d a y a g o " + e c h o " M O N T H = " {YEAR} MONTH=`date -d "1 day ago" +%m` echo "MONTH=" YEARMONTH=dated"1dayago"+echo"MONTH="{MONTH}
${SQOOP_BIN} import
–connect jdbc:mysql://192.168.2.101:3306/spoop
–username root
–password root
–query “SELECT id, name, date FROM t_user WHERE date >= ${START_DATE} AND date < ${END_DATE} AND $CONDITIONS”
–target-dir hdfs://bdha/input/data-clean/t_user/ Y E A R / {YEAR}/ YEAR/{MONTH}
–append

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值