大数据小白必知必会之Flume实现过滤器效果

本文介绍了大数据新手如何使用Flume实现过滤器效果,通过案例展示了如何将A、B服务器的日志数据按类型筛选并汇总到C服务器的HDFS特定目录下。详细讲解了配置文件开发、服务端配置、数据流程分析及效果实现,适合初学者理解Flume拦截器的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面: 博主是一名大数据的初学者,昵称来源于《爱丽丝梦游仙境》中的Alice和自己的昵称。作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样处于起步阶段的萌新。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!个人小站:http://alices.ibilibili.xyz/ , 博客主页:https://alice.blog.csdn.net/
尽管当前水平可能不及各位大佬,但我还是希望自己能够做得更好,因为一天的生活就是一生的缩影。我希望在最美的年华,做最好的自己

        在差不多一年前,菌刚接触Flume那会,写了一篇关于Flume的博客。今天无意间翻到,才发现当时介绍的内容是多么的浅显,于是菌打算再为大家介绍如何在Flume中实现过滤器的操作。

        码字不易,先赞后看!

在这里插入图片描述


Flume过滤器

        

1、案例场景

        A、B两台日志服务机器实时生产日志主要类型为 access.lognginx.logweb.log

        现在要求:

        把A、B 机器中的access.lognginx.logweb.log 采集汇总到C机器上然后统一收集到hdfs中。

        但是在hdfs中要求的目录为:

/source/logs/access/20180101/**
/source/logs/nginx/20180101/**
/source/logs/web/20180101/**

2、场景分析

在这里插入图片描述

3、数据流程处理分析

在这里插入图片描述

4、实现

服务器A对应的IP为 192.168.100.100
服务器B对应的IP为 192.168.100.110
服务器C对应的IP为 192.168.100.120

采集端配置文件开发

        node01与node02服务器开发flume的配置文件

[root@node01 ~]# cd /export/servers/apache-flume-1.8.0-bin/conf
[root@node01 conf]# vim exec_source_avro_sink.conf
a1.sources = r1 r2 r3
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /export/taillogs/access.log
a1.sources.r1.interceptors = i1
a1.sources
评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据梦想家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值