轻量级的日志采集组件 Filebeat 讲解与实战操作_filebeat 简体中文格式日志如何采集-CSDN博客

本文链接：https://blog.csdn.net/ATYtian/article/details/139114064

本文详细介绍了Filebeat作为轻量级日志数据收集工具的功能和特点，包括其轻量级设计、多源收集能力、模块化结构、自动发现服务和数据处理。文中还阐述了Filebeat的主要工作流程，数据从源到目标的传输过程，并提供了Kafka安装和Filebeat配置的简介，包括filebeat.prospectors、processors和output.kafka的配置参数讲解，以及filebeat.inputs与filebeat.prospectors的区别。最后，指导如何启动Filebeat服务并验证日志是否已成功采集到Kafka。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概述

Filebeat是一个轻量级的日志数据收集工具，属于Elastic公司的Elastic Stack（ELK Stack）生态系统的一部分。它的主要功能是从各种来源收集日志数据，将数据发送到Elasticsearch、Logstash或其他目标，以便进行搜索、分析和可视化。

以下是Filebeat的主要概述和特点：

轻量级：Filebeat是一个轻量级的代理，对系统资源的消耗非常低。它设计用于高性能和低延迟，可以在各种环境中运行，包括服务器、容器和虚拟机。
多源收集：Filebeat支持从各种来源收集数据，包括日志文件、系统日志、Docker容器日志、Windows事件日志等。它具有多个输入模块，可以轻松配置用于不同数据源的数据收集。
模块化：Filebeat采用模块化的方式组织配置，每个输入类型都可以作为一个模块，易于扩展和配置。这使得添加新的数据源和日志格式变得更加简单。
自动发现：Filebeat支持自动发现服务，可以在容器化环境中自动识别新的容器和服务，并开始收集其日志数据。
安全性：Filebeat支持安全传输，可以使用TLS/SSL加密协议将数据安全地传输到目标。它还支持基于令牌的身份验证。
数据处理：Filebeat可以对数据进行简单的处理，如字段分割、字段重命名和数据过滤，以确保数据适合进一步处理和分析。
目标输出：Filebeat可以将数据发送到多个目标，最常见的是将数据发送到Elasticsearch，以便进行全文搜索和分析。此外，还可以将数据发送到Logstash、Kafka等目标。
实时性：Filebeat可以以实时方式收集和传输数据，确保日志数据及时可用于分析和可视化。
监控和管理：Filebeat具有自身的监控功能，可以监视自身的状态和性能，并与Elasticsearch、Kibana等工具集成，用于管理和监控数据收集。

工作的流程图如下：

Filebeat的采集原理的主要步骤

数据源检测：
- Filebeat首先配置要监视的数据源，这可以是日志文件、系统日志、Docker容器日志、Windows事件日志等。Filebeat可以通过输入模块配置来定义数据源。
数据收集：
- 一旦数据源被定义，Filebeat会定期轮询这些数据源，检查是否有新的数据产生。
- 如果有新数据，Filebeat将读取数据并将其发送到后续处理阶段。
数据处理：
- Filebeat可以对采集到的数据进行一些简单的处理，例如字段分割、字段重命名、数据解析等。这有助于确保数据格式适合进一步的处理和分析。
数据传输：
- 采集到的数据将被传输到一个或多个目标位置，通常是Elasticsearch、Logstash或Kafka等。
- Filebeat可以配置多个输出目标，以便将数据复制到多个地方以增加冗余或分发数据。
安全性和可靠性：
- Filebeat支持安全传输，可以使用TLS/SSL协议对数据进行加密。
  它还具有数据重试机制，以确保数据能够成功传输到目标位置。
数据目的地：
- 数据被传输到目标位置后，可以被进一步处理、索引和分析。目标位置通常是Elasticsearch，用于全文搜索和分析，或者是Logstash用于进一步的数据处理和转换，也可以是Kafka等其他消息队列。
实时性和监控：
- Filebeat可以以实时方式监视数据源，确保新数据能够快速传输和处理。
- Filebeat还可以与监控工具集成，以监控其自身的性能和状态，并将这些数据发送到监控系统中。

总的来说，Filebeat采集原理是通过轮询监视数据源，将新数据采集并发送到目标位置，同时确保数据的安全传输和可靠性。它提供了一种高效且灵活的方式来处理各种类型的日志和事件数据，以便进行后续的分析和可视化。

二、Kafka 安装

为了快速部署，这里选择通过docker-compose部署，可以参考我这篇文章：【中间件】通过 docker-compose 快速部署 Kafka 保姆级教程

# 先安装 zookeeper
git clone https://gitee.com/hadoop-bigdata/docker-compose-zookeeper.git
cd docker-compose-zookeeper 
docker-compose -f docker-compose.yaml up -d

# 安装kafka
git clone https://gitee.com/hadoop-bigdata/docker-compose-kafka.git
cd docker-compose-kafka
docker-compose -f docker-compose.yaml up -d

如果仅仅只是为测试也可以部署一个单机kafka
官方下载地址：http://kafka.apache.org/downloads

### 1、下载kafka
wget https://downloads.apache.org/kafka/3.4.1/kafka_2.12-3.4.1.tgz --no-check-certificate
### 2、解压
tar -xf kafka_2.12-3.4.1.tgz

### 3、配置环境变量
# ~/.bashrc添加如下内容：
export PATH=$PATH:/opt/docker-compose-kafka/images/kafka_2.12-3.4.1/bin

### 4、配置zookeeper 新版Kafka已内置了ZooKeeper，如果没有其它大数据组件需要使用ZooKeeper的话，直接用内置的会更方便维护。
# vi kafka_2.12-3.4.1/config/zookeeper.properties
#注释掉
#maxClientCnxns=0

#设置连接参数，添加如下配置
#为zk的基本时间单元，毫秒
tickTime=2000
#Leader-Follower初始通信时限 tickT