大数据日志收集系统详解：Flume、Fluentd、Logstash、Chukwa、Scribe、Splunk与Scrapy-CSDN博客

1- Flume

Flume作为Hadoop的组件，是由Cloudera专门研发的分布式日志收集系统。尤其近几年随着Flume的不断完善，用户在开发过程中使用的便利性得到很大的改善，Flume现已成为Apache Top项目之一。
Flume提供了从Console（控制台）、RPC（Thrift-RPC）、Text（文件）、Tail（UNIX Tail）、Syslog、Exec（命令执行）等数据源上收集数据的能力。
Flume采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据。ZooKeeper本身可保证配置数据的一致性和高可用性。另外，在配置数据发生变化时，ZooKeeper可以通知Flume Master节点。Flume Master节点之间使用Gossip协议同步数据。
Flume针对特殊场景也具备良好的自定义扩展能力，因此Flume适用于大部分的日常数据采集场景。因为Flume使用JRuby来构建，所以依赖Java运行环境。Flume设计成一个分布式的管道架构，可以看成在数据源和目的地之间有一个Agent的网络，支持数据路由。
Flume支持设置Sink的Failover和加载平衡，这样就可以保证在有一个Agent失效的情况下，整个系统仍能正常收集数据。Flume中传输的内容定义为事件（Event），事件由Headers（包含元数据，即Meta Data）和Payload组成。
Flume提供SDK，可以支持用户定制开发。Flume客户端负责在事件产生的源头把事件发送给Flume的Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的Flume 客户端有Avro、Log4J、Syslog和HTTP Post。

2- Fluentd

Fluentd是另一个开源的数据收集架构，如图1所示。Fluentd使用C/Ruby开发，使用JSON文件来统一日志数据。通过丰富的插件，可以收集来自各种系统或应用的日志，然后根据用户定义将日志做分类处理。通过Fluentd，可以非常轻易地实现像追踪日志文件并将其过滤后转存到 MongoDB 这样的操作。Fluentd可以彻底地把人从烦琐的日志处理中解放出来。
图1 Fluentd架构
Fluentd具有多个功能特点：安装方便、占用空间小、半结构化数据日志记录、灵活的插件机制、可靠的缓冲、日志转发。Treasure Data公司对该产品提供支持和维护。另外，采用JSON统一数据/日志格式是它的另一个特点。相对Flume，Fluentd配置也相对简单一些。