
Flume
不清不慎
热爱编程,热爱生活。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据日志文件实时收集框架Flume介绍及其使用
大数据中,我们经常会将一些日志文件收集分析,比如网站的日志文件等等,我们需要一个工具收集数据并且上传到HDFS,HIVE,HBASE等大数据仓库中,Apache为我们提供了一个很好的文件实时收集框架供我们使用。一、Flume的介绍官网的介绍如下:Apache Flume is a distributed, reliable, and available system for e...原创 2018-04-15 11:13:54 · 4665 阅读 · 0 评论 -
大数据实时日志收集框架Flume案例之抽取日志文件到HDFS
上节介绍了Flume的作用以及如何使用,本文主要通过一个简单的案例来更好地运用Flume框架。在实际开发中,我们有时需要实时抽取一些文件夹下的文件来分析,比如今天的日志文件需要抽取出来做分析。这时,如何自动实时的抽取每天的日志文件呢?我们可以使用Flume来完成这一项工作。案例需求:假设需要分析一些日志文件,在一个目录下每天会生成一个日志文件,以.log后缀结尾的文件表示正在写,没有更新完成,...原创 2018-04-19 00:24:13 · 4925 阅读 · 0 评论 -
Flume跨服务器采集数据
在大数据的采集中,我们常用Flume来进行数据的采集,一般的我们会从Web Server服务器中收集数据,将数据存储在另一台服务器的hdfs文件系统做离线分析或者sink到另一台服务器的kafka消息队列中做实时流式计算。对于实时流处理流程如下:无论是离线数据分析还是实时流数据分析在生产环境中都不可能在同一台机器中完成,因此我们常常会跨服务器进行数据的采集,下面我们使用两台不同服务器的...原创 2018-07-20 10:58:06 · 6984 阅读 · 1 评论 -
Flume+Kafka+Spark Streaming实现大数据实时流式数据采集
大数据实时流式数据处理是大数据应用中最为常见的场景,与我们的生活也息息相关,以手机流量实时统计来说,它总是能够实时的统计出用户的使用的流量,在第一时间通知用户流量的使用情况,并且最为人性化的为用户提供各种优惠的方案,如果采用离线处理,那么等到用户流量超标了才通知用户,这样会使得用户体验满意度降低,这也是这几年大数据实时流处理的进步,淡然还有很多应用场景。因此Spark Streaming应用而生,...原创 2018-07-21 01:41:31 · 22555 阅读 · 3 评论