大数据阶段项目之项目实现
目录
2.利用flume收集数据,将收集的数据落地到HDFS系统中。
2.建立外部表,指向要处理的数据(外部表+分区表,用时间作为分区)
一.启动Hadoop分布式集群(伪分布式)
二.创建一个文件夹存储数据
三.将文件收集到HDFS
HIVE是在HDFS上操作的,需要把文件存储到HDFS中,进行操作
1.在Flume的data下创建zebra.conf
2.利用flume收集数据,将收集的数据落地到HDFS系统中。
flume在收集日志的时候,按天为单位进行收集
a1.sources=r1
a1.channels=c1
a1.sinks=s1
a1.sources.r1.type=spooldir
a1.sources.r1.spoolDir=/home/zebra
a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=timestamp
a1.sinks.s1.type=hdfs
a1.sinks.s1.hdfs.path=hdfs://192.168.150.137:9000/zebra/reportTime=%Y-%m-%d
a1.sinks.s1.hdfs.fileType=DataStream
a1.sinks.s1.hdfs.rollInterval=30
a1.sinks.s1.hdfs.rollSize=0
a1.sinks.s1.hdfs.rollCount=0
a1.channels.c1.type=memory
a1.sources.r1.channels=c1
a1.sinks.s1.channel=c1
3.执行命令,存储HDFS
4.查看eclipse中是否存在
四.启动HIVE
五.使用hive操作
1.创建zebra数据库
- 执行:create database zebra;
- 执行:use zebra;
2.建立外部表,指向要处理的数据(外部表+分区表,用时间作为分区)
建表语句:create EXTERNAL table zebra (a1 string,a2 string,a3 string,a4 string,a5 string,a6 string,a7 string,a8 string,a9 string,a10