零、本讲学习目标
- 掌握Spark Streaming基本数据源
- 掌握Spark Streaming高级数据源
一、基本数据源
- StreamingContext API中直接提供了对一些数据源的支持,例如文件系统、Socket连接、RDD队列流等,此类数据源称为基本数据源。
(一)文件流
1、读取文件流概述
- 对于从任何与HDFS API(HDFS、S3、NFS等)兼容的文件系统上的文件中读取数据,创建DStream的方式:
streamingContext.fileStream[KeyClass, ValueClass, InputFormatClass](dataDirectory)
,Spark Streaming将监视目录dataDirectory并处理在该目录中的所有文件。 - 对于简单的文本文件,创建DStream的方式:
streamingContext.textFileStream(dataDirec