
大数据课程学习
文章平均质量分 86
冰冷灬泡面
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据课程——Spark SQL
大数据课程——Spark SQL 练习原创 2022-06-14 19:47:21 · 1177 阅读 · 1 评论 -
大数据课程——Spark RDD 编程
大数据课程——Spark RDD编程原创 2022-06-06 16:50:12 · 861 阅读 · 0 评论 -
大数据课程——Storm综合应用
大数据课程——Storm综合应用 实验内容以及要求 假设在某一搜索应用中,需要实时统计搜索次数最多的热门关键词,并按照实时统计搜索次数输出最热门的20大热门关键词及被搜索次数。用户搜索的日志通过Flume采集,并写入Kafka,Storm从Kafka中实时读取数据,并完成实时统计工作,并进行输出。 提示: (1)搜索日志可以采用实验5的数据(搜狗搜索数据),一行代表一次用户搜索; (2)Flume Agent的Source可以配置为syslogudp类型(端口5640),监控搜索日志; (3)输出形式自原创 2022-05-11 21:01:19 · 1301 阅读 · 0 评论 -
大数据课程——Flume综合运用
大数据课程——Flume综合运用原创 2022-05-09 15:43:09 · 890 阅读 · 0 评论 -
大数据课程——Flume日志收集
大数据课程——Flume日志收集 实验内容以及要求 如下图所示,节点1、节点2产生日志,节点1和节点2的日志最终流向节点3,并最终写入HDFS文件。节点1的Agent的Source类型为syslogtcp,采集日志信息通过用户编写的Client程序通过socket(假设端口号5640)发送到flume agent;节点2的日志信息来自于监听特别的日志文件夹(/home/hadoop/log)产生的事件。请部署Flume,并完成相应的配置,实现如下日志收集方案。 在后面的叙述当中,Centos01作为上原创 2022-04-29 11:10:55 · 1403 阅读 · 0 评论 -
大数据课程——Kafka编程应用
大数据课程——Kafka编程应用 实验内容以及要求 如下图所示,在某一应用场景中,有两个生产者生产消息和一个消费者消费消息,他们利用Kafka集群进行消息传输。其中生产者需要记录消息来源(即发送消息的主机名或IP)及消息发送时间(格式为年月日 时分秒),生产者1同步发送消息、生产者2采用异步发送消息,都需要显示消息发送成功还是失败。用户通过输入消息内容通过生产者(生产者1或生产者2)将消息发送到Kafka,消费者根据消息内容能区分消息来源。请分别编程实现相应的生产者和消费者,并完成部署实现上述应用场景的模原创 2021-07-06 16:58:49 · 811 阅读 · 0 评论 -
大数据课程——MapReduce编程综合应用(2)
大数据课程——MapReduce编程综合应用(2) 实验内容以及要求 现有一份汽车销售记录,销售记录包括时间、地点、邮政编码、车辆类型等信息,每条记录信息包含39项数据项。请利用MapReduce框架,编写程序实现如下功能: (1)统计不同车型销售的年龄段分布情况,并分别按照车型和年龄段进行汇总(不考虑排序)。 注意:年龄段每10岁为1个年龄段(010、1120、21~30…) 输出格式参考如下: 车型1,年龄段1,300 车型1,年龄段1,300 … 车型1,年龄段2,300 … 车型2,年龄段1,30原创 2021-06-28 16:08:28 · 1671 阅读 · 2 评论 -
大数据课程——MapReduce编程综合应用(1)
大数据课程——MapReduce编程综合应用(1) 实验内容以及要求 现有大约500万条搜索引擎产生的记录,数据格式如下: 每一行包含6个字段: 字段1代表数据产生的时间; 字段2代表用户,即UID; 字段3代表用户搜索关键词; 字段4代表URL超链接在返回结果中的排名; 字段5代表用户单击超链接的顺序号; 字段6代表用户单击的URL超链接的地址。 请利用MapReduce框架,编写程序实现如下功能: (1)统计用户数量 (2)统计搜索次数在20次及以上的用户UID及搜索次数 (3)你自己想到的其他功能原创 2021-06-28 15:05:59 · 1443 阅读 · 1 评论 -
大数据课程——MapReduce编程基础
大数据课程——MapReduce编程基础 实验内容以及要求 在文档规模较小的时候,使用传统编程方式也能统计出文本中出现的单词数量,但是当文档规模巨大的时候(比如数据大小达到GB、PB级别的时候),就必须使用MapReduce来进行统计了。 请使用MapReduce编程框架, 编写程序WordCount,统计文本中,每个单词出现的次数,并给予详细的步骤以及实验测试结果。 自己说两句 该实验主要是学习MapReduce的相关概念,重点是要理解Map、Reduce这两个阶段做了什么事情,并且在整个MapRed原创 2021-06-28 14:43:46 · 511 阅读 · 0 评论 -
大数据课程——课后练习3
大数据课程——课后练习3 1.请简述Spark的主要组件及其主要功能。 Spark Core:该组件是Spark的核心模块,主要包含两个功能:一是负责任务调度、内存管理、错误恢复与存储系统交互等;二是其包含了对弹性分布式数据集的API定义。它提供了创建和操作这些集合的多个API。 Spark SQL:该组件是一个用于结构化数据处理的Spark工具包,提供了面向结构化数据的SQL查询接口,使用户可以通过编写SQL或基于Apache Hive的HiveQL来方便地处理数据。也可以查询Hive中的数据,相原创 2021-06-23 16:00:09 · 878 阅读 · 0 评论 -
大数据课程——课后练习2
1.简述Kafka集群架构 一个典型的Kafka集群包含若干生产者,若干Broker,若干消费者以及一个Zookeeper集群。 Zookeeper用于管理和协调Broker。若集群中有Broker失效、新增、故障,Zookeeper会通知其他生产者和消费者进行Broker协调工作。 生产者会用Push模式将消息发送到Broker,消费者用Pull模式从Broker中订阅并消费消息。 2.请简述Kafka主题与分区的概念 Kafka通过主题对消息进行分类,一个主题可以分为多个分区,每个分区可以存储于不同的B原创 2021-06-23 15:51:02 · 732 阅读 · 0 评论 -
大数据课程——课后练习1
大数据课程——课后练习1 1.请简述HDFS集群的总体架构以及NameNode、DataNode和SecondaryNameNode的作用。 NameNode是HDFS中的存储元数据的地方,它将所有文件和文件夹的元数据保存在一个文件系统的目录树中,任何元数据信息的改变,NameNode都会记录。NameNode还负责维护HDFS中文件与数据块的对应关系。 NameNode还存储数据块到DataNode的映射信息。 NameNode还会周期性地接收集群中DataNode的“心跳”和“块报告”。通过“心跳”与原创 2021-06-23 15:36:22 · 698 阅读 · 0 评论 -
大数据课程复习资料整理
以下所有内容只是自己课程考试资料的复习整理 所有图片均出自课程PPT和张伟洋所著的《Hadoop大数据技术开发实践》,不是自己画的!!! Hadoop Hadoop整体架构对比 1.x Hadoop以HDFS和MapReduce为核心。1.x的MapReduce除了负责数据的计算以外,还负责集群作业的调度和资源管理,HDFS负责数据存储 2.x Hadoop以HDFS和YARN为核心。HDFS负责数据存储,YARN负责集群资源管理和统一调度。MapReduce只负责进行数据计算。YARN具有通用性,可.原创 2021-06-23 09:53:19 · 821 阅读 · 0 评论 -
Spark Streaming 作业练习
Spark Streaming 作业练习 实验内容及要求 在本地或HDFS新建一个测试目录,编写一个简单程序,每随机间隔若干秒(5s以内)在该目录下新建一个文件,并写入若干行内容(每一行包含若干单词,单词之间以空格分隔)。现利用Spark Streaming分别完成如下单词统计: (1)实时统计每10s新出现的单词数量(每10s统计1次); (2)实时统计最近1分钟内每个单词的出现次数(每10s统计1次); (3)实时统计每个单词的累积出现次数,并将结果保存到本地文件(每10s统计1次) 为了顺利进行实验原创 2021-06-11 20:23:40 · 3050 阅读 · 5 评论