
Spark与Hadoop大数据分析实战

"《大数据分析与Spark和Hadoop》是一本深入探讨Apache Spark 2.0版本和Hadoop 2.7版本集成的常用工具的书籍。本书详细介绍了Spark堆栈的所有组件,包括DataFrame、DataSet、GraphFrames、结构化流处理、基于DataFrame的ML流水线以及SparkR等最新话题。同时,书中还涵盖了与HDFS、YARN、Jupyter、Zeppelin、NiFi、Mahout、HBase Spark连接器、GraphFrames、H2O和Hivemall等框架和工具的集成。本书旨在为读者提供Apache Spark和Hadoop的基础知识,通过实例在Spark+Hadoop集群上探索所有Spark和Hadoop核心组件。"
在这本书中,作者 Venkat Ankam 深入解析了Spark相对于MapReduce的优势,详细介绍了DataFrame API、数据源API和新的DataSet API,用于构建大数据分析应用。书中涵盖了使用Spark Streaming与Apache Kafka和HBase进行实时数据分析的内容,以及利用新概念“结构化流处理”解决物联网(IoT)案例。此外,书中还讲解了使用MLLib、ML流水线、SparkR以及GraphX和GraphFrames进行机器学习和图分析的方法。
读者将有机会学习使用Jupyter、Apache Zeppelin等Web笔记本以及数据流工具Apache NiFi来分析和可视化数据。书中的章节涵盖了大数据分析的概览、开始使用Hadoop和Spark、深入Spark、使用Spark SQL、DataFrame和DataSet进行大数据分析、实时分析、使用Spark和Hadoop的笔记本和数据流、机器学习、使用Spark和Mahout构建推荐系统以及使用GraphX进行图分析等内容。
通过阅读本书,读者将能够了解和实施各种大数据分析工具和技术,掌握Hadoop和Spark生态系统组件,熟悉Spark的各个组件,包括Spark Core、Spark SQL、DataFrame、DataSet、常规流处理和结构化流处理,以及使用MLLib、ML流水线、H2O、Hivemall、GraphX、SparkR和Hivemall进行数据科学和机器学习。作者Venkat Ankam拥有丰富的IT经验,特别是在大数据技术领域,他还是Cloudera认证的Hadoop开发人员和管理员,以及Databricks认证的Spark开发人员。
相关推荐










ramissue
- 粉丝: 354
最新资源
- 2009年学校网页模板设计大赛冠军作品解析
- Excel使用培训教程:Office 2003深入解析
- VC++ MFC编程:展示进度条与持续时间
- ExtJS资源包与分页功能实现指南
- C++数据结构详解与应用
- IBM电子商务资料精华整理
- 74HC595控制16*16点阵显示的电路与程序
- S3C2440与SM501平台下的UBoot程序开发指南
- 探索TableTree4J: 强大的动态表格及其实用示例
- CTreeCtrl扩展等待进度条功能实现示例
- 深入学习MFC编程技巧与Windows程序开发
- 事件驱动的NIO多线程服务器封装与打包指南
- 高效智能下载MSDN-web cast视频与PPT的软件
- GANYMED SSH2 构建版本210的技术解析
- Ubuntu Linux 安装配置详细步骤解析
- Delphi小区物业管理系统代码优化与课程设计
- 掌握SQLHelper:结合Microsoft与个人实践的数据库类使用指南
- PowerDesigner V12.5汉化版发布与介绍
- SQL Server 2000初级教程:安装与基础操作指南
- 使用C#实现的断点续传HTTP下载器
- ASP+SQL打造校园网信息管理平台修正版
- C#课程设计案例:俄罗斯方块源代码解析
- Excel控件上传至QC的操作指南与Add-in工具下载
- SqlDbx: 多数据库查询与编辑的智能辅助工具