系列文章目录
文章目录
前言
【 第8章 Spark MLlib 】
8.1 Spark MLlib简介
8.1.1 什么是机器学习
- 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。
- 机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。
- 机器学习强调三个关键词:算法、经验、性能
8.1.2 基于大数据的机器学习
- 机器学习算法涉及大量迭代计算
- 基于磁盘的MapReduce不适合进行大量迭代计算
- 基于内存的Spark比较适合进行大量迭代计算
8.1.3 Spark 机器学习库MLLib
- Spark提供了一个基于海量数据的机器学习库,它提供了常用机器学习算法的分布式实现
- 开发者只需要有 Spark 基础并且了解机器学习算法的原理,以及方法相关参数的含义,就可以轻松的通过调用相应的 API 来实现基于海量数据的机器学习过程
- pyspark的即席查询也是一个关键。算法工程师可以边写代码边运行,边看结果
- 需要注意的是,MLlib中只包含能够在集群上运行良好的并行算法,这一点很重要
- 有些经典的机器学习算法没有包含在其中,就是因为它们