Spark MLlib简介

最新推荐文章于 2024-02-08 16:20:45 发布

原创

最新推荐文章于 2024-02-08 16:20:45 发布 · 7.3k 阅读

80 ·

CC 4.0 BY-SA版权

文章标签：

#spark #mllib #scala

1. Spark MLlib简介

1.1 传统ML

ML利用数据或以往经验，以此优化计算机程序的性能标准。

ML强调的3个关键词： 算法、经验、性能。

基于大数据的ML

1. 传统的ML算法，由于技术和单机存储的限制，只能在少量数据上使用，依赖于数据抽样。而大数据技术的出现，可以支持在全量数据上进行ML。

2. ML算法涉及大量迭代计算，基于磁盘的MR不适合进行大量迭代计算，而基于内存的Spark比较适合。

1.2 Spark 机器学习库MLlib

旨在简化ML的工程实践工作。

1. Spark的机器学习库是基于海量数据的，提供了常用ML算法的分布式实现。

2. 可以轻松的通过调用相应API来实现基于海量数据的ML过程。

3. spark-shell 可以满足交互式运行，方便结果查阅。

MLlib由一些通用的学习算法和工具组成，同时还包括底层的优化原语和高层的流水线API。

1. 算法工具：常用的学习算法，如分类、回归、聚类、协同过滤等。

2. 特征化工具：特征提取、转化、降维和选择工具。

3. 流水线Pipeline：用于构建、评估和调整ML工作流的工具。

4. 持久化：保存和加载算法、模型和管道。

5. 实用工具：线性代数、统计、数据处理等工具。

从1.2 版本后被分为两个包

1. spark.mllib

历史较长，包含了基于RDD的原始算法API。3.0版本后已废弃。

2. spark.ml

提供了基于DataFrames高层次的API，可以用来构建ML Pipeline，弥补了MLlib库的不足，向用户提供了一个基于DF的ML 工作流式API。

2. 机器学习工作流

2.1 ML Pipeline 概念

2.1.1 DataFrame

使用Spark SQL中的DataFrame作为数据集，相比RDD，可以容纳各种数据类型，还包含了schema信息。被ML Pipeline 用来存储源数据，DF的列可以是存储的文本、特征向量、真实标签和预测的标签等。

2.1.2 Transformer

转换器是一种进行DF转换的算法。一个模型就是一个Transformer，它可以把一个不包含预测标签的测试集DF打上标签，转化成另一个包含预测标签的DF。技术上，Transformer实现了一个transform()，通过附加一个或多个列将一个DF转换为另一个DF。

2.1.3 Estimator

评估器是学习算法或在训练数据上的训练方法的概念抽象，在Pipeline里通常是被用来操作DF数据并生成一个Transformer。从技术上讲，Estimator实现了一个fit()，接受一个DF并产生一个Transfomer。比如一个RF算法就是一个Estimator，它可以调用fit()，通过训练特征数据而得到一个RF模型。