Spark MLib简介
- hadoop实现机器学习:MapReduce也可以编写机器学习,基于磁盘操作,多次迭代计算磁盘IO开销大。
- spark实现机器学习:spark是基于内存,只有shuffle操作需要落磁盘,实现管道化处理,在内存中完成数据交接。大大减少在磁盘的IO开销。基于MLib库。
MLib包含: - 分类、回归、聚类、协同过滤、降维。
- 特征化工具:特征提取、转化、降维、选择工具。
- 流水线,工作流的构建。
- 持久化,存储训练好的模型。
- 统计、线性代数、数据处理工具。
spark.mlib为基于RDD数据抽象,1.0版本以前。
spark.ml为基于DataFrame数据抽象。有效融合spark SQL。2.1以上。