Spark-ML-数据获取/处理/准备

07H_JH

于 2016-05-18 23:04:04 发布

阅读量5.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据框架 spark/hadoop学习文章标签：机器学习

本文链接：https://blog.csdn.net/jianghuxiaojin/article/details/51448557

大数据框架同时被 2 个专栏收录

107 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

spark/hadoop学习

36 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Spark获取公开数据集，包括UCL机器学习库、Amazon AWS、Kaggle和KDnuggets等资源。讨论了数据探索与可视化，处理缺失值和异常值的方法，以及特征提取的分类，如数值、类别和文本特征。还提到了使用软件包如scikit-learn和Breeze进行特征处理。以MovieLens 100k数据集为例，展示了Spark在机器学习数据准备中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

获取公开数据集

UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务。数据集列表位于：http://archive.ics.uci.edu/ml/。
Amazon AWS公开数据集：包含的通常是大型数据集，可通过Amazon S3访问。这些数据集包括人类基因组项目、 Common Crawl 网页语料库、维基百科数据和 Google Books Ngrams。相关信息可参见：http://aws.amazon.com/publicdatasets/。
Kaggle：这里集合了Kaggle举行的各种机器学习竞赛所用的数据集。它们覆盖分类、回归、排名、推荐系统以及图像分析领域，可从Competitions区域下载：http://www.kaggle.com/ competitions。
KDnuggets：这里包含一个详细的公开数据集列表，其中一些上面提到过的。该列表位于：http://www.kdnuggets.com/datasets/index.html。
注意:
Spark 1.2.0引入了一个实验性质的新MLli