获取公开数据集
UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类 和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。
Amazon AWS公开数据集:包含的通常是大型数据集,可通过Amazon S3访问。这些数据 集包括人类 基因组项目 、 Common Crawl 网页语料 库、维基百 科数据和 Google Books Ngrams。相关信息可参见:http://aws.amazon.com/publicdatasets/。
Kaggle:这里集合了Kaggle举行的各种机器学习竞赛所用的数据集。它们覆盖分类、回 归、排名、推荐系统以及图像分析领域,可从Competitions区域下载:http://www.kaggle.com/ competitions。
KDnuggets:这里包含一个详细的公开数据集列表,其中一些上面提到过的。该列表位 于:http://www.kdnuggets.com/datasets/index.html。
注意:
Spark 1.2.0引入了一个实验性质的新MLli