忙了许久,总算是又想起这边还没写完呢。
那今天就写写sklearn库的一部分简单内容吧,包括数据集调用,聚类,轮廓系数等等。
自带数据集API
数据集函数 | 中文翻译 | 任务类型 | 数据规模 |
---|---|---|---|
load_boston | Boston房屋价格 | 回归 | 506*13 |
fetch_california_housing | 加州住房 | 回归 | 20640*9 |
load_diabetes | 糖尿病 | 回归 | 442*10 |
load_digits | 手写字 | 分类 | 1797*64 |
load_breast_cancer | 乳腺癌 | 分类、聚类 | (357+212)*30 |
load_iris | 鸢尾花 | 分类、聚类 | (50*3)*4 |
load_wine | 葡萄酒 | 分类 | (59+71+48)*13 |
load_linnerud | 体能训练 | 多分类 | 20 |
提取信息关键字:
- DESCR:数据集的描述信息
- data:内部数据
- feature_names:数据字段名
- target:数据标签
- target_names:标签字段名(回归数据集无此项)
开始提取
以load_iris为例。
# 导入是必须的
from sklearn.datasets import load_iris
iris = load_iris()
iris # iris的所有信息,包括数据集、标签集、各字段名等
这个输出太长太乱,而且后边也有,我就不复制过来了
iris.keys() # 数据集关键字
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])
descr = iris['DESCR']
data = iris['data']
feature_names = iris['feature_names']
target = iris['target']
target_names = iris['target_names']
descr
'Iris Plants Database\n====================\n\nNotes\n-----\nData Set Characteristics:\n :Number of Instances: 150 (50 in each of three classes)\n :Number of Attributes: 4 numeric, predictive attributes and the class\n :Attribute Information:\n - sepal length in cm\n - sepal width in cm\n - petal length in cm\n - petal width in cm\n - class:\n - Iris-Setosa\n