统计学习: scikit-learn中的设置和估计器对象

数据集

Scikit-learn可以从一个或者多个数据集中学习信息,这些数据集合可表示为2维阵列。它们可被理解成多维观测值的一个列表。这些数组的第一个维度代表 样本 ,第二个维度代表 特征 (每一行代表一个样本,每一列代表一种特征)。

样例: iris 数据集(鸢尾花卉数据集)

>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> data = iris.data
>>> data.shape
(150, 4)

这个数据集包含150个样本,每个样本包含4个特征:花萼长度,花萼宽度,花瓣长度,花瓣宽度,详细数据可以通过iris.DESCR查看。

如果原始数据不是(n_samples, n_features)的形状时,使用之前需要进行预处理以供scikit-learn使用。

数据预处理样例:digits数据集(手写数字数据集)

http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_digits_last_image_001.png

digits数据集包含1797个手写数字图像, 每个图像有8*8个像素。

>>> digits = datasets.load_digits()
>>> digits.images.shape
(1797, 8, 8)
>>> import matplotlib.pyplot as plt 
>>> plt.imshow(digits.images[-1], cmap=plt.cm.gray_r) 
<matplotlib.image.AxesImage object at ...>

为了在scikit中使用这一数据集,需要将每一张8×8的图像转换成长度为64的特征向量。

>>> data = digits.images.reshape((digits.images.shape[0], -1))

估计器对象

拟合数据: scikit-learn实现最重要的一个API是estimator。estimators是基于数据进行学习的任何对象,它可以是一个分类器,回归或者是一个聚类算法,或者是从原始数据中提取/过滤有用特征的变换器。

所有的拟合模型对象拥有一个名为fit的方法,参数是一个数据集(通常是一个2维列表):

>>> estimator.fit(data)

估计器参数: 在创建一个估计器时,可以设置相关参数,在创建之后也可以修改对应的参数:

>>> estimator = Estimator(param1=1, param2=2)
>>> estimator.param1
1

拟合参数: 当估计器完成对数据的拟合之后,可以从估计器中获取拟合的参数。所有拟合的参数均是估计器对象中以下划线(_)结尾的属性值:

>>> estimator.estimated_param_ 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值