一、概念
1、定义
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。
2、标注数据
标注数据表示输入输出的对应关系
3、预测模型
预测模型对给定的输入产生相应的输出。
4、本质
监督学习的本质是学习输入到输出的映射的统计规律
5、输入与输出空间
在监督学习中, 将输入与输出所有可能取值的集合分别称为输入空间(inputspace)与输出空间(output space)。
输入与输出空间可以是有限元素的集合, 也可以是整个欧氏空间。
输入空间与输出空间可以是同一个空间, 也可以是不同的空间, 但通常输出空间远远小于输入空间。
6、实例
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。
所有特征向量存在的空间称为特征空间(feature space)
7、特征空间与特征
特征空间的每一维对应于一个特征。
有时假设输入空间与特征空间为相同的空间, 对它们不予区分;
有时假设输入空间与特征空间为不同的空间, 将实例从输入空间映射到特征空间。
模型实际上都是定义在特征空间上的。
二、数据
1、输入与输出
在监督学习中, 将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。
输入输出变量用大写字母表示, 习惯上输入变量写作X,输出变量写作Y。
输入输出变量的取值用小写字母表示, 输入变量的取值写作x, 输出变量的取值写作y
变量可以是标量或向量, 都用相同类型字母表示
2、训练数据
监督学习从训练数据(training data)集合中学习模型, 对测试数据(test data)进行预测。 训练数据由输入(或特征向量)与输出对组成
3、测试数据
测试数据也由输入与输出对组成,表示方法与训练数据相同。
输入与输出对又称为样本(sample)或样本点
三、模型
1、联合概率分布
假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)
P(X,Y)为分布函数或分布密度函数
对于学习系统来说,联合概率分布是未知的,
训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
2、假设空间
监督学习目的是学习一个由输入到输出的映射,称为模型
模式的集合就是假设空间(hypothesis space)
概率模型:条件概率分布P(Y|X)
决策函数:Y=f(X)
四、过程
1、流程
监督学习利用训练数据集学习一个模型, 再用模型对测试样本集进行预测。
由于在这个过程中需要标注的训练数据集, 而标注的训练数据集往往是人工给出的, 所以称为监督学习。
监督学习分为学习和预测两个过程, 由学习系统与预测系统完成
2、学习过程
在学习过程中,学习系统利用给定的训练数据集, 通过学习(或训练)得到一个模型, 表示为条件概率分布或决策函数。
3、预测过程
预测系统对于给定的测试样本集中的输入,由模型给出相应的输出。
4、学习系统
学习系统(学习算法)试图通过训练数据集中的样本带来的信息学习模型。
具体地说, 对于输入,一个具体的模型可以产生一个输出,而训练数据集中会有对应的输出。
如果这个模型有很好的预测能力, 训练样本输出和模型输出之间的差就应该足够小。
学习系统通过不断地尝试, 选取最好的模型, 以便对训练数据集有足够好的预测, 同时对未知的测试数据集的预测也有尽可能好的推广。