机器学习过程可通俗表达为:假定我们收集了一批关于西瓜的数据,(色泽=青绿;根蒂=蜷缩;敲声=清脆)(色泽=乌黑;根蒂=微蜷;敲声=沉闷)......每条描述对应的是一个好瓜或是坏瓜,我们通过这批数据学习经验,学到什么样表现的是好瓜,然后去判断一个新出现的瓜是好是坏。
(色泽=青绿;根蒂=蜷缩;敲声=清脆)(色泽=乌黑;根蒂=微蜷;敲声=沉闷)......这一批记录的集合称为一个数据集,每条记录是关于一个西瓜(事件/对象)的描述,称为示例/样本。从数据中学得模型的过程即称为学习/训练。我们希望通过数据集收获经验,学到什么样表现的是好瓜,然后去判断一个新出现的瓜是好是坏,获得一种泛化能力(学得模型适用于新样本的能力)。
机器学习按照学习方式的不同可分为:监督学习、无监督学习、半监督学习与强化学习。
监督学习:亦称“有导师学习”,简单来说就是存在一组输入输出数据集,可以通过这组数据集训练出模型,再通过训练得到的模型将输入数据映射为相应的输出达到对未知数据进行分类的能力。使用的训练样本有标签。就是有老师教,有例子可以学,有迹可循。回归是其代表。就是我们有了一批西瓜数据,可以学习通过这批数据学习到判断瓜好坏的能力。
无监督学习:简单来说就是一切靠自己,事先没有任何训练样本,需要直接对数据进行建模。使用的训练样本无标签。听起来没有道理,但是现实世界中有时就是事先没有数据,需要这样去学习,比如我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。