1.3.3 直接策略搜索
强化学习的另一类解法建立策略的参数模型,将最优化问题的目标函数变为以参数θ为自变量的复杂函数ρ(θ),然后发展出各种方法估算这些函数。例如,DeepMind公司开发的强化学习模型将Atari公司推出的一系列游戏的画面像素作为输入,用深度神经网络学习玩游戏的策略,在很多游戏中水平都超过了人类玩家。
1.4 学习过程
前面看到的监督学习的函数、非监督学习的模式和强化学习的映射规则可以统一表述为机器学习的模型。根据具体的学习任务构建实用的模型,需要考虑许多问题。
第1个问题是准备数据。数据代表模型从中学习的经验,是机器学习的前提。尤其是监督学习,必须有足够代表输入与输出之间函数关系的训练数据,因此涉及采集和标记数据的大量工作。在将采集到的数据提供给模型之前,往往还需要针对缺失值和输入变量取值范围差异等问题进行处理。
第2个问题是选择模型。机器学习的模型很丰富,如线性回归、K近邻、决策树、支持向量机、人工神经网络,它们有各自的特点和适用的场景。我们需要根据具体的任务和模型的表现来选择合适的模型。
选择模型涉及第3个问题——评价指标。虽然监督学习有训练数据的实际输出值作标准,但是度量预测误差的期望值仍然并非易事。第7章将专门介绍评价和选择