7. 直接策略搜索及学习过程

本文探讨了强化学习中的直接策略搜索方法,通过深度神经网络在Atari游戏中的应用展示了其潜力。同时,概述了机器学习的学习过程,包括数据准备、模型选择和评价指标,强调了在不同学习任务中选择合适模型的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.3.3 直接策略搜索

强化学习的另一类解法建立策略的参数模型,将最优化问题的目标函数变为以参数θ为自变量的复杂函数ρ(θ),然后发展出各种方法估算这些函数。例如,DeepMind公司开发的强化学习模型将Atari公司推出的一系列游戏的画面像素作为输入,用深度神经网络学习玩游戏的策略,在很多游戏中水平都超过了人类玩家。

1.4 学习过程

前面看到的监督学习的函数、非监督学习的模式和强化学习的映射规则可以统一表述为机器学习的模型。根据具体的学习任务构建实用的模型,需要考虑许多问题。

第1个问题是准备数据。数据代表模型从中学习的经验,是机器学习的前提。尤其是监督学习,必须有足够代表输入与输出之间函数关系的训练数据,因此涉及采集和标记数据的大量工作。在将采集到的数据提供给模型之前,往往还需要针对缺失值和输入变量取值范围差异等问题进行处理。

第2个问题是选择模型。机器学习的模型很丰富,如线性回归、K近邻、决策树、支持向量机、人工神经网络,它们有各自的特点和适用的场景。我们需要根据具体的任务和模型的表现来选择合适的模型。

选择模型涉及第3个问题——评价指标。虽然监督学习有训练数据的实际输出值作标准,但是度量预测误差的期望值仍然并非易事。第7章将专门介绍评价和选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值