- 博客(17)
- 问答 (1)
- 收藏
- 关注
原创 初学强化学习-A3C
A3C(Asynchronous Advantage Actor-Critic)是深度强化学习中的一种高效算法,由DeepMind于2016年提出。它结合了Actor-Critic框架和异步多线程训练,显著提升了样本利用率和训练速度。A2C 是 A3C 的同步版本,放弃了异步更新带来的复杂性,用同步更新换取了更好的稳定性与更高的 GPU 利用率。
2025-04-23 08:31:12
706
原创 初学强化学习-A2C
A2C(Advantage Actor-Critic)是强化学习中的一种策略梯度方法,融合了 Actor-Critic 框架和 Advantage 概念。结合策略梯度(Policy Gradient)和价值函数(Value Function)的强化学习算法,属于Actor-Critic框架的改进版本。其核心思想是通过引入优势函数(Advantage Function)降低策略梯度的方差,同时利用Critic网络的评估能力加速训练。以下从原理、数学推导和算法流程三部分解析其核心机制。
2025-04-21 21:05:51
802
原创 初学强化学习-PPO
PPO(Proximal Policy Optimization)是强化学习中非常常用的一种策略优化算法,它在实际应用中表现出了极好的稳定性和性能,成为了目前最主流的策略梯度方法之一。PPO 通过构造一个限制更新幅度的优化目标函数,在简单梯度下降框架下实现策略更新,从而在性能与稳定性之间取得平衡。
2025-04-16 11:11:01
368
原创 初学强化学习-Actor-Critic
Actor-Critic(AC)算法是强化学习中一种结合了策略梯度方法和值函数方法的算法框架。它的核心思想是同时训练两个网络:Actor(策略网络):决定在当前状态下采取什么动作。Critic(价值网络):评估当前策略下某个状态或状态-动作对的价值。
2025-04-13 16:28:56
1018
原创 初学强化学习-REINFORCE算法
REINFORCE 是一种基于蒙特卡洛采样的策略梯度算法,其主要特点是:直接优化策略函数 πθ(a∣s),通过最大化期望回报J(θ),从而学习最优策略。
2025-04-13 10:34:23
1151
原创 初学强化学习-Dueling DQN
利用采样的经验数据更新智能体的 Q 网络。即Dueling DQN算法更新时的target_q_net和q_net初始化是VAnet网络(包括隐藏层+优势函数/价值函数),而正常的DQN算法更新时的target_q_net和q_net初始化是Qnet网络(输入层+隐藏层+输出层)。而传统的 DQN 只会更新某个动作的 Q值,其他动作的 Q值就不会更新。在step函数中,与DQN算法不一样的区别是,Dueling DQN需要用到的是连续的动作区间。值得注意的是,DQN的网络结构是输入层+隐藏层+输出层。
2025-04-07 09:45:05
410
原创 初学强化学习-DDQN
DQN的动作选择和Q值评估都是基于目标网络,导致最大化操作会偏向高估某些动作的Q值。2.经验回放 存储转移样本:将每个交互的转移样本 (s,a,r,s′,done) 存入回放缓冲区。终止状态处理:若s′是终止状态(done=True),则Y=r。A[初始化主网络和目标网络] --> B[与环境交互收集样本]每隔C 步将主网络的参数复制到目标网络。E --> F[目标网络计算目标Q值]F --> G[计算损失并更新主网络]D --> E[主网络选择动作a’]G --> H[定期同步目标网络]
2025-04-06 16:18:10
425
原创 强化学习- 动手写迷宫环境(maze env)状态及动作策略初步(及.gif保存)
视频链接:https://www.bilibili.com/video/BV1Ye411P7Sw/?
2025-02-26 10:06:07
1217
原创 月球登录器的强化学习模型训练
可以发现形状里面有8个形参 着陆器坐标(x,y),其线性速度(Vx,Vy),它的角度,它的角速度,和两个布尔值表示每条腿是否与地面接触。根据官方文档https://www.gymlibrary.dev/environments/box2d/lunar_lander/而如果想要替换成PPO算法,只需要将A2C换成PPO。使用A2C算法训练模型。
2025-02-16 21:43:37
296
原创 动手学深度学习---学习过程(第六章-卷积神经网络)
当 Δ=0 时,卷积操作在每个空间位置 (i,j) 上独立进行,且每个位置的输入 X (i,j,c)和输出 Y(i,j,k)之间的关系与全连接层的线性变换一致。相比之下,最大汇聚和平均汇聚的计算非常简单,只需取最大值或平均值。平均汇聚层:用于保留每个局部区域的总体分布信息,提供一种更平滑的特征表示,通常可以减少特征的空间尺寸,同时尽量保持特征的统计信息,受噪声影响较大。最大汇聚层:用于提取每个局部区域最显著的特征,对小的位置变化具有鲁棒性,可以一定程度上增加对输入数据的平移不变性,并且对噪声不敏感。
2025-02-11 11:54:04
1611
原创 动手学深度学习---学习过程(第三章-线性神经网络)
这些方法能够有效地减少计算和存储的复杂性,帮助神经网络在高维和大规模数据集的情况下依然能够进行有效的优化。如果所有权重为零,所有神经元的梯度也会相同,这使得每个神经元的更新步伐相同,导致模型无法捕捉到多样的特征。因此,网络的每一层和每一个神经元将会表现得一样,最终无法学习到有用的特征表示。如果权重全都初始化为零,这种对称性就没有被打破,训练过程中的每个神经元将无法有不同的输出,导致模型无法有效区分输入数据的不同特征。自动微分可以用来学习模型的参数吗?练习6:尝试使用不同的学习率,观察损失函数值下降的快慢。
2025-01-14 11:51:21
562
原创 动手学深度学习---学习过程(第二章--预备知识)
记录自己的学习过程花书链接-https://zh.d2l.ai/chapter_preliminaries/ndarray.html学习历程上述代码均需要在虚拟环境下运行安装成功之后,直接运行jupyter notebook即可。可以看到已经有我的虚拟环境名字myenv了。
2025-01-03 09:57:24
329
1
原创 强化学习算法---马尔可夫,蒙特卡洛,动态规划,时序差分
通过模拟多个回合(从状态 𝑠0到终止状态sT的完整轨迹)并计算从状态 st到终止状态的累积回报来更新状态价值函数或动作价值函数。而时序差分是根据下图公式更新的(其中Rt+1是在时间步 t 后获得的即时奖励,γV(st+1) 是对下一个状态的价值函数的估计。其中,易知蒙特卡洛用的是以往的的实际回报(必须等待回合结束),然而时序差分可以理解为未来的估计值(当前的奖励和下一状态的估计值)P(s ′∣s,a) 是状态转移概率,即在状态 s 下采取动作 a 转移到状态 𝑠′ 的概率。
2024-12-30 15:20:44
1746
空空如也
学长们 大一下,想巩固一下c,有什么题库能推荐的吗?
2022-04-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人