- 博客(6)
- 收藏
- 关注
原创 强化学习实战 :经典控制任务 CartPole-v0(含完整代码)
CartPole(小车-倒立杆)是 OpenAI Gym 提供的经典控制任务之一,其目标是通过左右移动底部小车,保持上方的杆子尽可能长时间处于竖直状态。状态空间维度为 4,包括:小车位置小车速度杆子角度杆子角速度动作空间维度为 2,分别表示小车向左或向右施加一个固定大小的力。每一步如果杆子未倒,环境给予奖励 +1;如果杆子倾斜超过阈值或小车移出轨道,回合终止。该任务非常适合作为强化学习算法的入门测试平台。
2025-05-17 16:55:53
541
1
原创 从表格到神经网络:用 DQN 实现经典游戏 CartPole(附完整代码讲解)
强化学习中,Q-learning是一种基础且有效的算法,用于估计一个策略在某状态下执行某动作的价值(Q 值)。它通过构建一个 Q 表(Q-table)来进行学习和决策。Q-learning 的局限性当问题复杂或环境的状态空间很大时,Q-learning 便面临两个致命问题:1.状态空间太大,Q 表无法存储比如一个游戏的状态是 100x100 的图像,那么状态数就是 10000x10000级别,这时无法用表格表示每个状态-动作对的 Q 值。2.无法泛化Q 表是离散的,只能记住某个具体状态的动作值。
2025-05-17 16:10:52
1454
原创 《动手学强化学习》环境依赖问题及解决方案
在复现《动手学强化学习》一书中的代码时,推荐使用,但由于版本较老,使用较新的 Python 包管理工具会导致安装失败。以下是常见问题及解决方案。
2025-04-29 14:25:26
335
原创 强化学习入门:用 Q -Learning实现格子游戏 Cliff Walking(附代码讲解)
Q-learning 是一种基于值的强化学习算法。它的目标是学习一个 Q 表(Q-table),每个状态-动作对(state-action pair)都有一个 Q 值。
2025-04-29 14:09:27
989
原创 谱聚类社区发现算法的实现与其在汽车组件应用
本文介绍了谱聚类算法的实现,重点解析了如何通过图的拉普拉斯矩阵来进行社区划分。谱聚类算法的核心是通过特征值分解得到图的低维嵌入空间,并在该空间中应用传统的 KMeans 聚类算法进行节点划分。通过这种方法,我们能够有效地对复杂的图数据进行社区划分,并且能够通过图的可视化来展示聚类结果。
2025-04-20 19:23:55
515
原创 使用指南:Neo4j Browser 在 MacOS 上的安装与使用
本文记录了在 Mac Mini M4 上使用 Neo4j 时遇到的一些常见错误,并提供了相应的解决方案。
2024-11-21 12:17:15
1725
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人