- 博客(2)
- 问答 (2)
- 收藏
- 关注
原创 cs285 lec5 策略梯度算法
首先回顾RL的目标——找到产生最大的奖励的策略把奖励设为J(θ),由于初始分布概率和转移概率未知,因此在θ下的奖励用得到之后为了找到对于θ的最大奖励值,对θ求导数1. 先把奖励换成积分形式2. 由于pθτ是连乘形式,想到用logpθτ去替代原式的pθτ3. 并且由于pθτ中只有策略与θ有关梯度的计算也用取样的方式,多次取平均。
2025-01-05 16:22:47
1020
原创 Obsidian如何实现文章内跳转
同样,对于文章内部,我们只需要在两个中括号后输入“^”,便会根据文章内段落的顺序显示文章内段落列表。Obsidian支持在不同文件中跳转,只需要输入两个左中括号"[[",便会弹出文件列表。
2023-09-28 14:02:40
6154
2
空空如也
为啥我这个快速排序不输出啊,求解答
2021-10-30
找了三天bug硬是找不出来(c语言日历)
2021-10-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人