自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 问答 (2)
  • 收藏
  • 关注

原创 cs285 lec5 策略梯度算法

首先回顾RL的目标——找到产生最大的奖励的策略把奖励设为J(θ),由于初始分布概率和转移概率未知,因此在θ下的奖励用得到之后为了找到对于θ的最大奖励值,对θ求导数1. 先把奖励换成积分形式2. 由于pθ​τ是连乘形式,想到用logpθ​τ去替代原式的pθ​τ3. 并且由于pθ​τ中只有策略与θ有关梯度的计算也用取样的方式,多次取平均。

2025-01-05 16:22:47 1020

原创 Obsidian如何实现文章内跳转

同样,对于文章内部,我们只需要在两个中括号后输入“^”,便会根据文章内段落的顺序显示文章内段落列表。Obsidian支持在不同文件中跳转,只需要输入两个左中括号"[[",便会弹出文件列表。

2023-09-28 14:02:40 6154 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除