
强化学习
文章平均质量分 91
强化学习
认知计算 茂森
大家好!我是个喜欢琢磨“美是怎么炼成的”博士生。简单来说,我的工作就像在给大脑和AI装双摄镜头——左手研究人类看到画作、听到音乐时,大脑里噼里啪啦闪动的火花(这叫神经美学);右手教人工智能学习梵高画星空时的狂野笔触,或者周杰伦写旋律时的小心思。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【公式理解】强化学习中的不确定性考量解析 ——从元强化学习到泛化强化学习的探索
鲁棒强化学习的最坏情况优化公式关注于在不利条件下保持策略的稳定表现。:这就像是一个探险家在迷雾中探索,他不能完全看到周围的环境(部分可观测),但他可以根据自己之前的位置、采取的行动和当前的观察来更新自己对当前位置的估计(信念状态)。他通过尝试不同的学习方法(策略),并根据这些方法带来的成绩提升(累积奖励)来调整自己的学习策略。他不仅要学会在最佳条件下驾驶,还要确保在最差条件下也能保持稳定的表现。:强化学习、元强化学习、鲁棒强化学习、部分可观测强化学习、POMDP、策略梯度、最坏情况优化。原创 2024-07-22 14:48:29 · 987 阅读 · 0 评论 -
【通俗理解】兰彻斯特方程探秘——战争中的兵力消耗动态
经过一段时间的战斗,我们可以计算出双方兵力的变化情况。例如,经过1小时后(即3600秒),A方的兵力将减少到约9万,而B方的兵力将减少到约4万。假设A方的初始兵力为10万,B方的初始兵力为5万,k=0.0001,k’=0.0002。我们可以使用兰彻斯特方程来模拟战争的进程。这个方程表明,每一方的兵力减少速度都与对方的兵力成正比,比例系数分别为k和k’。原创 2024-08-12 16:20:33 · 1862 阅读 · 0 评论 -
平均场理论下的维度约简公式与应用解析
平均场理论是一种处理复杂网络系统的方法,特别是在网络系统规模庞大时。它通过将耦合的多元微分方程组降至多个一元微分方程组,从而实现维度约简,极大地提高了计算效率。其基本思想是将网络中每个节点与其他所有节点的相互作用平均化,用一个平均场来代替所有其他节点对当前节点的影响。x˙ifxixˉ其中,xi表示第i个节点的状态变量,xˉ表示所有节点状态变量的平均值,即平均场,f是描述节点状态变化的函数。原创 2024-07-26 17:02:33 · 941 阅读 · 0 评论 -
【思维导图】【陈杰院士,辛斌】 有人/无人系统 自主协同 的关键科学问题引言部分整理,文笔相当稳健的一篇文章
【陈杰院士,辛斌】有人/无人系统自主协同的关键科学问题【点开可见大图,欢迎保存】摘要 有人/无人系统的自主协同是一项可能对未来战争模式产生颠覆性变革的重要技术. 本文分别从系统、决策、控制与安全 4 个层面分析了有人/无人系统自主协同研究面临的各种挑战和重要科学问题. 关键词 有人/无人系统, 自主协同, 分布式优化, 分布式控制 差异性 有人/无人自主协同是指有人系统与无人系统之间在组织、决策、规划、控制、感知等方面 既各自进行独立的计算、存储、处理,原创 2021-03-14 23:25:44 · 1126 阅读 · 0 评论