- 博客(11)
- 收藏
- 关注
原创 群体智能:批判性审视
群体智能如同一柄双刃利剑,其模仿自然之美的背后,潜藏着理论根基的脆弱、工程实践的桎梏与伦理深渊的幽暗。对其不加批判的拥抱,无异于在数字迷雾中闭目前行。群体智能的未来,当在审慎与责任中书写。
2025-06-17 00:35:10
703
3
原创 深度解析群智能算法:从生物启发的优化范式到复杂问题求解引擎
群智能算法通过模拟生物群体行为(如蚁群觅食、鸟群迁徙),构建了一种独特的分布式优化范式。自20世纪90年代蚁群优化(ACO)和粒子群优化(PSO)诞生以来,这类算法已在等领域展现出独特价值。本文从三个维度,系统解析群智能算法的核心机制与发展逻辑。:群智能并非对生物行为的精确复制,而是提取等核心原则构建的随机优化框架。
2025-06-17 00:26:34
893
原创 史上最详细Carla增加Town6,Town7,Town10地图教程以及简单代码测试
简单记录一下再Carla中增加Town6,Town7,Town10环境以及代码测试笔记本配置1、内存:+16 GB RAM memory2、显存:+8 GB Video memory3、处理器: Intel® Core™ i9-14900HX 2.20 GHz4、操作系统:10Windows,64 位操作系统, 基于 x64 的处理器5、Carla版本:0.9.146、python版本:3.7.1。
2025-06-16 18:11:55
12101
原创 无折扣形式策略梯度:深度解析与关键形式
用奖励/价值引导策略更新,同时尽可能降方差、提效率。而优势函数,正是这一路进化的“集大成者”——平衡了方差、解释性和实用性,成为深度强化学习(如 PPO、A2C 等算法)的基石。如果你在做强化学习项目,不妨从优势函数入手,搭配 Actor-Critic 框架,感受策略梯度的强大优化能力。当然,也别忽略其他形式的价值——比如 TD 误差适合快速迭代场景,基础形式帮你理解梯度本质。掌握这些,策略梯度的优化逻辑就不再晦涩,接下来就是放手实践,让智能体在环境中“一路狂飙”拿高分啦~
2025-06-10 19:04:51
716
原创 因果推断中 P(Y|X) 和 P( Y|do(x))的区别
以及是否排除了混淆变量的影响。的观测分布,而P(Y|do(X)) 对应。在因果图中,( P(Y|X) ) 对应。它们的本质区别在于是否涉及。是两个核心概念,用于区分。
2025-06-10 11:46:12
680
原创 因果推断后门准则具体例子
若直接拟合模型 (Y = \beta_0 + \beta_1 X + \epsilon),系数(\beta_1) 可能仅反映相关性,而非因果性。假设原始数据中,服药组康复率为40%,未服药组为30%,表面上药物有效。通过后门调整,分层分析明确分离了年龄的影响,确保组内比较的公平性(即同年龄组内服药与未服药患者的差异仅由药物引起)。其中,(P(Y|do(X))) 表示干预X(强制服药)时Y的分布,通过对Z分层求和消除混杂。:研究某新型药物(X)对心脏病患者康复(Y)的因果效应,需排除年龄(Z)的混杂影响。
2025-06-08 01:51:17
909
原创 强化学习中的数据Shuffling(洗牌)
算法类型 是否需要洗牌 关键原因DQN、SAC ✅ 需要 依赖经验回放,需打破样本间时序相关性PPO、A2C ❌ 不需要 优势函数计算依赖时序,在线策略无需历史数据基于 LSTM 的序列模型 ❌ 不需要 网络结构显式建模时序依赖行为克隆(专家轨迹) ❌ 不需要 需保留专家演示的动作顺序。
2025-06-07 17:27:44
857
原创 强化学习概念辨析(On-line,Off-line)
在线学习是一种机器学习范式,其核心特点是智能体(或模型)通过与环境的实时交互逐步获取数据,并在每一步数据获取后立即更新模型参数。整个过程呈现 “数据采集→模型训练→决策优化” 的动态循环,类似于人类通过持续实践不断积累经验的过程。离线学习是一种传统的机器学习范式,其核心特点是智能体(或模型)在训练阶段完全基于 预先收集的静态数据集 进行学习,训练完成后直接用于部署和决策。整个过程分为数据收集→批量训练→固定部署三个独立阶段,类似于人类通过 “复习已有知识” 掌握技能的过程。
2025-06-07 01:36:36
11493
原创 强化学习概念辨析(On-policy,Off-policy)
如有不全面或者不对的地方,还请大家评论区留言,进行增删。首先给出二者定义:On-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为同一策略。Off-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为不同策略。当然,只看上述定义还是很难理解二者之间的具体区别,接下来将对两种经典的强化学习算法(Sarsa,Q-learning)进行分析,并通过二者之间的区别详细阐述On-policy和Off-policy之间的区别。
2025-06-06 18:21:47
925
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人