码农三叔-CSDN博客

原创（11-3-01）多任务与元强化学习：综合实战：基于元强化学习的迷宫导航系统(1)

本文介绍了一个基于元强化学习的迷宫导航系统，通过模型无关元学习(MAML)和近端策略优化(PPO)算法实现智能体在动态迷宫环境中的快速适应能力。系统采用卷积神经网络作为策略网络，构建了可配置的迷宫环境，支持随机生成不同起点、终点和障碍物配置的任务。实验设置了GPU加速和随机种子确保可重复性，通过内环任务适应和外环元更新进行训练。系统实现了迷宫环境可视化、智能体路径追踪等功能，比较了元学习与独立训练、多任务学习的性能差异。结果表明元学习方法使智能体能够快速适应新任务，在机器人路径规划等领域具有应用价值。

2025-07-18 15:17:13 925 1

原创（11-2）多任务与元强化学习：元强化学习：快速适应新任务

元强化学习（Meta-RL）通过多任务学习使智能体快速适应新任务。MAML-RL框架采用内外循环优化，通过任务采样、策略梯度更新和元损失最小化实现快速适应，并可通过一阶近似简化计算。任务分布设计需平衡多样性与相似性，并采用经验回放等方法缓解灾难性遗忘。基于循环策略的元学习则利用RNN（如LSTM/GRU）架构存储任务上下文，结合上下文推断网络和存储增强机制实现动态适应。这两种方法显著提升了智能体在新任务中的学习效率和适应能力。

2025-07-18 15:11:48 724

原创（11-1）多任务与元强化学习：多任务学习：共享知识解决多个任务

多任务学习与元强化学习是人工智能领域中两个极具潜力的研究方向。多任务学习旨在让模型同时学习多个相关任务，通过共享知识和特征表示，提升模型在各个任务上的性能，增强泛化能力。元强化学习则关注如何让智能体快速适应新任务，通过学习任务的分布和结构，使智能体能够在少量样本和交互中掌握新任务的策略，显著提高学习效率。两者结合为解决复杂多变的现实世界问题提供了强大工具，例如在机器人控制中，多任务学习可让机器人同时学习多种动作技能，元强化学习则使其快速适应不同环境和任务需求。

2025-07-17 19:22:53 595 2

原创（10-4）基于模型的强化学习：集成规划与学习：前沿技术介绍

本文介绍了集成规划与学习的前沿技术，重点探讨了三种代表性方法。首先阐述了端到端训练方法，通过统一神经网架构直接学习从输入到输出的映射，在自动驾驶等领域应用广泛但面临数据需求大、可解释性低的挑战。其次详细解析了MuZero算法，它利用隐空间动力学模型结合蒙特卡洛树搜索，实现了高效的策略学习和决策优化。最后概述了其他先进方法，包括Dreamer系列基于潜在模型的演员-评论家学习、提升样本效率的EfficientZero，以及适用于离线环境的MOReL和MOPO。这些方法通过模型学习与规划的结合，显著提升了强化学

2025-07-17 19:21:05 981 2

原创（10-3-02）基于模型的强化学习：综合实战：用采样规划方法解决一个网格世界问题

本文介绍了使用多种强化学习和采样规划方法解决网格世界问题的实现。首先定义了一个5x5的网格世界环境，包含目标状态、障碍物和奖励机制。随后实现了六种核心算法：1)值迭代和策略迭代这两种动态规划方法；2)蒙特卡洛树搜索(MCTS)的采样规划方法；3)模型预测控制(MPC)的优化算法；4)PI2概率推断学习控制方法；5)基于蒙特卡洛和时序差分(TD0)的值函数估计方法。每种算法都提供了完整的Python实现代码，并通过可视化展示了策略和值函数的优化效果。最后通过主程序整合了所有算法的演示，比较了不同方法在网格世界

2025-07-16 21:21:02 1003 1

原创（10-3-01）基于模型的强化学习：利用模型进行规划

本文系统介绍了强化学习中基于模型的规划方法。首先阐述了模型规划的基本概念，即智能体通过学习环境模型进行虚拟仿真来优化策略。其次详细分析了开环规划和闭环规划两种基本类型及其特点。随后介绍了经典规划方法（值迭代和策略迭代）、蒙特卡洛树搜索（MCTS）及其四阶段流程、模型预测控制（MPC）的滚动时域优化框架等重要技术。最后探讨了轨迹采样与策略改进方法，包括随机优化策略搜索和基于采样的值函数估计。这些方法通过结合模型预测与优化算法，在减少实际交互成本的同时提高策略性能，广泛应用于机器人控制、游戏AI等领域。

2025-07-16 14:18:49 651

原创（10-2-02）基于模型的强化学习：综合实战：基于模型的CartPole动力学学习与规划

本文介绍了基于模型的CartPole强化学习系统实现，通过收集环境交互数据，分别训练线性回归和神经网络动力学模型来预测状态转移和奖励函数。系统包含数据收集、模型训练（使用PyTorch实现）、评估和可视化四个核心模块：1）数据收集函数随机采样环境交互数据；2）线性模型和神经网络模型分别采用不同架构处理状态动作映射；3）评估模块计算预测MSE指标；4）可视化模块展示模型预测效果对比和规划轨迹。实验结果表明，神经网络模型在状态预测精度上优于线性模型，两者均能实现有效的虚拟规划。该系统完整展示了基于模型的强化学习

2025-07-15 20:27:34 941

原创（10-2-01）基于模型的强化学习：学习环境动力学模型

本文系统介绍了强化学习中的环境动力学模型，重点分析了确定性模型与随机模型两种表示形式及其适用场景。在模型学习方面，详细阐述了目标函数与损失函数的设计方法，比较了线性回归、神经网络、高斯过程回归等常用学习技术的优缺点。针对部分可观测环境，深入探讨了信念状态建模的核心思想和计算方法，包括贝叶斯滤波更新和不同表示方法。文章为构建准确高效的环境动力学模型提供了全面的技术框架，对基于模型的强化学习研究具有重要指导意义。

2025-07-15 16:37:53 958 1

原创（10-1-02）基于模型的强化学习：综合实战：迷宫环境中的障碍物检测与奖励分配

摘要：本文介绍了一个基于Dyna-Q算法的迷宫导航强化学习实战案例。通过构建5×5网格世界环境（包含起点、终点和障碍物），实现了智能体的障碍物检测与奖励分配机制（到达目标+10，碰障碍物-1，每步-1）。案例展示了Dyna-Q算法结合基于模型和无模型学习的优势，包括Q值表更新、虚拟经验规划和策略优化。项目提供了完整的可视化功能：网格环境展示、策略箭头标注、学习曲线绘制以及智能体移动动画。实验结果表明该方法能有效学习最优路径，验证了模型规划对加速收敛的作用。该案例为理解强化学习算法在实际环境中的应用提供了典型

2025-07-14 21:42:22 1104 1

原创（10-1-01）基于模型的强化学习：基于模型和无模型介绍

基于模型与无模型强化学习比较摘要：基于模型的强化学习(MBRL)通过构建环境模型预测状态转移和奖励，在模型中进行规划模拟，减少真实环境交互次数，提高学习效率。其优势在于降低高成本场景的采样风险、加速策略学习、提高样本利用率及增强可解释性。无模型强化学习(MFRL)则直接与环境交互学习策略，无需建模，具有实现简单、适应性强和泛化能力好的特点。两类方法各具优势：MBRL适用于模型可构建且交互成本高的场景，MFRL更适合复杂多变环境。目前研究趋势是结合两者优势，如Dyna架构和想象回放等混合方法，通过虚拟经验生

2025-07-14 21:36:48 789

原创（5-3-03）DeepSeek大模型应用开发实践：文本分割器（3）

本文介绍了LangChain中的两种文本分割器：MarkdownHeaderTextSplitter和RecursiveJsonSplitter。MarkdownHeaderTextSplitter可根据指定标题层级分割Markdown文档，保留标题内容和元数据。RecursiveJsonSplitter则能递归拆分大型JSON文档，保持对象结构完整，并可控制分块大小。两种工具都提供了灵活的文本处理能力，分别适用于结构化文档和大规模JSON数据的处理需求。

2025-07-13 21:37:35 157 2

原创（5-3-02）DeepSeek大模型应用开发实践：文本分割器（2）

LangChain提供了CharacterTextSplitter和RecursiveCharacterTextSplitter两种文本分割工具。CharacterTextSplitter通过字符数分割文本，支持设置分隔符、块大小及重叠字符数，适用于直接处理长文本文件。RecursiveCharacterTextSplitter专为代码设计，支持多种编程语言（如Python、Java等），根据语言特性自动分割代码片段。两种分割器均可生成文档列表，便于后续处理。示例展示了从文件读取文本、设置分割参数到输出结果

2025-07-13 21:34:26 28 1

原创（9-4-02）离线强化学习：综合实战：评估AWAC、IQL和ORL方法的性能

本文实现了一个在MountainCarContinuous环境中对比三种强化学习算法（AWAC、IQL和ORL）的性能评估实验。首先通过随机策略生成离线数据集，然后分别使用三种算法进行训练和评估：AWAC采用优势加权行为克隆，IQL基于隐式策略更新和期望回归损失，ORL结合了离线预训练与在线微调。实验包含优先经验回放缓冲区、神经网络模型构建等核心组件，并通过训练曲线和评估柱状图可视化对比结果。代码实现了完整的训练流程，包括数据生成、模型训练、性能评估和早停机制，最终展示了三种算法在奖励获取和性能表现上的差异

2025-07-13 21:27:50 984

原创（9-4-01）离线强化学习：常用的模仿正则化方法介绍

模仿正则化方法结合模仿学习和正则化技术优化强化学习策略，主要方法包括： AWAC：通过优势函数加权行为克隆，优先训练高质量样本，结合Actor-Critic框架提高样本效率； IQL：使用期望回归进行隐式策略评估，避免查询数据集外动作，减少分布偏移问题； ORL：离线预训练与在线微调结合，降低在线学习数据需求。这些方法各有优势，分别适用于样本效率提升、稳定性增强和迁移学习等场景。

2025-07-11 17:32:09 576 2

原创（9-3）离线强化学习：基于不确定性的方法

《基于不确定性的离线强化学习方法比较研究》本文系统研究了三种基于不确定性的离线强化学习方法：随机集成混合(REM)、悲观引导(BRL)和集成分布估计(EDE)。通过LunarLander环境实验，对比分析了三种方法的性能表现。实验结果表明，EDE在评估阶段表现最佳(平均奖励178.07)，BRL次之(17.46)，REM最差(-120.21)。研究还发现，不确定性量化可以有效提高策略的鲁棒性，但计算成本较高。针对性能波动问题，建议调整集成网络数量和不确定性参数，以进一步优化方法性能。

2025-07-11 17:27:28 1092 2

原创（5-3-01）DeepSeek大模型应用开发实践：文本分割器（1）

LangChain框架中的文本分割器（TextSplitters）是处理长文档的关键工具，将文本分割为语义相关的较小块以适应模型限制。主要介绍了两种分割器： RecursiveCharacterTextSplitter：通过递归应用字符分隔符（如换行符、空格）分割文本，保持语义连贯性。示例展示了如何分割英文文本（默认分隔符）和中文文本（自定义标点分隔符），确保词语完整性。 HTMLHeaderTextSplitter：根据HTML标题标签（如h1、h2）分割文档，保留层级结构和元数据。示例演示了如何按标题级

2025-07-10 17:26:56 164 2

原创（9-2）离线强化学习：离线强化学习的主流方法

本文介绍了三种离线强化学习的主流约束策略优化方法：BCQ、CQL和Fisher-BRC，并通过CartPole环境进行性能比较。BCQ利用生成模型约束动作选择并引入扰动网络；CQL通过正则化Q值抑制对未见状态-动作对的高估；Fisher-BRC使用Fisher散度正则化策略分布。实验结果表明，三种方法各有优势，其中CQL表现最为稳定。文章还指出，为获得更好的性能，需要更大的数据集和更长的训练轮次。这些方法通过限制策略优化范围，有效提高了离线强化学习的稳定性和泛化能力。

2025-07-10 10:39:15 1265 1

原创（9-1）离线强化学习：离线RL的核心挑战

摘要：离线强化学习面临三大核心挑战：分布偏移导致学习策略性能下降，可通过数据重加权和策略约束缓解；外推误差引发Q值高估问题，需采用保守学习等方法控制误差；数据质量依赖性影响学习效果，需通过数据增强和重要性采样提升泛化能力。这些挑战的解决将推动离线强化学习在受限场景中的应用发展。（149字）

2025-07-09 22:28:54 875

原创（8-2-03）OpenAI的PPO和DeepSeek的GRPO：GRPO算法的核心知识和应用（3）

本文介绍了使用GRPO算法训练数学问题解答模型的完整流程。首先加载并处理GSM8K数据集，通过自定义奖励函数评估答案质量。使用GPT-2模型和分词器配置GRPO训练参数，包括学习率、批次大小等。训练过程中监控奖励值、KL散度等指标，并可视化展示。训练完成后保存模型，并生成示例答案。结果显示模型在数学问题解答任务上表现有待提升，生成的答案存在重复和错误。整个流程涵盖了数据处理、模型训练、评估和可视化等关键环节，为基于强化学习的自然语言处理任务提供了实践参考。

2025-07-09 14:05:11 330 1

原创（8-2-02）OpenAI的PPO和DeepSeek的GRPO：GRPO算法的核心知识和应用（2）

摘要：DeepSeek-R1模型采用GRPO算法优化强化学习训练，显著提升了推理能力和效率。GRPO的优点包括：无需Critic模型降低计算成本、简化优势函数计算提高训练效率、处理稀疏奖励信号能力强。实验表明，GRPO使模型在数学推理和代码生成任务中表现优异。TRL库支持GRPO实现，示例展示了如何利用GRPO训练Qwen2模型生成指定长度的文本，训练过程可见奖励提升、损失下降等指标变化。GRPO为DeepSeek-R1提供了高效、稳定的训练方案，使其性能媲美顶尖闭源模型。

2025-07-08 14:29:18 785

原创（8-2-01）OpenAI的PPO和DeepSeek的GRPO：GRPO算法的核心知识和应用（1）

GRPO（Group Relative Policy Optimization）是一种新型强化学习算法，由DeepSeek团队提出，针对传统PPO算法在大语言模型训练中的局限性进行优化。其核心创新在于采用相对奖励信号替代绝对奖励，通过比较同一问题的多个输出结果来计算优势函数，从而降低计算复杂度并提升训练稳定性。GRPO移除了价值函数训练，改用"相对奖励基线"简化优势估计，更贴近人类比较思维。算法流程包括采样、奖励标准化、优势计算和策略更新等步骤，特别适用于奖励信号稀疏的场景（如NLP任务

2025-07-08 14:27:59 1057

原创（8-1）OpenAI的PPO和DeepSeek的GRPO：PPO算法的核心知识和应用

摘要：PPO（近端策略优化）和GRPO（群组相对策略优化）是两种强化学习算法，PPO通过裁剪概率比限制策略更新幅度确保稳定性，GRPO则更灵活适用于复杂任务。本文重点介绍了PPO的背景、核心思想及实现，通过CartPole平衡问题展示了PPO算法的实战应用。代码实现了策略网络和价值网络，利用裁剪机制优化策略，并可视化训练过程。PPO简化了传统策略梯度方法，提高了样本效率和稳定性，成为强化学习领域的经典算法。

2025-07-07 16:58:10 1093 1

原创（7-3-03）TRPO算法核心知识与应用实践：综合实战：基于矩阵低秩分解的TRPO优化(3)

摘要：本文介绍了使用TRPO算法在MountainCarContinuous-v0和CustomPendulumEnv环境中的性能评估实现。通过main_mountaincar.py和main_pendulum.py文件，分别训练神经网络(NN-TRPO)和线性回归(TRLRPO)两种代理，保存训练结果到Pickle文件。plot.py文件则加载这些结果，使用matplotlib绘制性能对比图，展示三种环境下两种算法的训练曲线及置信区间。实验采用标准参数配置，包括300-2000个训练周期，并最终生成包含三

2025-07-06 09:46:44 1233 2

原创（7-3-02）TRPO算法核心知识与应用实践：综合实战：基于矩阵低秩分解的TRPO优化(2)

本文介绍了基于TRPO算法的强化学习代理实现及其在Acrobot环境中的应用。首先，详细阐述了GaussianAgent类的设计，该代理采用高斯策略进行动作选择，包含策略网络（actor）和值函数网络（critic），支持连续和离散状态空间。其次，介绍了TRPOGaussianNN类，实现TRPO算法的核心功能，包括共轭梯度方法、Fisher向量乘积计算和策略更新。最后，通过main_acrobot.py文件展示了在Acrobot环境中的训练过程，比较了神经网络和线性回归两种代理的性能，并将训练结果保存为p

2025-07-05 21:35:21 1017 2

原创（7-3-01）TRPO算法核心知识与应用实践：综合实战：基于矩阵低秩分解的TRPO优化(1)

本文介绍了基于矩阵低秩分解的TRPO算法优化方法。针对策略梯度方法容易产生大更新导致学习效率低下的问题，提出使用低秩矩阵模型作为TRPO算法参数估计的替代方案。介绍了两种TRPO变种算法：NN-TRPO（神经网络模型）和TRLRPO（线性回归模型），并对比了它们在Pendulum、Acrobot等环境中的性能。具体实现包括经验数据管理Buffer类、状态空间离散化Discretizer类、自定义强化学习环境，以及神经网络和线性回归模型的定义。实验结果表明，基于低秩矩阵的策略模型能有效降低计算复杂度，同时保持

2025-07-05 21:32:32 688 2

原创（7-2）TRPO算法核心知识与应用实践：TRPO算法的核心原理

本实例实现了策略网络（PolicyNetwork）和价值网络（ValueNetwork），通过采样环境中的轨迹数据，计算策略梯度，并利用共轭梯度法和线搜索技术在信任域内更新策略，同时优化价值网络以估计状态值函数。TRPO的核心思想是通过限制策略更新的幅度来保持策略的稳定性，这种限制是通过定义一个“信任区域”来实现的，该区域包含了在当前策略下执行的轨迹和在更新后策略下执行的轨迹之间的相对改进。这种方法的核心思想是：在每次迭代中，只在当前参数点的一个局部区域内进行优化，而不是在整个参数空间中进行无约束的搜索。

2025-07-04 17:55:21 909

原创（7-1）TRPO算法核心知识与应用实践：TRPO基础知识

摘要： TRPO（信任域策略优化）是一种强化学习算法，通过约束策略更新步长（以KL散度限制新旧策略差异）解决传统策略梯度方法的不稳定性问题。其核心结合自然梯度法与信任域思想，确保更新方向正确且幅度可控。TRPO在机器人控制等高维连续动作场景中表现优异，并为PPO等后续算法奠定理论基础。该算法平衡了稳定性与效率，推动了强化学习在复杂任务中的应用。

2025-07-04 17:51:32 938

原创（5-2-03）DeepSeek大模型应用开发实践：LangChain中常用的文档加载器(3)

本文介绍了LangChain框架中的几种文档加载器。UnstructuredHTMLLoader用于加载HTML文档，保留原始文本和元数据；FireCrawlLoader利用FireCrawl服务将网页内容转为结构化文档；AzureAIDocumentIntelligenceLoader通过Azure AI服务从多种文件格式中提取结构化数据；JSONLoader则处理JSON文件，支持使用jq查询模式提取内容。这些加载器适用于不同的文档处理场景，能够将各类文档统一转换为LangChain可处理的格式，为后续

2025-07-03 17:50:08 165 1

原创（6-4-01）Actor-Critic算法：SAC算法：最大熵强化学习

SAC（Soft Actor-Critic）算法是一种基于最大熵强化学习的先进方法，通过引入熵正则化项平衡探索与利用，特别适合连续动作空间任务。本文详细介绍了SAC的核心设计：1）采用双Q网络缓解过估计问题；2）使用策略重参数化技巧实现高效梯度传播；3）目标策略平滑正则化提升稳定性。文章还提供了基于PyBullet的机械臂抓取任务实战案例，展示了从环境构建、网络设计到训练流程的完整实现。实验结果表明，SAC算法通过最大化累积奖励和策略熵，有效提升了智能体在复杂任务中的学习能力和稳定性。该案例支持训练过程可视

2025-07-03 17:45:42 1313

原创（6-3-02）Actor-Critic算法：综合实战：A3C和A2C的性能对比

该函数首先创建一个图形窗口，然后在左侧子图中绘制两种算法每轮的奖励曲线和平均奖励曲线，通过对比可以看出A3C由于其异步更新机制，在训练初期可能具有更快的奖励增长速度，而A2C的奖励增长可能相对平稳但可能在后期逐渐接近A3C。其update方法负责执行A2C的更新步骤：首先将收集到的状态、动作、奖励等数据转换为张量，然后通过网络计算当前状态的动作概率和状态价值，接着计算目标价值和优势函数，最后根据策略损失、价值损失和熵损失的组合来优化网络参数，从而提升智能体的策略和价值估计的准确性。

2025-07-02 18:26:01 938 1

原创（6-3-01）Actor-Critic算法：A3C算法基础

A3C算法是一种高效的异步强化学习框架，通过多线程并行探索环境加速训练。其核心设计包括：1）并行化架构（全局网络与本地网络协同）；2）异步梯度更新机制（配合锁机制避免冲突）；3）熵正则化技术（平衡探索与利用）。该算法充分利用多核CPU资源，在保持稳定性的同时显著提升训练效率，适用于复杂决策任务。

2025-07-02 18:21:57 1053

原创（6-2）Actor-Critic算法：Advantage Actor-Critic (A2C)

A2C（Advantage Actor-Critic）是一种结合Actor和Critic的强化学习算法，通过优势函数衡量特定动作的价值。优势函数A(s,a)定义为Q(s,a)与V(s)的差值，指导策略改进并降低方差。优势函数估计可采用蒙特卡洛方法（无偏但高方差）或TD方法（有偏但低方差），GAE技术则平衡二者。实例代码实现A2C算法，比较了三种优势估计方法在CartPole-v1环境中的表现，通过可视化训练曲线展示不同方法的性能差异。结果表明，GAE方法在稳定性和效率上表现最佳。

2025-07-01 15:22:38 1003 2

原创（6-1-02）Actor-Critic算法：Actor-Critic原理（2）使用经典AC算法解决CartPole-v1平衡问题

摘要：本文介绍了使用经典Actor-Critic(AC)算法解决OpenAI Gym中CartPole-v1平衡问题的完整实现。通过构建策略网络(Actor)和价值网络(Critic)，结合PyTorch框架实现了AC算法，包括动作选择、网络更新等核心功能。在训练过程中引入奖惩机制（杆子倒下惩罚-10），并设置475分作为解决标准。实验结果显示，该方法能够有效解决CartPole问题，同时提供了训练指标（奖励曲线、损失曲线）和最终策略的可视化功能。代码实现了完整的训练流程，包括环境初始化、网络训练、性能评估

2025-06-30 21:33:45 742 2

原创（6-1-01）Actor-Critic算法：Actor-Critic原理（1）

摘要： Actor-Critic是一种强化学习算法，结合策略梯度（Actor）和价值函数估计（Critic）。Actor负责选择动作并优化策略，Critic评估策略性能并提供反馈。通过Critic降低策略梯度的方差，Actor调整策略以最大化累积奖励。两者形成策略评估与改进的闭环，适用于连续动作空间问题，兼具高效性和稳定性。经典流程包括策略初始化、交互采样、Critic更新价值函数、Actor优化策略及迭代收敛。该算法通过协同优化解决复杂决策任务。

2025-06-30 14:26:49 735 1

原创 DeepSeek引领科技创新的核心力量

《DeepSeek图解：大模型是怎样构建的》是人工智能领域的实用指南，通过图文并茂的方式系统讲解大模型构建全流程。全书从文本预处理、特征提取等基础环节切入，逐步深入文本分类、语言生成、机器翻译等核心技术，重点解析Transformer模型架构及其应用。采用生动比喻和直观图表，使复杂技术易于理解，既适合初学者入门，也能为专业人员提供技术参考。书中还包含DeepSeek API开发实战等实操内容，帮助读者从理论到实践全面掌握大模型构建技术，是AI从业者提升技能的宝贵资源。（149字）

2025-06-29 15:51:59 559 2

原创（5-3-02）直接优化策略：综合实战：CartPole平衡控制与LunarLander软着陆（02）

摘要：实验对比了REINFORCE算法在CartPole和LunarLander两个强化学习环境中的表现。CartPole作为简单环境，最终100回合平均回报达310.92（满分500），证明算法有效；而复杂环境LunarLander仅获-126.70分（满分300），表明算法存在局限性。分析显示，REINFORCE在低维离散动作任务中表现良好，但在高维连续控制任务中易陷入局部最优。实验验证了状态价值基线对稳定性的提升，并建议对复杂环境采用更先进算法（如Actor-Critic或PPO）、延长训练轮次及优化

2025-06-29 15:49:41 1085 2

原创（5-3-01）直接优化策略：综合实战：CartPole平衡控制与LunarLander软着陆（01）

本文通过实现带基线的REINFORCE算法，在CartPole和LunarLander两种环境中进行强化学习实验。研究展示了策略梯度方法的应用，重点分析了基线技术对降低梯度方差、提高算法稳定性的作用。实验包含策略网络设计、算法实现、训练评估和可视化分析，对比了两种环境的学习曲线。结果表明：基线能显著提升算法性能，CartPole环境更易学习，而LunarLander需要更多训练时间。本文为策略梯度方法在复杂决策问题中的应用提供了实践参考。

2025-06-29 15:48:13 576

原创（5-2-02）直接优化策略：REINFORCE：基线 (Baseline) 的引入与作用

摘要：本文探讨了强化学习中基线(Baseline)技术在策略梯度方法中的应用与优势。基线通过在保持策略梯度无偏性的前提下降低方差，显著提高了算法收敛速度。文章详细分析了基线的数学原理、选择标准及常见类型（如状态价值函数基线），并通过CartPole环境实例展示了带基线的REINFORCE算法实现。实验结果表明，该方法使训练过程更稳定，收敛更快，为后续Actor-Critic等高级算法奠定了基础。关键改进包括引入价值网络计算优势函数，以及同时优化策略和价值网络的双目标机制。

2025-06-28 21:23:56 1428

原创推荐一本书《DeepSeek 图解：大模型是怎样构建的》

《DeepSeek图解：大模型是怎样构建的》是一本系统讲解大模型构建的专业书籍，涵盖从数据预处理到模型应用的完整流程。全书采用图文并茂的方式，循序渐进地介绍了文本预处理、特征提取、文本分类、语言生成等关键技术，重点解读了Transformer架构及其应用。书中既有基础概念的通俗讲解，也有前沿技术的深度剖析，适合AI初学者、算法工程师和科研人员阅读。通过生动的案例和直观的图表，本书降低了学习门槛，帮助读者掌握大模型构建的核心知识。现已在京东、当当等平台发售。

2025-06-28 21:20:36 741

原创（5-2-01）直接优化策略：REINFORCE：蒙特卡洛策略梯度（1）

摘要： REINFORCE（蒙特卡洛策略梯度算法）是一种强化学习方法，通过采样完整轨迹估计策略梯度，利用梯度上升优化策略参数以最大化累积奖励。其核心步骤包括：蒙特卡洛采样估计梯度、计算折扣累积回报、更新策略网络。算法实现中，策略网络输出动作概率分布，通过动作采样与环境交互，记录对数概率用于梯度计算。训练完成后，可通过学习曲线评估性能，并在环境中可视化智能体行为。实例代码展示了在CartPole环境中的实现，包括网络构建、训练流程和模型保存。该算法适用于连续动作空间，但存在样本效率低等问题，可通过基线减法等技

2025-06-27 14:48:03 894

文本分类与情感分析算法数据集

我的专栏《NLP算法实战》https://mp.csdn.net/mp_blog/manage/column/columnManage/12584253中第4章文本分类与情感分析算法用到的数据。文本分类和情感分析是自然语言处理（NLP）中常见的任务，它们可以用于将文本数据归类到不同的类别或者分析文本中的情感极性。在本章的内容中，将详细讲解在自然语言处理中使用文本分类和情感分析算法的知识。

2024-05-22

行为预测算法：基于自动驾驶大模型的车辆轨迹预测系统

是我的技术文章https://blog.csdn.net/asd343442/article/details/137137667的配套源码，LyftModel 是指来自 Lyft Level 5 Research 的一个用于自动驾驶的深度学习模型。Lyft 是一家美国的科技公司，致力于开发自动驾驶技术，他们的 Level 5 Research 部门专注于研究和开发自动驾驶技术。LyftModel 很可能是他们开发的一种用于自动驾驶的深度学习模型，用于实现自动驾驶系统中的各种功能，例如感知、规划、控制等。

2024-05-13

专栏《NLP算法实战》中第9部分《大模型Transformer》的所有配套源码

本专栏深（https://blog.csdn.net/asd343442/category_12584253.html）入探讨了自然语言处理（NLP）的核心算法和实际应用的知识，从基础理论到高级技术，全面展示了NLP领域的最新发展。通过清晰的解释、实用的示例和实战项目，读者将在掌握NLP的同时获得实际项目开发的经验。 Transformer模型是一种用于自然语言处理和其他序列到序列任务的深度学习模型，最早由Google的研究人员在2017年提出，并在NIPS（Neural Information Processing Systems）会议上发表了题为《Attention is All You Need》的论文。在本章的内容中，将详细讲解在自然语言处理中使用Transformer模型的知识。

2024-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

文本分类与情感分析算法 数据集

行为预测算法：基于自动驾驶大模型的车辆轨迹预测系统

专栏《NLP算法实战》中第9部分《大模型Transformer》的所有配套源码

斗转星移换图系统（PyTorch+Visdom+CycleGAN）源码

Tensorflow机器翻译系统和PyTorch机器翻译系统

AI智能问答系统的源码资料

《基于深度强化学习的量化交易策略》一文的源码

比特币价格预测系统的项目的源码和数据集

我的专栏《大模型从入门到实战》2-1到2-3的配套源码，包含数据集

金融大模型实战：个人专栏《检测以太坊区块链中的非法账户》项目的源码和数据集

android网络编程

工资管理系统 +源码+25000字论文

空空如也

文本分类与情感分析算法数据集