- 博客(1545)
- 资源 (2)
- 收藏
- 关注
原创 (3-4)通用价值函数逼近:用DQN玩转Atari游戏
本文介绍了使用深度Q网络(DQN)算法玩转Atari游戏的实战方法。DQN结合了Q学习与深度神经网络,能够直接从像素级画面学习游戏策略。文章详细讲解了Atari游戏环境的特点及DQN实现过程,包括经验回放缓冲区、CNN和全连接网络两种Q网络结构的设计、ε-贪心策略等核心组件。通过Python代码实例展示了完整的训练流程,涵盖预处理、模型训练、性能评估和动画生成等功能,并优化了模型保存和可视化效果。实验结果表明DQN能够在《太空侵略者》等游戏中学习有效策略,训练过程的可视化和智能体表现动画直观展示了算法的学习
2025-06-20 11:11:39
671
1
原创 (3-3-02)通用价值函数逼近:DQN 算法流程与实现细节(2)
在硬更新中,目标网络的权重直接被主网络的权重替换。(3)调整建议:通常将最小探索率设置为一个较小的值(如0.01),以确保智能体在训练后期能够以较高的概率利用已学到的策略,同时保留一定的探索能力。软更新是指在每次训练迭代中,都对目标网络的权重进行少量的调整,使其逐渐向主网络的权重靠拢。(3)调整建议:通常将目标网络更新率设置为较小的值(如1e-3),以实现目标网络权重的平滑更新,保持学习过程的稳定性。硬更新是指在训练过程中,每隔一定的训练步数或训练周期(例如每C步),将主网络的权重直接复制到目标网络。
2025-06-20 11:07:52
623
原创 (3-3-01)通用价值函数逼近:DQN 算法流程与实现细节(1)
本文介绍了DQN算法在CartPole-v1环境中的实现与应用。首先阐述了DQN算法的核心流程,包括经验回放机制、目标网络、Q值函数逼近等关键技术。随后详细说明了DQN的神经网络结构设计,包含输入层预处理、卷积层特征提取和全连接层价值估计。在具体实现中,通过设置随机种子确保可复现性,构建经验回放缓冲区打破数据相关性,设计包含Dropout层的深度网络模型,并采用ε-贪心策略平衡探索与利用。实验结果显示,该DQN实现能在约100个episode内解决CartPole任务,平均分数超过195分。最后通过可视化训
2025-06-19 15:17:29
1148
1
原创 (3-2)通用价值函数逼近:DQN 的核心思想与突破
DQN(深度 Q 网络)的核心思想是将深度学习与Q-learning相结合,通过卷积神经网络强大的特征提取能力,自动从原始数据(如图像、视频帧)中提取高维状态特征,替代传统Q-learning依赖的离散化状态空间表示;在传统的 Q-learning 算法中,智能体是按照一定的策略与环境进行交互的,而交互产生的数据样本之间存在很强的时间相关性。在某些实现中,目标网络的参数也可以通过软更新(Soft Update)的方式进行更新,即每次更新时将目标网络的参数逐渐向主网络的参数靠近。目标网络使用固定的参数。
2025-06-19 15:11:53
547
1
原创 (3-1)通用价值函数逼近:Q-learning 的局限与深度化的必要性
深度Q网络(Deep Q-Network,DQN)是强化学习领域的重要突破。它将深度学习中的神经网络与传统的 Q 学习算法相结合,为解决复杂决策问题提供了新途径。最初,DQN 在游戏领域取得巨大成功,如在 Atari 游戏中表现优异,能通过不断学习游戏画面等输入信息,自主决策操作以获取高分。其核心在于利用神经网络对 Q 值进行端到端的逼近,通过体验回放等技术提升训练稳定性和效率。如今,DQN 的应用已拓展到诸多领域,推动着通用价值函数逼近的发展,为智能体在复杂环境中的决策提供了有力支持。
2025-06-19 11:01:40
724
原创 (2-3-02)强化学习的经典求解方法:时序差分学习(2)
step 方法根据给定的动作(上、右、下、左)模拟智能体在网格中的移动,并返回新的状态和相应的奖励值。通过选择几个关键状态(如 (0, 0)、(0, 2)、(2, 0) 等),绘制这些状态在不同回合(Episode)中的状态值变化曲线,从而直观地展示强化学习算法(如指定的 algorithm_name)如何逐步优化状态值函数。通过绘制网格、终止状态、障碍物、起始状态,并显示状态值和最佳策略动作,同时还可以绘制智能体在某一特定回合(episode)中的路径,从而直观地展示强化学习算法在网格世界中的运行情况。
2025-06-18 21:53:53
131
1
原创 (2-3-01)强化学习的经典求解方法:时序差分学习(1)
Q-learning 是强化学习中的一种时序差分(Temporal Difference, TD)方法,也是离策略学习(Off-policy Learning)的代表算法。总之,TD(0) 预测是时序差分学习的基础方法,通过观察即时奖励和下一个状态的估计值来更新当前状态的估计值。Q-learning 不依赖于环境的动态模型,也不需要预先设定的策略,而是通过与环境的交互来动态调整 Q 函数的估计值。(5)Q值更新:根据接收到的奖励和下一个状态的最大Q值来更新当前状态-动作对的Q值。
2025-06-18 19:07:07
637
1
原创 (2-2-02)强化学习的经典求解方法:从经验中学习(2)探索策略
例如下面的实例展示了贪婪策略和ε-贪婪策略在"多臂老虎机"问题中的应用,比较了贪婪策略(ε=0.0)和 ε-greedy 策略(ε=0.1)在累积奖励和选择最优动作百分比上的表现,并提供了交互式可视化界面,允许用户动态调整 ε 值并观察智能体的行为。贪婪策略(Greedy Policy)和ε-贪婪策略(ε-Greedy Policy)是两种不同的策略选择方法,用于平衡探索与利用。(3)运行实验,比较贪婪策略和 ε-greedy 策略在多个步骤和多次运行中的表现。(1)贪婪策略(Greedy Policy)
2025-06-17 21:20:25
974
1
原创 (2-2-01)强化学习的经典求解方法:蒙特卡洛方法:从经验中学习(1)
策略评估和策略改进是交替进行的,每次策略改进之后,策略会更加接近最优策略,然后继续策略评估以更新值函数。请看下面的实例,功能是使用蒙特卡洛控制来解决一个简单的强化学习问题,帮助智能体在迷宫环境中找到一条从起始点到目标点的路径,以最大化累积奖励,并且避免障碍物。(5)输出结果:最后输出如下所示的最佳策略和值函数的估计结果,显示了在给定环境中找到目标的最佳路径以及每个状态的值函数估计。(2)根据值函数改进策略:对于每个状态s,在给定值函数的情况下,选择使值函数最大化的动作作为新策略的动作。
2025-06-17 15:07:40
1029
2
原创 (2-1)强化学习的经典求解方法:动态规划:策略迭代与值迭代
动态规划、蒙特卡洛方法和时序差分是强化学习中的三种经典求解方法。动态规划是一种基于模型的方法,通过迭代更新值函数或策略,利用贝尔曼方程求解最优策略,适用于已知环境模型的场景。蒙特卡洛方法基于采样,通过完整的交互序列(episode)来估计值函数或策略,不需要环境模型,但学习速度较慢。时序差分方法结合了动态规划和蒙特卡洛的优点,通过部分回报实时更新值函数,适用于在线学习且学习速度较快。
2025-06-16 18:06:30
130
3
原创 (5-2-01)DeepSeek大模型应用开发实践:LangChain中常用的文档加载器(1)自定义文档加载器
摘要:本文详细介绍了LangChain中的文档加载器(Document loaders),这是将不同数据源转换为标准文档格式的关键工具。文档包含文本内容及其元数据,支持从TXT文件、网页到视频字幕等多种数据源加载。文章阐述了三种核心加载方法:直接加载(Load)、加载并分割(Load and split)和延迟加载(Lazy load)。重点讲解了自定义文档加载器的实现,包括继承BaseLoader创建标准加载器、使用BaseBlobParser解析二进制数据(Blob),以及通过FileSystemBlo
2025-06-16 10:58:23
99
2
原创 (1-3)强化学习的理论基础:OpenAI Gym环境初探
OpenAI Gym是一个开源的强化学习工具包,由 OpenAI团队开发和维护。OpenAI Gym提供了一系列标准化的环境(Environments),用于开发、测试和比较强化学习算法。OpenAI Gym 的目标是为强化学习研究提供一个简单、通用的接口,使得研究者可以快速实现和验证他们的算法。1. 核心功能标准化接口:所有环境都提供了一致的接口,包括 reset()、step() 和 render() 等方法,方便研究者快速切换和测试不同的环境。
2025-06-14 17:18:11
449
3
原创 (5-1)DeepSeek大模型应用开发实践:检索增强生成的基础知识
LangChain中的检索增强生成(Retrieval Augmented Generation,简称RAG)是一种结合检索和生成的先进技术,它先从外部知识库中检索与任务相关的片段,再将这些片段作为上下文输入给语言模型以生成更准确、丰富的文本。该方法能有效解决语言模型知识过时、生成内容不准确等问题,广泛应用于问答系统、内容创作和智能客服等领域。
2025-06-13 22:01:37
167
3
原创 (1-2)强化学习的理论基础:马尔可夫决策过程
强化学习的理论基础是马尔可夫决策过程(MDP),它通过状态空间、动作空间、转移概率、奖励函数和折扣因子五个要素描述智能体与环境的交互。MDP形式化定义了(S,A,P,R,γ)系统,其中奖励函数引导智能体学习最优策略。策略(π)是智能体的决策规则,值函数(V)和动作值函数(Q)分别评估状态和状态-动作对的长期收益。贝尔曼方程则提供了计算值函数的递归方法,通过迭代求解可以实现最优决策。这些概念共同构成了强化学习的数学框架,为算法设计和策略优化奠定理论基础。
2025-06-13 15:09:48
100
原创 (1-1)强化学习基础与核心概念:
强化学习是一种基于智能体与环境交互的机器学习方法,其核心是通过最大化累积奖励来学习最优决策策略。文章介绍了强化学习的基础知识,包括其诞生背景、核心思想与要素(智能体、环境、状态、动作和奖励),以及与其他机器学习方法的区别。同时探讨了强化学习面临的三大挑战:探索与利用的权衡、延迟奖励和维度灾难。最后概述了强化学习在机器人控制、游戏智能、金融决策、自动驾驶和自然语言处理等领域的广泛应用,展现了其在复杂决策问题中的强大潜力。
2025-06-12 20:18:48
24
1
原创 强化学习(加强篇)
12.3 大型实战:Predator-Prey 游戏 (使用MADDPG/QMIX)7.5 实战:GRPO 在复杂连续控制任务上的性能对比 (对比SAC/PPO)6.5 实战:SAC 训练机械臂抓取任务 (PyBullet/MuJoCo)14.2 任务定义与状态/动作空间设计 (关节角度/末端位姿, 扭矩/速度)1.1.1 核心思想与要素 (智能体, 环境, 状态, 动作, 奖励)1.1.3 强化学习的挑战 (探索/利用, 延迟奖励, 维度灾难)
2025-06-12 20:17:43
144
1
原创 (4-4-02)路径规划与决策:实战案例:路径算法性能分析与可视化(02)
本文摘要: 代码实现了一个完整的图算法分析系统,主要包括以下功能:1) Bellman-Ford算法的三种变体实现(随机、广度优先、深度优先排序),用于最短路径计算和负权环检测;2) Dijkstra算法的时间性能测试;3) 图的强连通性分析,包括传递闭包计算和强连通性检查;4) 随机图强连通概率的统计分析,通过蒙特卡洛方法估计不同连接概率下的强连通概率;5) 图形化展示图大小与强连通阈值的关系,并进行了对数尺度下的线性回归分析。实验结果表明,随着图规模增大,实现强连通所需的连接概率阈值呈递减趋势。该系统为
2025-06-12 11:13:47
106
原创 (4-4-01)路径规划与决策:实战案例:路径算法性能分析与可视化(01)
【摘要】本研究通过实现Dijkstra和Bellman-Ford等图论算法,对路径算法性能与强连通性阈值进行了系统分析。项目采用Python编程,结合NetworkX库实现图形可视化,构建了包含随机图生成、最短路径计算和强连通性测试等功能模块。实验通过比较不同算法在加权图中的表现,验证了Dijkstra算法在非负权重图中的高效性,并证明Bellman-Ford算法能有效处理含负权边的情况。研究还探讨了图规模与强连通性阈值的关系,通过可视化呈现了算法执行路径和网络结构特征,为图论算法的优化应用提供了实践依据。
2025-06-11 20:39:26
25
原创 (4-8)DeepSeek大模型应用开发实践:XML解析器
LangChain中的XML解析器是一种特殊的输出解析器,其主要作用是将大型语言模型(LLM)的文本输出转换为XML(可扩展标记语言)格式。通过使用XML解析器,可以确保从LLM获得的数据是结构化和格式化的,这样就可以在应用程序中轻松使用这些数据。(5)调用解析器:通过调用处理链的invoke方法,可以获取LLM的输出,并将其转换为XML格式。例如下面是一个使用XML解析器的例子,创建一个能够从大型语言模型(LLM)获取数据并以XML格式输出的系统,这个系统可以用于生成产品信息、新闻摘要信息等场景。
2025-06-11 15:23:30
136
原创 (4-7)DeepSeek大模型应用开发实践:Pandas DataFrame解析器
摘要:PandasDataFrame是Python数据分析的核心工具,提供二维表格数据结构,支持灵活索引、数据操作、清洗和可视化。在LangChain框架中,PandasDataFrame解析器(PandasDataFrameOutputParser)可与LLM结合,通过结构化查询从DataFrame提取数据并以字典格式返回。示例展示了如何使用DeepSeek模型查询动物信息,通过自定义JSON格式指令获取特定列数据。该解析器要求严格遵循输出格式,若查询不当会抛出异常。整个流程包括DataFrame创建、模
2025-06-11 10:33:49
265
原创 (4-3-02)路径规划与决策:Bellman-Ford路径规划(2)
本项目旨在比较和分析Dijkstra算法和Bellman-Ford算法在寻找最短路径问题上的表现,这两种算法都是解决最短路径问题的经典算法,但它们采用了不同的策略和技术。在本项目中首先实现了Dijkstra算法,该算法适用于没有负权边的图。然后,实现了Bellman-Ford算法,该算法能够处理包含负权边的图。通过这两种算法的实现,我们可以比较它们的运行时间、空间复杂度以及在不同场景下的表现。
2025-06-10 16:15:04
28
1
原创 (4-6)DeepSeek大模型应用开发实践:修正解析器
摘要:LangChain中的修正解析器(OutputFixingParser)能自动修复格式错误的输出。当原始Pydantic解析器因JSON格式错误(如属性名未用双引号)而失败时,修正解析器会调用ChatOpenAI等LLM尝试修复。示例中,它将错误格式"{'name':'TomHanks'}"修复为符合Actor模型的正确对象Actor(name='TomHanks',film_names=['ForrestGump'])。使用修正解析器时需做好异常处理准备,因为当LLM无法修复时仍
2025-06-10 15:56:10
33
1
原创 (4-5)DeepSeek大模型应用开发实践:JSON解析器
JSON解析器允许用户指定任意的JSON模式,并查询LLM以获取符合该模式的输出。在使用JSON解析器时,需要注意有时可能无法总是生成完全符合预期的JSON格式的输出。执行上述代码后将得到两种类型的输出:一种是直接调用chain.invoke方法得到的完整JSON对象,另一种是通过流式调用chain.stream方法逐步得到的JSON片段。这是因为流式输出支持逐步处理输出,而不是等待整个输出生成完毕。上面的输出结果展示了LLM生成的笑话是如何逐步构建的,每个片段都是一个包含部分或全部笑话的JSON对象。
2025-06-10 10:41:38
210
1
原创 (4-4)DeepSeek大模型应用开发实践:枚举解析器
LangChain的枚举解析器(EnumOutputParser)可以将大语言模型(LLM)的文本输出转换为预定义的枚举类型。示例中定义了一个Colors枚举类(RED,GREEN,BLUE),通过提示模板限制模型仅输出颜色名称。当询问"Frank Sinatra眼睛颜色"时,若模型返回"blue",解析器会将其转换为Colors.BLUE枚举值。这种方法实现了对模型输出的结构化处理,确保响应符合预定义的枚举范围。
2025-06-09 15:54:38
103
2
原创 (4-3)DeepSeek大模型应用开发实践:日期/时间解析器
日期/时间解析器在数据处理、分析和机器学习等领域发挥关键作用,能统一不同格式的时间数据,提高一致性和处理效率。它能自动解析时间字符串,支持复杂查询、国际化格式和错误检测,适用于日志分析、事件规划等场景。在LangChain中,DatetimeOutputParser可将LLM输出转换为标准时间格式(如ISO8601),支持自定义格式和异常处理。示例展示了如何通过解析器获取美国成立日期(1776-07-04),实现从自然语言到结构化时间的转换。
2025-06-08 10:40:13
37
2
原创 (4-2)DeepSeek大模型应用开发实践:CSV输出解析器
CSV输出解析器是一种将数据转换为CSV格式的工具。CSV作为通用表格数据格式,具有纯文本、逗号分隔、支持换行等特点,便于跨系统数据交换。LangChain的CSV解析器能将LLM输出转换为CSV列表,支持自定义分隔符、批量处理和流式处理等功能。示例代码展示了如何通过CommaSeparatedListOutputParser将DeepSeek模型生成的冰淇淋口味列表(如香草、巧克力等)转换为CSV格式,并提供了直接解析和流式处理两种实现方式。该工具适用于需要将AI输出导入电子表格或数据库的场景。
2025-06-08 10:38:58
136
2
原创 (4-1)DeepSeek大模型应用开发实践:输出解析器基础
摘要:LangChain的输出解析器(OutputParsers)是将大型语言模型(LLMs)生成的自由文本转换为结构化数据的关键工具。其主要功能包括多模型兼容性、自定义解析规则、上下文感知、错误处理及模块化设计,能有效解决模型输出
2025-06-06 11:01:42
31
2
原创 (3-5-02)DeepSeek大模型应用开发实践:使用大语言模型(LLMs)
大语言模型(LLMs)作为深度学习技术在NLP领域的重要应用,LangChain提供了标准接口与不同供应商的LLMs交互。通过LLM包装器,用户可自定义模型并集成到LangChain中,只需实现_call方法和_llm_type属性即可。示例代码展示了如何创建返回输入前n个字符的自定义LLM,并演示了同步/异步调用、批量处理和流式输出等功能,实现了与LangChain生态系统的无缝集成。这种设计提高了LLM使用的灵活性,同时保留了框架的优化特性。
2025-06-06 11:00:23
113
1
原创 (3-4-02)DeepSeek大模型应用开发实践:聊天模型(2)
本文介绍了如何在LangChain中获取对话模型生成标记的对数概率。对数概率表示模型对生成特定标记的置信度,值越接近零表示置信度越高。通过配置ChatOpenAI实例并调用invoke方法,可以获取响应文本及其对数概率。代码示例展示了设置API密钥、创建模型实例、获取响应和提取对数概率的全过程,包括流式输出的处理方式。输出结果显示了前五个标记及其对应的对数概率,有助于分析模型的决策过程和质量评估。
2025-06-05 13:45:29
24
1
原创 (3-4-01)DeepSeek大模型应用开发实践:聊天模型(1)
摘要: LangChain的聊天模型核心在于处理结构化对话消息,支持多种消息类型(用户、AI、系统等),并通过角色和内容属性组织交互。系统提供内存和SQLite两种缓存方案优化性能,示例展示了如何缓存对话减少模型调用。此外,开发者可继承BaseChatModel自定义聊天模型,需实现_generate方法处理消息逻辑,并可选支持流式输出。示例代码演示了回显最后n字符的模型实现,覆盖同步/异步调用及流式处理,输出包含响应元数据和分块内容,体现LangChain灵活的模型扩展能力。(147字)
2025-06-05 13:42:45
120
1
原创 中国人工智能学会理事长推荐,国内一线大咖专家作品
《DeepSeek源码深度解析》是薛栋与黄捷合著的技术专著,由北京大学出版社2025年5月出版。全书7章系统解析DeepSeek开源框架,涵盖混合专家模型(MoE)、多模态融合、推理优化等核心技术,配有67GB实战资源。作者团队来自华东理工大学和福州大学,兼具学术深度与工程实践。本书获中国人工智能学会副理事长和华为专家联袂推荐,被誉为"从原理到源码的AI开发宝典",京东、当当等平台均有售。适合AI工程师、研究者及高校师生深度学习框架二次开发参考。
2025-06-04 21:20:09
932
2
原创 (3-3-02)DeepSeek大模型应用开发实践:BaseChatPromptTemplate模版(2)
在某些情况下,可能会希望在创建提示模板时,某些变量的值是由特定的方法或函数动态获取的,而不是由用户手动输入或者固定的值。一个典型的例子是日期或时间。ChatPromptTemplate可以将多个消息组合在一起来创建一个聊天模板,每个消息可以是系统消息、人类消息或AI消息,它们按照特定的顺序组合在一起。相反,可以使用 foo 的值部分化提示模板,然后继续传递部分化的提示模板,只需传入剩余的变量即可。在LangChain中,可以使用不同的方法来实现模板的组合,包括字符串模板的组合和聊天模板的组合。
2025-06-04 15:06:45
24
2
原创 (3-3-01)DeepSeek大模型应用开发实践:BaseChatPromptTemplate模版(1)
摘要:BaseChatPromptTemplate是LangChain中用于构建聊天机器人对话系统的核心模板类,提供格式化消息、批量处理等功能,支持异步操作。FewShotChatMessagePromptTemplate是其子类,专门用于少量示例学习场景,通过示例数据生成格式化的聊天提示。示例代码展示了如何使用FewShot模板结合DeepSeek模型实现动物叫声问答任务,包括定义示例、创建模板、调用模型等步骤,最终输出格式化提示和模型生成的拟声词回答。该模板系统提高了文本生成的灵活性和效率。
2025-06-04 15:03:36
23
1
原创 (3-2-03)DeepSeek大模型应用开发实践:示例选择器(03)
NGram示例选择器是LangChain中基于N-gram模型的示例选择工具,通过分析单词序列匹配度筛选最相关示例。本文演示了使用NGramOverlapExampleSelector构建西译中翻译系统:1)定义示例数据和Prompt模板;2)初始化选择器配置阈值;3)结合FewShotPromptTemplate和DeepSeek模型生成翻译;4)动态添加新示例后再次调用。代码展示了如何通过N-gram重叠度动态选取示例,并输出格式化提示及模型响应,体现了该选择器在上下文相关任务中的应用价值。执行结果成功
2025-06-03 15:18:48
29
2
原创 (3-2-02)DeepSeek大模型应用开发实践:示例选择器(02)
在LangChain中,Similarity示例选择器通常使用余弦相似性作为度量文本之间相似性的主要方法。这种方法可以有效地捕捉到文本的语义信息,因为即使在词汇不同的情况下,具有相似含义的文本也会具有较高的余弦相似性。请看下面的例子,展示了使用 LangChain 的 SemanticSimilarityExampleSelector 结合 DeepSeek 模型实现语义相似性对话生成任务的过程。MMR在选择与输入最相似的示例的同时,还优化了所选示例之间的多样性。上述代码的实现流程如下所示。
2025-06-03 11:09:26
123
1
原创 新书推荐:《鸿蒙HarmonyOS应用开发100例》
作为一个对国产系统充满信仰的开发者,我刚拿到这本书的时候,内心OS是:“100个案例?这本书的案例设计得超贴心,从最简单的“用户登录框”到复杂的“在线支付系统”,循序渐进,完全不用担心被劝退!作为一个对国产系统充满热爱的开发者,看到这本书的时候,我直接泪目了!这本书直接把鸿蒙开发的全貌摆在你面前,从基础的UI组件到高阶的AI开发,100个案例手把手教你从零到精通!这本书不仅是技术指南,更是对国产系统的一份支持!:人脸识别、文字识别、语音识别,这些听起来高大上的功能,书里居然都有详细教程!
2025-05-31 18:35:31
874
4
原创 (3-2-01)DeepSeek大模型应用开发实践:示例选择器(01)
示例选择器是LangChain框架中用于优化语言模型交互的关键组件,它通过智能筛选最相关的示例来提升模型性能。摘要要点如下: 核心功能:示例选择器能从大量示例中动态选择适合当前任务的示例,用于few-shot学习场景,提高模型理解和输出质量。 主要类型: 语义相似度(Similarity) 最大边际相关性(MMR) 基于长度(LengthBased) N-gram重叠 应用实例: 翻译任务中使用长度匹配选择器(如"banana"匹配5字母单词) 反义词生成中根据输入长度自动调整示例数量
2025-05-31 18:33:34
43
3
原创 (3-1)DeepSeek大模型应用开发实践:模型交互工具
摘要:本文介绍了LangChain框架中模型交互工具的数据增强技术及应用实例。主要包括:(1)PromptTemplate组件用于动态生成提示模板,实例演示了生成童话故事的过程;(2)ChatPromptTemplate支持多轮对话场景,展示未来预测AI助手的实现;(3)MessagesPlaceholder灵活处理动态消息插入;(4)LCEL表达式语言构建复杂任务流程。通过结合DeepSeek模型,这些工具简化了语言模型应用的开发,提高了交互灵活性和效率。关键技术包括模板格式化、消息管理、链式操作等,为构
2025-05-31 18:29:50
122
原创 北京大学院士推荐作品《DeepSeek 源码深度解析》
本书系统讲解了DeepSeek源码及其核心实现原理,内容覆盖从基础概念到高级应用的全流程知识。第1章:对DeepSeek进行全面概述,帮助读者构建整体认知。第2章:聚焦环境搭建、代码获取与模型部署接入。第3章:深入探讨混合专家模型(MoE)的基本原理、功能模块与优化技术。第4章:详细解析DeepSeek-V3模型的架构知识,并通过测试验证展示实际效果。第5章:围绕统一多模态大模型,介绍Janus系列架构、核心技术及工具模块。第6章。
2025-05-29 15:47:45
810
3
文本分类与情感分析算法 数据集
2024-05-22
行为预测算法:基于自动驾驶大模型的车辆轨迹预测系统
2024-05-13
专栏《NLP算法实战》中第9部分《大模型Transformer》的所有配套源码
2024-04-24
斗转星移换图系统(PyTorch+Visdom+CycleGAN)源码
2024-04-24
Tensorflow机器翻译系统和PyTorch机器翻译系统
2024-03-22
AI智能问答系统的源码资料
2024-03-15
《基于深度强化学习的量化交易策略》一文的源码
2024-02-29
比特币价格预测系统的项目的源码和数据集
2024-01-13
我的专栏《大模型从入门到实战》2-1到2-3的配套源码,包含数据集
2024-01-11
金融大模型实战:个人专栏《检测以太坊区块链中的非法账户》项目的源码和数据集
2024-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人