- 博客(982)
- 收藏
- 关注

原创 大模型的训练与应用 | 二十二、DeepSeek API 申请与使用指南
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频,免费分享!
2024-08-01 15:13:51
21874
1
原创 一文详解LLMs后训练技术(二)对齐:基于人类反馈的强化学习、基于AI反馈的强化学习、直接偏好优化
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)使用人工标注的数据作为奖励信号来学习。跟SFT不同的是,SFT中标注数据的多样性和质量可能参差不齐,且监督模型捕捉更细微或适应性更强的人类偏好的能力比较有限,因此RLHF可以弥补这一点。RLHF首先收集以偏好标签或奖励信号形式的人类反馈,然后利用这些信息训练奖励模型。在奖励模型的引导下,策略通过迭代调整以更好地匹配人类偏好。
2025-07-15 18:42:53
754
原创 一文详解LLMs后训练技术(一)微调:有监督微调、自适应微调、强化学习微调
下面的图可以比较清晰地看出LLMs后训练的发展历史。后训练可以包括5个方面:一、微调:提高任务准确性二、对齐:确保与偏好对齐三、推理:促进模型深度思考四、效率:提高资源利用率五、集成与适应:扩展到多模态,解决垂直领域问题虽然实际工作中有的算法工程师或者研究员的职业范围可能非常垂直,但这篇还是尽量全面地归纳出这篇综述中关键的内容,大家可以从中挑选需要查漏补缺的部分。有监督微调(Supervised Fine-Tuning, SFT)使用标注数据集来提高特定任务的准确性。
2025-07-15 17:52:18
540
原创 大模型LLM入门的常见概念解析,大模型入门到精通,看这一篇就够了!
AGI” 是 “Artificial General Intelligence” (通用人工智能)的缩写,中文通常称为"人工通用智能"。AGI是一种理论上的形式的人工智能,指的是能够执行任何人类智能任务的机器。AIGC,即(AI Generated Content),就是利用AI创造的内容。ass=“nolink”>AIGC代表的是生成式人工智能,它是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。
2025-07-10 12:00:26
437
原创 AI Agent智能体框架详解(四)MetaGPT、Camel-AI (CAMEL)
MetaGPT 由 Chenglin Wu 创立,是最受欢迎的开源 Agent 框架之一。MetaGPT 是一个开源的多 Agent 框架,利用 LLM 编排 AI Agent 来模拟协作解决问题。MetaGPT 由 Chenglin Wu 创立,其 GitHub仓库已获得超过 5.6 万星标,这表明开发者们非常喜爱这款灵活且易于使用的开源 Agentic 框架。-自动化软件开发项目生成CAMEL Logo。
2025-07-06 20:15:00
655
原创 AI Agent智能体框架详解(三)OpenAI Agents SDK、Atomic Agents、Rasa
OpenAI Agents SDK 是一个基于 Python 的工具包,用于构建能够推理、规划和采取行动以完成复杂任务的智能自主系统。Atomic Agents 的 GitHub 仓库。Atomic Agents 是一个轻量级、模块化的框架,用于构建 AI Agent 流水线,强调 AI Agent 开发的原子性。Rasa LogoRASA 是一个开源机器学习框架,专注于构建对话式 AI 应用,侧重于文本和语音助手。
2025-07-06 18:30:00
791
原创 AI Agent智能体框架详解(二)Semantic Kernel、LangGraph、LlamaIndex
微软的 Semantic Kernel 允许用户使用 C#、Python 或 Java 构建 AI Agent 并集成最新的 AI 模型。Semantic Kernel 是一个开源开发工具包,用于构建支持多种编程语言并能够集成 AI 模型和服务的 AI Agent。LangGraph 是 LangChain 创建的一个开源 AI Agent 框架,用于构建和管理复杂的生成式 AI 工作流。-复杂度较高,可能需要高级开发者技能type。
2025-07-05 20:00:00
1001
原创 AI Agent智能体框架详解(一)LangChain、AutoGen (微软)、CrewAI
人工智能 Agent(智能体)彻底改变了软件开发者构建智能应用的方式。这些 AI Agent 框架提供了所需的基础设施、工具集和方法论,用以创建能够以最少的人工干预进行推理、规划并执行复杂任务的自主系统。进入2025 年,AI Agent 已从简单的聊天机器人演变为能进行多步推理、工具使用和协同解决问题的复杂系统。对于希望利用这项技术的开发者来说,选择合适的框架对于项目成功至关重要。
2025-07-05 18:30:00
641
原创 智能体协作 | 一文深度解密 A2A 协议
A2A 协议的出现,为 AI 智能体之间的互联互通开启了全新的篇章。它不仅仅是一个技术规范,更是构建开放、可组合、协作式 AI 生态系统的蓝图。当 A2A 协议与 LangChain/LangGraph 这样的智能体构建与编排框架相结合时,我们能够突破传统 AI 应用的边界,构建出更具弹性、更智能、更接近人类团队协作方式的复杂 AI 系统。
2025-07-04 13:16:31
603
原创 大模型LLM | 一文解析自动思维链(Auto-CoT)
大型语言模型在处理自然语言任务时,通常依赖于大量的训练数据和复杂的神经网络结构。尽管这些模型在生成文本和回答问题方面表现出色,但在面对需要复杂推理的任务时,它们的表现往往不尽如人意。为了克服这一挑战,研究人员开发了一种名为“思维链”(Chain-of-Thought,CoT)的引导方法。CoT通过要求模型在回答问题之前生成一系列中间推理步骤,从而诱导模型进行更有条理和逻辑性的思考。CoT方法有两种主要范式:一种是添加简单的提示语,如“让我们一步一步思考”,以促进LLMs生成推理链;
2025-07-04 11:46:37
1008
原创 大模型RAG技术 | RAG新范式MemLong:用于长文本生成的记忆增强检索
传统的注意力机制由于时间和空间复杂度的二次方增长,以及在生成过程中键值缓存的内存消耗不断增加,限制了模型处理长文本的能力。相关的解决方案包括减少和语言建模。。(a) 当检索到的信息长度超过模型的处理能力时,RAG甚至可能会降低生成性能(黄色)(b)利用外部检索器来获取历史信息,然后将这些信息以键值对(K-V)的形式而不是文本形式传递给模型。提出一种新方案,结合一个非可微分的检索-记忆模块和一个部分可训练的解码器语言模型,来增强长文本上下文的语言建模能力。
2025-07-04 11:40:50
740
原创 一文搞懂大模型实战:文本到SQL(Text2SQL)
Text2SQL数据集是指一类专门用于训练Text2SQL(文本到SQL)模型的数据集合。Text2SQL数据集通常包含大量的自然语言查询(如问题或指令)和对应的SQL查询语句。这些对构成了模型学习的基础,使模型能够学会将自然语言查询转换为SQL查询。****
2025-07-03 20:10:18
762
原创 大模型小白如何正确入门AI大模型?大模型入门指南(非常详细)带你从入门到精通,看这一篇就够了!
如果你之前有写后端、搞大数据、做K8s、玩过分布式系统的经验,那这个方向太适合你了。
2025-07-02 11:42:01
723
原创 大模型论文 | 大模型新架构!混合专家模型架构CoE
今天给大家分享一种新的混合专家模型架构 Chain-of-Experts(CoE),通过在每层引入专家间的顺序通信来提升模型性能。
2025-06-30 21:19:53
445
原创 大模型面试题解析 | 为什么在 MOE训练中使用_ExpertParallelism(EP)而不是TensorParallelism(TP)?
最近面试中被问到: 为什么在 MOE训练中使用_ExpertParallelism(EP)而不是TensorParallelism(TP)?我的回答是,使用EP 不会减少数据并行(DP)的数量,因为每个EP 处理不同的数据。而且,EP和 TP对通信的要求都很高,一般不会让EP和 TP跨机。根据我们的实验结果,EP的吞吐量比 TP 更高。当 EP 开启到8时,我们就不再使用 TP。面试结束后,对这个问题进行了更深入的思考,觉得还有一些未考虑的细节值得分析。翻了下DeepSeek的技术报告。在v1中,他们使用了
2025-06-29 17:00:00
606
原创 AI大模型 | 一文解析大模型预训练
原始的Transformer模型由编码器和解码器两个部分构成,而由于解码器架构对于任务的可扩展性,即生成式模型的语言建模任务和解码器适配,便于模型和数据的扩张。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。可以说是最科学最系统的学习成长路线。
2025-06-28 10:23:21
435
原创 大模型入门到精通 | 一文讲清楚大模型关键词及原理(二)Transformer架构、GPT、Bert、Token
LLM(大语言模型):基于深度学习构建的超大规模语言模型,能理解、生成自然语言并执行复杂任务。Transformer:一种基于自注意力机制的深度学习架构,是当前主流大模型(如 GPT、BERT)的核心框架。GPT(生成式预训练 Transformer):基于 Transformer 的生成式预训练模型,擅长自然语言生成,如文本创作、对话交互。
2025-06-27 11:01:44
1013
原创 大模型入门到精通 | 一文讲清楚大模型关键词及原理(一)深度学习、LLM、预训练、微调
你是不是脑子里浮现的是 OpenAI、ChatGPT、DeepSeek?还有各式各样能跳个舞、可以翻个跟头的机器人?再深入点的,还能说出训练与推理。有没有一种感觉:就是身边的信息都在声嘶力竭的鼓吹大模型正在改变世界?恍惚自己再不学习下大模型,就马上会被世界所抛弃的感觉?如果你有这种感觉,那就对了。因为我曾经也有这个感觉,所以在某个时间、某个瞬间,我就下定决心要躬身入局,弄清楚它的概念与原理。所以就有了这篇文章,弄懂了它们,就已经超过了很多人;如果还明白了其原理,就达到了“砖家”级别。
2025-06-27 10:09:47
594
原创 大语言模型LLM | 一文了解dify的工作流的两种模式(Chatflow对话流与Workflow自动化流)
在 AI 应用开发领域,如何让大语言模型(LLM)高效处理复杂任务一直是核心课题。Dify 创新性地推出两种工作流形态 ——Chatflow 对话流与Workflow 自动化流,如同两把利刃,分别破解对话交互与批量处理的难题。本文将从技术特性、应用场景到核心差异,带您全面解锁 Dify 工作流的双重魔力。
2025-06-26 11:18:07
1235
原创 大语言模型(LLM)| 一文解析AI 智能体长期记忆系统架构设计
Mem0 和 Mem0-g 通过动态提取信息、智能更新和高效检索,为解决大语言模型(LLM)的长期记忆问题提供了一个强大且实用的解决方案。它们成功地在推理精度、响应速度和部署成本之间取得了理想的平衡。
2025-06-25 10:00:27
750
原创 大模型提示词 | 常见的提示词框架分享,如何高效撰写优质 Prompt?
与 RICE 一致:指定模型身份(如 “你是 Python 开发专家”)。
2025-06-24 14:20:35
766
原创 大模型 | 一文详解什么是模型并行(Model Parallelism)?
随着大模型(比如 GPT、PaLM)的规模越来越大,参数动辄千亿级,甚至一个模型的“单层参数”都可能装不进一张 GPU 的显存!这时候,我们就要搬出“模型并行”技术来帮忙啦~
2025-06-24 14:02:42
809
原创 详解RAG五种分块策略(二)固定大小分块、语义分块、递归分块、基于文档结构的分块、基于LLM的分块
这种分块适用于文档有清晰的结构,但很多时候,一个文档的结构会比想象中复杂,此外,很多时候文档章节内容大小不一,很容易超过块的大小限制,需要结合递归拆分再进行合并处理。语义分块(Semantic Chunking),根据句子、段落、主题等有语义内涵的单位对文档进行分段创建嵌入,如果第一个段的嵌入与第二个段的嵌入具有较高的余弦相似度,则这两个段形成一个块。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
2025-06-23 20:19:11
1068
原创 详解RAG五种分块策略(一)RAG分块应用中普遍存在的问题
RAG通过结合检索与生成技术,依赖其高效检索算法、多模态融合能力及系统级优化,解决了基础大模型在企业内部应用的局限性,例如通过RAG技术对接企业内部知识库,支持,显著风险,无需微调训练模型,的应用场景,在数据安全与可控性方面,可加入权限控制逻辑,确保敏感信息仅在授权范围内使用,同时通过引用标注实现可追溯性。但是在RAG应用工程化过程中,特别在金融、医疗等高风险领域,分块策略是RAG系统的核心环节,。我们先简单回顾一个RAG工作流程(图片来源:DailyDoseofDS)
2025-06-23 20:00:25
1020
原创 大模型RAG | 什么是上下文检索(RAG)?上下文检索(RAG)的作用、痛点以及应用场景
通过为系统给出「如果你不确定答案是什么,就告诉我你不知道」这样的指示,就能鼓励模型承认自己的局限,并更透明地向用户传达它的不确定。如果你的源数据质量低劣,比如包含互相冲突的信息,那不管你的 RAG 工作构建得多么好,它都不可能用你输入的垃圾神奇地输出高质量结果。它允许用户通过提问扩展法不断选择和修正与提问有关的上下文属性值,而系统则通过来自文档和用户反馈的上下文信息不断拓展和修正,最终形成与检索词相关的最佳匹配,将所需资源响应集呈现给用户。在系统的检索组件返回的结果中,关键性的文档可能并不靠前。
2025-06-21 15:26:19
728
原创 一文详解大模型的RAG(知识库和知识图谱),大模型从入门到精通,看这一篇就够了!
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将检索与生成协同结合的技术。当大模型(如DeepSeek、Qwen、GPT)需要生成文本时,会先从外部知识库中检索相关信息,再基于检索到的内容生成答案。在知识库的构建过程中,RAG通过向量数据库和动态更新机制,实现了高效的知识检索与内容生成;而在知识图谱的构建中,RAG则借助GraphRAG、Graphusion等框架,实现了实体关系的精准抽取与图谱的深度融合。
2025-06-20 20:30:00
798
原创 大模型应用开发入门!普通程序员该如何系统学习大模型LLM&大模型学习路线
自DeepSeek爆火以来,AI技术又被广泛关注,作为我们每一个普通人,也无不时刻感受着AI一波又一波的冲击。尤其是作为程序员,相信绝大多数程序员也有和我一样的感受,从一开始的新奇,到焦虑,到试图去了解他,到去尝试,并致力于应用。不管是IT行业人员还是非IT行业,都在不同程度的去了解、学习或者使用,作为程序员,在面对新的变革技术到来,更认识到,系统性的学习是理解和掌握它的必要途径,也是最便捷的方式。这样才能帮助我们系统的了解他,如何去拥抱变革,才能知道什么样的才会被替代,也会减少自己的焦虑。
2025-06-19 14:29:05
251
原创 大模型论文 | 无需标注和奖励模型!仅靠自信度RL,16个样本训练20步,效果飙升21%!
论文:Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models链接:https://arxiv.org/pdf/2506.06395“不用人工标注!不用奖励模型!16个样本训练20步,数学能力飙升21%!这篇论文提出了,让大语言模型用作为奖励信号。就像学生通过检查自己的解题把握来提升成绩,完全摆脱对人类标注的依赖。RLSC工作流程图与概率分布对比图从外部走向本质,RLSC的核心思想令人拍案叫绝——!
2025-06-18 11:45:30
479
原创 大模型开发 | Anthropic 首次公开多智能体架构构建全流程
在构建 AI 智能体的过程中,最后一公里往往成为最为艰难的阶段。开发者本地能够运行的代码,距离成为可靠的生产系统还需要大量工程化努力。在 AI 智能体系统中,错误具有复合特性,这意味着对于传统软件而言的轻微问题,可能会导致 AI 智能体完全崩溃。只要某一步失败,AI 智能体就可能走向完全不同的路径,进而产生不可预测的结果。正如本文所述,从原型到生产环境之间的鸿沟,往往比人们预期的更为宽广。尽管存在这些挑战,多智能体系统在开放性研究任务中依然展现出巨大价值。
2025-06-18 11:17:35
1000
原创 2025别再乱学大模型了,按这个大模型学习顺序学效率翻倍!(附大模型学习路线)
程序员如果转行大模型应用的开发,别再乱学大模型了,按这个顺序学效率翻倍!
2025-06-17 19:41:04
364
原创 大模型科普 | 如何从零实现一个向量数据库?
从给词语、图片等打上数字烙印(向量化),到用数学方法衡量相似度,再到利用ANN算法解决海量向量的快速检索难题,最终发展出具备完整数据库功能的向量数据库系统。
2025-06-17 11:25:29
974
原创 大模型论文 | LLM的“记忆”与“推理”该分家了吗?一种全新的训练范式,彻底厘清思考流程
在LLM横行的时代,我们不能再满足于“结果对了就行”。—— 我们希望训练出真正“理解自己为什么对”的模型。
2025-06-17 11:02:28
846
原创 MCP实战指南!手把手带你从0到1构建异步 DeepResearch 工具
DeepResearch(深度研究)是一种颇为实用的Agent形式,如LangChain/Google,国内的字节/天工都有不错的开源项目。本文将尝试借助开源项目,构建一个。
2025-06-17 10:30:52
738
原创 详解强化学习的基本概念与原理(三)强化学习原理
策略是强化学习中智能体的行动指南,它定义了智能体在每个状态下如何选择动作。简单来说,策略就是一个从状态空间到动作空间的映射,它告诉智能体在当前所处的状态下应该采取什么行动。策略可以分为确定性策略和随机策略两类。
2025-06-16 11:55:21
655
原创 详解强化学习的基本概念与原理(二)马尔可夫决策过程的定义与五元组
这意味着,在已知当前状态 st 和当前动作 at 的情况下,未来状态 st+1 的概率分布不受之前状态和动作的影响。例如,在一个天气预测模型中,如果具有马尔可夫性质,那么明天的天气只取决于今天的天气状况和今天采取的一些影响天气的因素(如是否进行人工降雨等),而与昨天、前天以及更早的天气情况无关。马尔可夫性质极大地简化了强化学习问题的求解。如果没有马尔可夫性质,智能体在决策时需要考虑整个历史状态序列,这会使问题的复杂度呈指数级增长。
2025-06-16 11:36:55
525
原创 详解强化学习的基本概念与原理(一)强化学习的定义,强化学习与其他学习方法的区别
强化学习是机器学习中的一个重要领域,其定义可以概括为:智能体在与环境的交互过程中,通过不断尝试不同的动作,根据环境反馈的奖励信号来学习最优策略,以最大化长期累积奖励。简单来说,强化学习就是让智能体学会在不同的情况下做出最佳决策,从而获得最大的收益。在这个过程中,智能体是决策的主体,它会根据当前所处的环境状态选择一个动作执行。环境会根据智能体的动作发生相应的变化,并返回一个新的状态和奖励给智能体。奖励是环境对智能体动作的评价,正奖励表示动作是有利的,负奖励则表示动作是不利的。
2025-06-16 10:49:59
1099
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人