大模型猫叔-CSDN博客

原创大模型RAG实战教程：从零开始构建高效知识库系统

文章详细介绍了使用Dify平台构建RAG系统的完整流程，包括向量嵌入模型配置、文档切片优化策略、检索召回方法(向量检索、全文检索、混合检索)以及提示词兜底技术。通过查询优化和召回测试，提高检索准确性，减少大模型幻觉，最终构建高效的知识库系统。适合想要提升大模型应用效果的开发者学习和实践。

2025-12-05 18:38:17 1111

原创一文讲透RAG、LangChain与Agent：大模型应用的三驾马车

本文深入解析RAG、LangChain与Agent三大技术的本质区别与协同关系。RAG作为"记忆库"解决大模型知识边界问题；LangChain是开发框架简化应用构建；Agent赋予模型自主决策能力。文章详述各技术落地要点，如RAG的数据切分与检索优化、LangChain的使用技巧与局限、Agent的稳定性挑战，并强调技术选型应基于业务需求，三者协同可构建企业级AI助手，LangChain作为工具箱，RAG为核心功能，Agent为高级应用形态。

2025-12-05 18:37:34 912

原创从零掌握LoRA：大模型参数高效微调技术详解

本文详细介绍了LoRA（Low-Rank Adaptation）参数高效微调技术，通过引入小尺寸可学习矩阵A和B来修改大型预训练模型权重W，显著减少内存和计算开销，同时保持与全参数微调相当的性能。文章解释了LoRA的数学原理、参数初始化方法（B初始化为零而A不能的原因），并指出其能将检查点大小减少约10,000倍，训练速度提高25%，且不引入推理延迟，是微调大模型的理想选择。

2025-11-29 11:08:20 999

原创大模型微调核心技术：监督微调(SFT)详解与实战指南

本文系统介绍大模型微调技术，重点阐述监督微调(SFT)的概念、数据要求和实现方法。详细对比全参数微调、部分参数微调和参数高效微调(PEFT)的优缺点，深入解析LoRA、Prefix-Tuning等主流PEFT方法的技术原理与应用场景。同时探讨SFT阶段的幻觉问题及其解决方案，为开发者提供大模型微调的实用指导。

2025-11-29 11:03:21 961

原创解决Agent多步任务卡壳：从「上下文断裂」到「状态自愈」实战指南

本文解析AI Agent多步任务卡壳的"上下文断裂"问题，提出通过结构化任务状态管理、智能上下文检索、执行监控检查点及状态自愈机制解决。强调将任务状态显性化、结构化并辅以智能上下文管理，可有效避免上下文断裂陷阱，提升Agent的一致性与可恢复性，是Agent工程化的核心竞争力。

2025-11-28 14:31:46 804

原创传统自动化VS Agentic AI：企业智能升级战略指南与程序员转型路径

本文系统比较了传统规则驱动型自动化与Agentic AI智能自主型自动化的特点、优势与局限。Agentic AI以大型语言模型为核心，具备目标导向、多步骤规划、记忆反思闭环等特征，能处理复杂场景，但存在"黑箱"决策和成本较高问题。二者并非替代关系，而是互补共存：传统自动化适合稳定标准化场景，Agentic AI更适合复杂创新型任务。企业应构建自动化+Agent的混合系统，实现人机协同增效，推动软件工程向更智能方向演进。

2025-11-28 14:29:34 546

原创从LLM到Agent：一文理清AI三大架构，助你快速上手大模型开发

这篇文章详解人工智能三大架构：大语言模型(LLM)依赖静态知识；检索增强生成(RAG)结合外部系统获取动态知识；AI智能体(Agent)能自主决策并调用工具。文章对比三者的知识来源、任务复杂度、自主性等维度，分析优缺点和适用场景，并探讨混合架构与未来趋势，帮助读者根据需求选择合适的AI技术方案。

2025-11-27 13:53:55 463

原创 AI Agent完全指南 - 大模型如何通过工具调用实现指数级效率提升

AI Agent是赋予大模型工具调用能力的智能系统，具有自主性、反应性等五大特征。它由大语言模型、记忆、规划和工具使用四大核心组件构成，通过感知-思考-决策-行动-学习的工作流程闭环运行。AI Agent能自动完成多步骤复杂任务，大幅提升效率，已在客服、营销、金融等领域广泛应用，未来发展前景广阔但面临数据隐私等挑战。

2025-11-27 13:52:57 802

原创 LLM微调六大主流方法：思路讲解&优缺点对比

由于LLM参数量都是在亿级以上，少则数十亿，多则数千亿。当我们想在用特定领域的数据微调模型时，如果想要full-tuning所有模型参数，看着是不太实际，一来需要相当多的硬件设备（GPU），二来需要相当长的训练时间。因此，我们可以选择一条捷径，不需要微调LLM的全量参数，而只需要新增少量的参数，通过固定原始模型参数，而只需要微调新增的少量参数，从而达到接近使用全参数full-tuning的效果。本章主要讲述在LLM时代，当下主流的微调方法。

2025-11-26 14:15:10 1213

原创大模型微调技术全解析：从LoRA到LoRA+的演进之路

文章详解了五种优化大语言模型微调的方法：LoRA通过低秩矩阵减少训练参数；LoRA-FA冻结矩阵A降低内存需求；VeRA共享随机矩阵并训练缩放向量，参数效率最高；Delta-LoRA通过梯度更新W增强表达能力；LoRA+为矩阵B设置更高学习率提升训练效率。这些方法使大模型微调在有限计算资源下成为可能，适用于不同场景和精度需求。

2025-11-26 14:11:25 1119

原创 RAGFlow开源RAG引擎实战：从安装到企业级应用完整教程

RAGFlow是一款开源RAG引擎，v0.22.0版本支持从多平台同步数据、增强Agent能力、全新管理Web UI。本文提供完整安装部署指南，包含脚本下载、端口配置、问题解决和验证方法，帮助用户成功部署并实现基于复杂格式数据的可靠问答与引用。

2025-11-26 14:05:07 802

原创 RAG数据召回全解析：5种核心策略详解，让大模型效果提升不止一点点！

RAG技术通过从外部资料库检索相关内容增强大模型回答能力，数据召回是关键环节。文章详解五种召回策略：传统字符匹配、向量语义检索、数据重排(Rerank)、问题拆分和多路召回。这些策略可组合使用，尤其在处理大数据量时，先进行快速非精确匹配再进行精确相似度计算，能显著提升RAG系统效果，是构建高质量大模型应用的核心技术。

2025-11-25 15:31:14 559

原创大模型训练的意外发现：适度加入“有毒数据“竟可提升安全性

该研究颠覆了传统认知，发现大型语言模型预训练中适度加入有毒数据(约10%)，反而能帮助模型建立更清晰的毒性概念表示，降低特征"纠缠"程度。通过后训练技术如推理时干预(ITI)，这些模型更容易被"去毒化"，同时保持强大的一般能力。实验表明，这种方法在降低毒性的同时，最大程度保留了模型能力，且对攻击抵抗能力最强，为预训练与后训练的协同设计提供了新思路。

2025-11-25 15:30:20 392

原创大模型RAG系统优化实战：如何将99%假阳性率降至3.8%

文章讲述了如何通过优化缓存设计而非模型调优来解决大模型语义缓存系统中的高假阳性问题。作者通过实验发现，采用"最佳候选原则"，预加载高质量FAQ和战略干扰项，并引入质量控制机制，能将假阳性率从99%大幅降低至3.8%。研究表明，缓存架构设计是减少假阳性的最强大杠杆，而非模型选择或阈值调整，这对任何依赖RAG语义缓存的系统都有重要指导意义。

2025-11-24 17:45:58 983

原创 RAG知识库评估框架实战指南：从零构建可度量知识库评估体系

本文介绍了一套RAG知识库评估框架，通过Recall Score(检索召回率)、Correctness(答案正确度)和Groundedness(基于知识库程度)三项核心指标，实现对知识库建设效果的可量化、可复现、可对比的科学评估。系统采用Python实现，轻量易维护，帮助企业从'凭感觉'转向数据驱动的方式持续优化知识库质量和智能体回答能力。

2025-11-24 17:44:22 514

原创 DMR架构演进：vLLM集成后的大模型容器化部署新范式

本文介绍了Docker Model Runner (DMR)如何通过原生集成vLLM后端，从实验特性转变为生产级组件。DMR采用双轨路由机制，支持GGUF(开发环境)和Safetensors(生产环境)两种格式，遵循"显式优于隐式"的工程哲学。与Ollama相比，DMR提供更确定性的模型精度控制和基础设施即代码(IaC)集成，使企业能够以标准化、容器化的方式构建LLM基础设施，降低运维认知负担。

2025-11-22 18:12:06 1244

原创解决Agent“上下文臃肿“：代码执行模式让大模型调用更高效

本文探讨了AI Agent在处理大量工具时面临的"上下文臃肿"和"数据冗余"问题，提出"代码执行模式"作为解决方案。该模式让Agent生成代码而非直接调用工具，在沙箱环境中执行。优势包括：按需加载工具提升效率、支持复杂控制流、内置隐私保护、可积累可复用技能。这种方法可将Token使用量从150,000降至2,000，实现98.7%的优化，是AI Agent架构的重要进化方向。

2025-11-22 18:10:36 916

原创智能客服革命：从RAG到GraphRAG，打造领域专家型大模型实战指南

文章系统探讨了如何利用大语言模型重塑智能客服系统，提出"领域大模型脑"与"知识图谱骨架"深度融合的架构。详细解析了从RAG到GraphRAG的技术演进路径，包括领域专家模型的锻造方法、知识增强技术、安全与体验平衡策略，以及智能客服向AI智能体进化的未来趋势。强调新一代智能客服需具备"听得懂、找得准、办得成"的能力，通过技术重构实现从简单问答到任务执行的智能升级。

2025-11-21 18:44:43 810

原创超越局部优化：构建高性能大规模RAG系统的系统级解法

大规模RAG系统延迟优化需超越局部视角，采用系统级改造。文章从检索阶段（多级召回、混合检索）、上下文管理（重排序、压缩）、生成优化（高效推理框架）到系统编排（多级缓存、异步处理）四个维度，详细阐述优化策略。强调只有将各环节技术有机结合，才能构建真正低延迟、高吞吐、稳定的生产级RAG系统，体现工程智慧而非单一技术挑战。

2025-11-21 18:43:48 656

原创上下文工程实战：6大核心组件构建大模型应用，开发者必收藏

上下文工程是设计架构的学科，在正确时间向LLM提供正确信息，是连接模型与外部世界的桥梁。它由六大核心组件组成：Agents(决策大脑)、Query Augmentation(查询增强)、Retrieval(检索系统)、Prompting Techniques(提示技巧)、Memory(记忆系统)和Tools(工具集成)。与传统提示工程不同，上下文工程构建互联、动态系统，使AI应用在各种场景下可靠工作。开发者需从提示者转变为模型世界的架构师，通过更好工程而非更大模型打造最佳AI系统。

2025-11-21 18:42:53 1004

原创 Cherry Studio大模型部署指南：一键创建本地知识库，解决AI回答笼统与数据安全痛点

Cherry Studio客户端部署方案解决大模型回答笼统、数据安全担忧和场景记忆问题。教程指导获取DeepSeek和硅基流动API密钥，安装配置Cherry客户端，并测试模型功能。重点介绍如何创建本地知识库，支持多种文档格式，让AI基于本地资料精准回答专业问题，同时支持多模型对比分析，实现安全高效的大模型应用。

2025-11-20 11:47:11 1530

原创 RAG知识库进阶：Rank模型、召回与精排技术详解

文章详解了RAG知识库中的Rank模型，包括召回（快速筛选候选集）、精排（精细排序）和基于深度学习的Rank模型（综合评估相关性）。这些技术是搜索和推荐系统的核心，后续将结合Spring AI和本地知识库进行实战。

2025-11-20 11:45:22 866

原创上下文工程：从提示到智能上下文系统，大模型开发者必收藏指南

上下文工程是提示工程的进阶，专注于设计、管理整个上下文状态以有效利用注意力预算。关键原则包括最小高信号信息集、结构化提示和高效工具设计。长时任务管理可采用压缩、结构化记忆或多代理架构。随着AI系统复杂度提升，上下文工程将成为构建可靠AI系统的基础能力，帮助开发者更高效地管理有限注意力资源。

2025-11-20 11:39:35 860

原创 AI智能体实战教程：手把手教你用LangChain构建个人AI助手

本文介绍了AI智能体（AI Agent）的概念、特点与实现方法。AI智能体不同于传统聊天机器人，它能够自主规划、决策和执行任务，具有记忆、规划和工具调用能力。文章详细讲解了构建AI智能体的技术模块（大语言模型、记忆系统、规划与反思能力、工具调用），并提供了使用LangChain框架搭建实用智能体的实战示例。最后展望了AI智能体的未来应用场景，鼓励读者从简单任务开始实践，打造属于自己的AI助手。

2025-11-19 16:24:18 1232

原创大模型小白入门：一文搞懂Token计算原理与应用场景

文章详细解析了大语言模型中的Token概念，它是模型处理文本的最小单元，介于字和词之间的子词或字节序列。文章介绍了Token的分词原理、不同模型的分词算法差异、Token使用量的计算方法以及在向量数据库和RAG系统中的应用。通过了解Token，开发者可以更好地控制成本、管理上下文长度，优化大模型应用的性能和效率。

2025-11-19 16:21:10 1308

原创阿里通义AgentScope 1.0：多智能体开发从原型到工程化的完整指南

阿里通义实验室发布AgentScope 1.0开源框架，采用"核心框架+Runtime+Studio"三位一体架构，解决多智能体开发中的协作逻辑黑盒化、LLM幻觉、工具集成碎片化等痛点。框架支持实时介入控制、长短时记忆协同、工具并行调用等特性，提供安全沙箱、分布式部署和可视化调试能力，适用于企业级协作系统、复杂任务自动化和高敏感场景服务，实现多智能体系统从原型验证到工程化落地的转变。

2025-11-19 16:19:54 909

原创保姆级教程：Windows系统大模型部署全流程：Ollama+AnythingLLM+API对接

本文详细介绍了在Windows系统下部署大模型的完整流程，包括：使用Ollama工具下载和管理本地模型；通过AnythingLLM等平台构建RAG系统；本地模型与公有云API的对接方法。文章提供了具体的操作步骤和命令示例，适合初学者了解大模型部署基础知识，以及如何在自己的电脑上运行AI模型并进行对话实验。内容覆盖了从环境准备到实际应用的各个环节，帮助读者快速入门大模型部署技术。

2025-11-17 13:45:09 1039

原创一文搞懂AI Agent：概念、问题与解决方案，程序员学习笔记

AI Agent是具备自主感知、决策和执行能力的人工智能系统。当前面临四大问题：数据链路不通、上下文支持不足、规划不稳定、评估不准确。这些问题的核心是缺乏完整的知识体系。未来AI Agent的发展关键在于构建面向特定领域的动态知识体系，将分散的知识、经验和诀窍结构化、系统化，使AI Agent能够真正成为解决问题的生产力工具，而非仅是概念热潮。

2025-11-17 13:43:28 556

原创 5步掌握LlamaIndex：让大模型更懂你的数据，轻松构建RAG知识库

LlamaIndex是专业RAG工具，可处理文档、网页等非结构化数据，支持自然语言查询。本文通过代码示例展示如何将大数据集转化为知识库，包括模型配置、文档加载、索引创建和查询引擎构建等步骤。最终实现让大模型更理解用户数据，快速检索所需信息的功能，适合开发者提升AI应用能力。

2025-11-17 13:41:46 1038

原创 AI大模型彻底颠覆行业：程序员的必学之路与未来机遇

AI大模型实现从"人工智障"到类人理解的质变，彻底重构技术范式，在工业、医疗、教育等领域落地生根，重塑生产生活方式。它重构了人与知识机器的关系，打破行业壁垒，释放创造力。这场革命如同工业革命与信息革命，全面重构生产要素、产业结构和社会分工，是AI从业者的必学技能。

2025-11-13 11:42:41 702

原创 2025年大模型架构深度对比：Kimi K2 Thinking、Qwen3 Next等技术解析

文章对最新发布的大语言模型架构进行全面技术对比，包括Kimi K2 Thinking(上下文256k，1T参数)、Qwen3 Next(GDN与Gated Attention混合，上下文262k)、MiniMax-M2(激活参数10B)和Kimi Linear(改进的KDA机制)。详细分析了各模型的技术特点、参数设置和性能表现，为开发者提供了了解最新LLM架构发展的技术参考。

2025-11-13 11:41:18 1056

原创 MCP革命：从直接工具调用到代码执行，让大模型效率提升98.7%

MCP当前"直接工具调用"模式存在效率瓶颈，工具定义和中间结果大量消耗上下文窗口。作者提出转向"代码执行"模式，让LLM生成代码而非直接调用工具，充分利用其编码优势，极大降低token消耗。该模式实现渐进式披露、高效上下文处理、更强控制流、数据隐私保护和状态持久化，带来更复杂高效的工作流，同时需解决安全沙盒环境挑战。

2025-11-13 11:40:19 458

原创提示词工程宝典：User Prompt与System Prompt核心概念详解

文章详细介绍了大模型提示词工程的核心概念，重点区分了User Prompt（即时任务指令）和System Prompt（全局性角色定义）两种提示词类型及其应用场景。通过RTF结构化框架和实例演示，阐述了如何设计清晰、有效的提示词，并提供了优化策略和版本管理方法，帮助读者提升与AI大模型的沟通效率，获得更精准、高质量的输出结果。

2025-11-12 11:17:02 534

原创大模型微调显存估算完全指南：从参数量到显卡选择的收藏宝典

文章介绍了大模型微调的显存估算方法：参数量×2字节(FP16)×1.1=所需显存。针对显存不足情况，可采用8Bit或4Bit量化技术，分别减少至原需求的一半和1/4。文章详细列出了不同参数量模型微调所需的显存和适合显卡，并提供了在有限显存条件下可进行的微调方案，帮助读者量体裁衣选择硬件。

2025-11-12 11:15:39 872

原创深度解析：AI如何重塑各行业，小白如何抓住AI红利

文章阐述AI技术将如过去互联网技术一样重塑各行业工具和载体，催生新商业模式。对非技术背景但想入行AI的人，建议关注所在行业的AI工具公司，担任产品经理或运营，因为行业知识比技术理解更重要。同时提醒注意提示词工程师等过渡性职业，认为它们不会长期存在。核心观点是：学会使用所在行业的AI工具，比学习AI底层技术对大多数人更有价值。

2025-11-12 11:14:39 992

原创大模型开发必看：LangGraph与Agno-AGI框架对比与选择指南

文章对LangGraph与Agno-AGI两大大模型框架进行深度对比。LangGraph提供显式控制和可靠性，通过图结构实现状态管理；Agno-AGI注重性能与简易性，提供五层级智能体架构。前者适合高可靠性、复杂逻辑场景；后者适合性能敏感、快速迭代项目。文章分析了两框架的架构特性、状态管理、多智能体实现及部署差异，帮助开发者根据项目需求做出明智选择。

2025-11-10 13:39:10 1270

原创告别RAG知识干扰：多场景知识隔离架构解决方案与实战代码

文章介绍了解决RAG系统跨场景知识干扰的架构方案，通过业务场景路由+知识隔离机制，先判断用户问题所属场景，再检索对应知识库生成精准答案。提供三种实现方案：多向量库+分类器路由、元数据过滤和HyDE+查询重写，并详细给出项目结构、配置文件、核心代码和部署优化策略。该方案能有效提高回答准确性，增强系统可信度。

2025-11-10 13:37:52 1176

原创 28个RAG高频面试题详解：从原理到未来，助你轻松应对AI面试

本文系统梳理28个RAG高频面试问题，从基础认知、常见问题、高级机制到优化策略全面解析。详解RAG原理与SFT区别，分析内容缺失、文档排名等核心问题解决方案，阐述RAG-Fusion工作机制及优化策略，探讨未来发展方向。为AI开发者提供完整RAG知识体系，助力面试准备与技术提升。

2025-11-08 11:27:24 965

原创 RAG检索排序深度解析：面试加分+实战技巧，从入门到精通必看

本文深入解析RAG系统中的检索排序技术，强调其决定"检索内容是否靠谱"的关键作用。文章提出融合排序（Hybrid Ranking）策略，结合稀疏检索（BM25）和密集检索（向量相似度）的优势，通过线性加权或Re-ranking模型优化结果。详细介绍了Query理解、效果评估方法及项目经验展示技巧，帮助开发者提升RAG系统召回质量，应对面试挑战，打造高含金量项目经历。

2025-11-08 11:25:56 1152

原创 40岁学AI不晚：我的大模型转型之路

凌晨三点，我盯着电脑屏幕上密密麻麻的代码，指尖在键盘上敲出最后一个分号，运行窗口弹出“success”的绿色字样时，突然红了眼眶。

2025-11-07 10:34:21 1063

空空如也

空空如也